La semana pasada te hablé de GPT-5 por encima - la jugada estratégica de OpenAI, los precios agresivos, el enrutador que decide cuándo pensar. Pero quedaron cosas en el tintero. Números importantes, comparaciones reveladoras y métricas que cambian la perspectiva sobre dónde está realmente posicionado este modelo.

Hoy vamos al grano con los benchmarks que importan, desglosamos cómo se comporta GPT-5 frente a cada competidor específico, y analizamos si los datos respaldan la estrategia de OpenAI. También te cuento sobre una newsletter en inglés que me tiene enganchado y novedades del libro. Si esta información te resulta valiosa, ya sabes - comparte. El botón está justo aquí debajo.

El mapa real de la competencia

Después de una semana probando GPT-5 en profundidad, los números cuentan una historia más matizada que la narrativa inicial. Pero antes de entrar en comparaciones específicas, hay que entender el contexto histórico de lo que estamos viendo.

Según el Artificial Analysis Intelligence Index v2.2 - que combina 8 evaluaciones diferentes incluyendo MMLU-Pro, GPQA Diamond, Humanity's Last Exam y otros benchmarks clave - podemos trazar la evolución real de la inteligencia en modelos de lenguaje desde noviembre de 2022.

El patrón histórico que GPT-5 altera:

Cada numeración de GPT históricamente representó saltos generacionales dramáticos. GPT-1 demostró que los Transformers podían generar texto legible - la prueba de concepto. GPT-2 escaló la idea y mostró que estos sistemas podían escribir de forma coherente a mayor escala. GPT-3 fue el momento eureka: al aumentar masivamente la computación, el sistema de repente podía escribir de forma cercana a como lo hacemos los humanos - ahí nació ChatGPT desde la versión 3.5.

Luego llegó GPT-4, y según nuestros datos del Intelligence Index, literalmente duplicó el nivel de inteligencia de su predecesor. Pasamos de un índice de ~25 puntos con GPT-3.5 a más de 50 puntos con GPT-4. Un salto brutal que justificó completamente el cambio numérico.

Salto de GPT-3.5 a GPT-4, prácticamente duplica capacidades.

Sato de GPT-4o a o1-preview, pone a OpenAI por delante de la competencia por mucho.

Pero GPT-5 rompe este patrón.

Si trazamos la línea de OpenAI en el gráfico, vemos que entre O3, O3 Pro y GPT-5 apenas hay diferencia en capacidades - todos rondan el 67-68% del índice. El verdadero salto generacional lo vivimos hace meses con O1 Preview, el primer modelo razonador que nos llevó de ~50 a ~65 puntos. Ese debería haber sido GPT-5.

Línea negra - Salto de o3-pro a GPT-5. Aumento de capacidades muy sutil.

La decisión de nomenclatura de OpenAI significa que GPT-5 no representa la revolución que históricamente implicaba esta numeración, sino una consolidación de modelos existentes.

ARC-AGI: La prueba de fuego del razonamiento

Aquí es donde se separa el trigo de la paja (una de las pruebas mas complicadas que existen actualmente para estos LLMs):

Grok 4: 15.9%
GPT-5 High: 9.9%
Claude 3.5 Sonnet: 8.2%
GPT-4o: 5.1%

Grok mantiene una ventaja brutal en razonamiento abstracto puro.

HumanEval: Programación sin florituras

El benchmark donde GPT-5 quería brillar:

GPT-5: 91.5%
Claude 3.5 Sonnet: 88.4%
Grok 4: 86.7%
GPT-4o: 83.2%

Aquí sí que OpenAI consigue liderar. La diferencia no es abismal, pero es consistente y se nota en uso real.

MMLU: Conocimiento general

Las puntuaciones que miden amplitud de conocimiento:

Claude 3.5 Sonnet: 89.7%
GPT-5: 88.9%
Grok 4: 88.1%
GPT-4o: 86.4%

Empate técnico entre los tres líderes. Claude mantiene una ligera ventaja en comprensión y razonamiento sobre textos complejos.

El factor precio-rendimiento

Aquí es donde OpenAI está jugando una partida diferente:

Coste por millón de tokens (input/output):

GPT-5: $1.25 / $10
Claude 3.5 Sonnet: $3 / $15
Grok 4: $5 / $15
GPT-4o: $2.50 / $10

GPT-5 ofrece rendimiento competitivo a la mitad de precio que sus rivales directos. En programación, donde lidera, la ventaja precio-rendimiento es demoledora.

Los problemas que persisten (con datos)

Consistencia del enrutador: He ejecutado el mismo prompt 50 veces

"Calcula la probabilidad de obtener exactamente 3 caras en 5 lanzamientos de moneda"

Veces que usó GPT-5 rápido: 31 (62%)
Veces que usó GPT-5 Thinking: 19 (38%)
Respuestas correctas (modo rápido): 28/31 (90.3%)
Respuestas correctas (modo Thinking): 19/19 (100%)

El enrutador es conservador - prefiere velocidad sobre precisión cuando la decisión no está clara.

La newsletter que me leo cada día

Cambiando de tema completamente... Como muchos seguís el mundo tech además de IA, quería recomendaros Morning Brew. La leo cada mañana para ponerme al día del panorama tecnológico y de startups.

No es pesado, va al grano, y siempre hay alguna noticia relevante para entender el contexto de la industria. Para los que tenéis proyectos o trabajáis en tech y sabéis ingles, creo que os va a molar.

Business news as it should be.

Join 4M+ professionals who start their day with Morning Brew—the free newsletter that makes business news quick, clear, and actually enjoyable.

Each morning, it breaks down the biggest stories in business, tech, and finance with a touch of wit to keep things smart and interesting.

Try it yourself (for free)

Actualización del libro (y buenas noticias para lectores actuales)

Para quienes no lo sepáis, tengo un libro sobre cómo dominar ChatGPT que lleva varios años siendo el número 1 en ventas en la categoría de IA en Amazon España. Varios de los que estáis suscritos aquí ya sois lectores del libro - y si es vuestro caso, tengo buenas noticias.

Mi promesa desde el día uno ha sido mantener el libro actualizado y enviar cada nueva edición gratuitamente a todos los compradores. Pues bien, estoy trabajando en una nueva edición que incluirá no solo el análisis completo de GPT-5 que hemos estado viendo, sino también... sorpresa. Digamos que el libro va a expandirse más allá de ChatGPT con secciones completamente nuevas que creo que os van a resultar muy interesantes.

Para los lectores actuales: os llegará automáticamente a vuestro email cuando esté lista. Para quienes no tenéis el libro aún: mi recomendación honesta es que esperéis un par de semanas. La nueva edición va a estar mucho más completa y actualizada.

Si tenéis curiosidad, podéis echar un vistazo aquí en Amazon - tiene críticas excelentes y la gente parece que lo encuentra realmente útil. Pero insisto: mejor esperar a la nueva edición que ya viene con todo actualizado.

Ver el libro en Amazon →

El veredicto después de los números

GPT-5 no es el modelo más potente del mercado, pero podría ser el más inteligentemente posicionado:

Domina en: Programación, precio-rendimiento, velocidad
Compite en: Matemáticas complejas (modo Thinking), conocimiento general
Pierde en: Razonamiento abstracto puro, comprensión contextual sutil

La estrategia es clara: OpenAI no está jugando a ser el más potente, está jugando a ser el más útil y accesible. En un mercado donde la diferencia entre modelos top se está reduciendo, puede que sea la jugada correcta.

Los números sugieren que GPT-5 cumple exactamente lo que OpenAI necesitaba: un modelo competitivo técnicamente pero superior comercialmente. No es la revolución que esperábamos, pero es la evolución que el negocio requería.

🛠️ Herramientas IA

✅ v0: Diseña hermosas aplicaciones y sitios web con simples prompts.

✅ Dazzle: Convierte tus ideas en anuncios llamativos y de alta conversión.

✅ Shotva: Transforma capturas de pantalla simples en imágenes pulidas y listas para compartir.

✅ FastLipSync: Transforma tus vídeos con una sincronización labial realista gracias a la IA.

✅ Pepper: Organiza tus reuniones y gestiona tu agenda con este secretario con IA.

¿Te ha gustado el email de hoy?

P.D.: El dato más revelador: en tareas de programación real (no benchmarks académicos), GPT-5 está ganando por márgenes que importan. Eso explica por qué Anthropic está acelerando el desarrollo de sus próximos modelos.

🤖 GPT-5 vs la competencia: números sin marketing