🤖 GPT-5.5: la mejora que nadie explica

Esta edición no tiene noticias.

Un solo tema. Una pregunta que lleva una semana circulando por X, YouTube y cada grupo de WhatsApp de IA que existe: ¿GPT 5.5 es el salto brutal que prometían, o es otra historia de hype sin sustancia?

He pasado siete días con el modelo antes de escribir esto.

Aquí van las conclusiones.

🔒 La ventaja que tu competencia no tiene (todavía)

Claude Co-Work puede cambiar tu forma de trabajar. En 10 minutos sabrás exactamente cómo. No está a la venta — solo se desbloquea recomendando IA al Día a 1 persona.

Lo que significa el .5.

OpenAI no elige sus números al azar (aunque a veces lo parezca).

Cada salto de medio punto en su historia, sin excepción, ha significado una sola cosa: nueva base, nueva escala, modelo reentrenado desde cero. GPT-3 → 3.5 → 4 → 4.5 → 5 → 5.5. Ese patrón no falla.

Todo lo que vino entre GPT-5 y GPT-5.4, las versiones 5.1, 5.2, 5.3 y 5.4, era el mismo modelo base exprimido con post-entrenamiento y reinforcement learning. Sin cambio de arquitectura de fondo, solo más refinamiento encima.

GPT-5.5, conocido internamente como "Spud", es la primera base nueva desde GPT-4.5.

Arquitectura nativa omnimodal: texto, imagen, audio y vídeo procesados en un único sistema unificado, no cuatro modelos pegados con cinta. Co-diseñado junto al hardware NVIDIA GB200 desde el principio.

Eso importa para entender el juego a largo plazo. Las versiones 5.6, 5.7, 5.8 partirán de esta base. OpenAI acaba de cambiar el suelo sobre el que va a construir los próximos meses.

¿Debería llamarse GPT-6, como decían algunos? No. Ni de lejos. Eso es hype puro, y lo veremos en detalle más adelante.

El precio que no es lo que parece.

$5 por millón de tokens de entrada. $30 de salida.

El doble exacto de GPT-5.4.

Primera reacción de todo el mundo: cara. Muy cara.

Para. Hay un dato que casi nadie mencionó en el ruido del lanzamiento: GPT-5.5 usa un 40% menos de tokens de salida para completar las mismas tareas en Codex. No lo dice solo OpenAI. Lo confirma Artificial Analysis con sus propias mediciones independientes.

La matemática real: el coste efectivo sube un 20%, no un 100%.

Y hay más. En configuración medium, GPT-5.5 alcanza la misma puntuación en el Intelligence Index que Claude Opus 4.7 al máximo rendimiento, a la cuarta parte del coste. Unos $1.200 frente a $4.800 para correr el mismo benchmark.

Codex: el contexto que falta en todos los análisis.

El modelo importa. Pero el modelo solo no explica la diferencia.

Codex lleva activo desde mayo del año pasado, y con cada versión del modelo se ha vuelto más potente y más pulido. La clave es que todo ocurre en la misma conversación: le pides que construya un dashboard, genere assets visuales con el modelo de imágenes, integre esos assets en el código y resuelva errores en bucle, sin salir del contexto. Sin cambiar de ventana. Sin reexplicar nada.

En versiones anteriores, ese bucle se rompía. El modelo perdía el hilo, contradecía decisiones previas, pedía que repitieras el objetivo.

GPT-5.5 mantiene la intención original en secuencias de 20 a 30 pasos. Es menos probable que entre en bucles de corrección fallida. Más probable que detecte el problema antes de que nadie se lo señale.

¿Cuánto importa eso en la práctica? El equipo de finanzas de la propia OpenAI usó Codex para revisar 24.771 formularios fiscales: 71.637 páginas. Adelantaron el trabajo dos semanas. Eso no es un benchmark. Es trabajo real.

Más del 85% de los empleados de OpenAI lo usan semanalmente en funciones de ingeniería, finanzas, comunicación y datos. Eso dice mucho.

4 plazas gratis. 2 semanas. Tu primer empleado IA funcionando.

La primera edición beta de Tu Primer Empleado IA está casi llena. No aprendes "a usar IA": sales con un agente configurado para tu negocio, ejecutando una tarea real que hoy te quita tiempo.

4 sesiones en directo, los martes 12, jueves 14, martes 19 y jueves 21 de mayo. Sin programar, sin teoría, sin herramientas que no vas a usar.

Es gratis, a cambio de tu caso de estudio. Antes de reservar plaza, te invito a una llamada de 20 minutos para confirmar que encajas.

No entran los 4 primeros que apliquen. Entran los 4 que mejor encajen.

Postular mi plaza →

Dónde se nota de verdad.

La prueba más clara no está en los papers. Está en el cronómetro.

Mismo prompt. Dos modelos. Un portfolio web completo para un conferenciante, con búsqueda de información actualizada y diseño desde cero.

GPT-5.4: 7 minutos, 99 mensajes, resultado funcional pero genérico. GPT-5.5: 5 minutos, 37 mensajes, resultado visualmente más cuidado y con información más relevante.

El modelo no solo llegó antes. Llegó hablando menos.

En Terminal-Bench 2.0, el benchmark que mide flujos de trabajo reales en línea de comandos, GPT-5.5 saca 82,7%. Claude Opus 4.7 llega al 69,4%. Gemini 3.1 Pro, 68,5%. Trece puntos sobre el segundo clasificado. No es un margen pequeño.

GPT 5.5 vs Claude: la comparativa sin marketing.

No hay un ganador absoluto. Hay contextos, y conviene tenerlos claros.

En coding agéntico y flujos de trabajo encadenados, GPT-5.5 gana con claridad. En GDPval, que mide trabajo de conocimiento en 44 profesiones reales, de finanzas a gestión de producto, GPT-5.5 supera a profesionales humanos en el 84,9% de las comparaciones.

Pero en SWE-Bench Pro, resolución de issues reales de GitHub, Claude Opus 4.7 puntúa 64,3% frente al 58,6% de GPT-5.5. OpenAI alega memorización en los tests de Anthropic. Que cada uno saque sus conclusiones.

En uso autónomo de ordenador, casi empate: 78,7% GPT-5.5 frente al 78,0% de Claude en OSWorld-Verified.

La forma más honesta de verlo: GPT-5.5 en Codex es el mejor operador para tareas de ejecución encadenada. Claude es el mejor interlocutor para razonamiento profundo y código complejo fuera de un entorno específico. Si tu flujo de trabajo vive dentro de Codex, la elección es fácil. Si no, la diferencia se estrecha bastante más de lo que los titulares sugieren.

El problema del hype.

OpenAI lleva semanas vendiendo esto como si fuera otro nivel de IA.

Prometiendo "Spo", una super-aplicación, un salto histórico. Y los influencers de turno amplificando cada filtración: que si GPT-6, que si lo cambia todo, que si es una locura.

Llegó GPT-5.5.

Es un modelo excelente. Rápido, eficiente, el mejor para coding agéntico a día de hoy. Pero no es GPT-6 ni de coña. Es la nueva base. El punto de partida para las versiones que vienen. Eso ya es valioso por sí solo, no necesita exageración para serlo.

El problema con el hype no es solo la decepción en el lanzamiento. Es que hace más difícil saber qué usar y cuándo. Ese ruido te cuesta decisiones reales.

Qué hago yo con esto.

Tres cosas concretas.

Primero: trabaja en configuración medium. Los datos de Artificial Analysis son contundentes. La diferencia entre medium y extra high no justifica ni el tiempo ni el coste en la mayoría de tareas.

Segundo: si usas Codex, cambia ya a GPT-5.5. Es la mejor opción para flujos agénticos, sin discusión. Si no usas Codex, la ventaja sobre Claude se reduce considerablemente.

Tercero: pruébalo con tus propias tareas antes de tomar ninguna decisión. Los benchmarks cuentan la mitad de la historia. La otra mitad la cuenta tu flujo de trabajo real.

Cuando estés listo para dar el siguiente paso

La IA no te va a reemplazar. Te va a reemplazar alguien que sepa usarla. Este curso gratuito de 5 días te enseña lo esencial: prompts efectivos, fundamentos de automatización, y cuándo los agentes son mejores que los workflows. ¿Listo para subir de nivel?