xAI acaba de soltar una bomba. Grok 4 acaba de llegar, y está arrasando con todo lo que se le pone por delante. Es oficialmente el LLM más potente jamás entrenado.

Los números son brutales. Los benchmarks están rotos. Y por primera vez en mucho tiempo, alguien que no es OpenAI o Google lidera las clasificaciones de IA.

Pero también hay un problemita: tuvieron que retirar Grok de Twitter por generar contenido tóxico. Porque tener el modelo más potente del mundo sirve de poco si no puedes controlarlo.

¿Te parece útil? Compártelo con alguien que debería saberlo. Botón de abajo, 3 segundos.

Los números que rompen todo

Grok 4 es una bestia computacional. xAI utilizó 10 veces más computación que para Grok 3. Y Grok 3 ya había usado 10 veces más que Grok 2.

Estamos hablando de dos órdenes de magnitud de salto en menos de un año. Grok 2 ni siquiera ha cumplido 12 meses y ya tenemos Grok 4 destrozando récords.

¿Dónde se fue toda esa computación extra? Al post-entrenamiento. Al aprendizaje por refuerzo. A enseñarle a razonar.

La estrategia de xAI: todo al reinforcement learning

Mientras otros laboratorios siguen gastando computación masiva en pre-entrenamiento, xAI apostó todo al post-entrenamiento.

Esa computación extra no fue a enseñarle más datos. Fue a enseñarle a pensar mejor.

Y funcionó. Grok 4 Heavy usa 32 instancias en paralelo (como O3 Pro de OpenAI) para problemas complejos. Más cerebros trabajando en paralelo = mejores respuestas.

Humanity's Last Exam: cuando los exámenes imposibles se vuelven posibles

Este benchmark reúne preguntas súper complicadas de matemáticas, computación, biología, etc. Preguntas que harían sudar a un doctorado.

Los resultados previos:

Gemini 2.5 Pro: 21.6% (líder anterior)
Resto de modelos: 10-20%
Humanos promedio: no quieras saber

Grok 4 llega y...

Solo texto: 27%
Con herramientas: 41%
Grok 4 Heavy (versión premium): 50%

Traducción: Grok 4 Heavy resuelve una de cada dos preguntas del examen más difícil que hemos diseñado para IA.

ARC-AGI 2: el test de inteligencia real

ARC-AGI es un benchmark de cuadraditos de colores que mide capacidad adaptativa. François Chollet (su creador) tuvo que hacer una versión 2.0 porque los modelos estaban empezando a dominarlo.

Resultados ARC-AGI 2:

Claude Opus 4, O3 High, O4 Mini: 4-10%
Grok 4: 16%

Pero esto no acaba aquí, no solo lo han enfrentado a pruebas al uso, han ido al siguiente nivel.

Vending Bench: cuando la IA hace dinero real

Este benchmark simula gestionar una máquina de vending. Stock, precios, ventas. Trabajo real, dinero real.

Resultados:

Grok 4: $4,694
Claude Opus 4: $2.077
O3: $1.843
Humano: $844
Gemini 2.5 Pro: $789

Grok 4 no solo es más inteligente sobre el papel, sino que es capaz de generar un valor tangible.

Los precios que nadie vio venir

Si, hemos superado récords en las pruebas que hemos visto, pero también en precios.

Plan Super G: $30/mes

Acceso a Grok 4 y Grok 3
128k tokens de contexto
Competitivo vs OpenAI y Anthropic

Plan Super G Heavy: $300/mes

Grok 4 Heavy con computación paralela
El Estado del Arte absoluto
Más caro que cualquier modelo existente

El roadmap que viene

xAI no se queda aquí, tiene una ambiciosa hoja de ruta:

Agosto: Grok Code (versión especializada en programación)
Septiembre: Modelos multimodales agénticos
Octubre: Generación de video

Van a por todo. OpenAI, Google, Anthropic: están avisados.

El problema que nadie quiere mencionar

Pero hay un detalle incómodo. Esta semana xAI tuvo que retirar Grok de Twitter después de que el modelo se fuera completamente de madre.

No estamos hablando de respuestas controvertidas. Estamos hablando de contenido genuinamente tóxico:

Grok se refirió a sí mismo como "MechaHitler"
Hizo comentarios problemáticos sobre apellidos judíos
Llamó al primer ministro de Polonia "f*ing traitor" y "ginger whe"
Múltiples evidencias de respuestas inapropiadas sobre diversos temas

¿El causante? Una actualización diseñada para dar respuestas "políticamente sin filtros." La idea era evitar el sesgo progresista que Musk critica en otros modelos.

El resultado: Un chatbot completamente descontrolado que tuvo que ser retirado de toda la plataforma.

Para un modelo tan potente, la falta de controles es peligrosa.

La reflexión incómoda

Grok 4 es objetivamente impresionante. Los números no mienten. La tecnología funciona.

Pero también es un recordatorio de que potencia sin control es irresponsabilidad.

OpenAI, Google, Anthropic gastan recursos masivos en safety. xAI parece preferir los benchmarks flashy a la responsabilidad fundamental.

¿Es sostenible? Probablemente no. Reguladores, usuarios y la propia industria exigirán más transparencia.

¿Es revolucionario técnicamente? Sin duda. Grok 4 establece nueva barra para lo que es posible.

Lo que viene después

Esta carrera acaba de acelerar exponencialmente. GPT-5, Gemini 3, Claude 5... todos están llegando este verano.

Si Grok 4 es la línea base, no podemos imaginar lo que viene.

Pero también necesitamos que vengan con mejores controles, más transparencia y menos drama en redes sociales.

Porque el modelo más potente del mundo no sirve de nada si no puedes usarlo responsablemente.

¿Real o IA?

¿Cual ha sido generada por IA?

🛠️ Herramientas IA

Mientras Grok 4 domina los titulares, otras herramientas están democratizando la IA para tareas específicas:

✅ Olive genera paneles de administración completos desde un simple prompt.

✅ VoiSpark clona voces y genera audio natural (perfecto para cuando necesites sonar profesional en 12 idiomas).

✅ Dyad permite crear aplicaciones de IA sin tocar código.

✅ FlyAgt edita videos e imágenes con IA.

✅AutoHive crea agentes autónomos para automatizar lo que sea.

El futuro no es solo tener el modelo más potente. Es tener las herramientas específicas que resuelvan tus problemas reales.

🤖 Grok 4 rompe récords... ¿pero a qué precio?