🤖 Tu IA sin arnés: caballo sin riendas

Hoy bajamos un escalón. Va a ser una edición algo más técnica de lo habitual, pero te prometo que no tocas código y vas a salir con una idea que necesitas tener fichada.

¿Por qué te hablo hoy de esto? Porque los modelos ya saben más que cualquiera de nosotros sobre casi cualquier tema. Más que tú, más que yo, más que el experto al que pagarías 300 euros por una consultoría. Y aun así, la mayoría sigue sacando resultados mediocres con Claude o ChatGPT.

La diferencia ya no está en el modelo. Está en lo que le construyes alrededor. Eso es el arnés. Y saber montárselo va a ser la próxima ventaja competitiva real, mucho más que saber promptear.

Vamos al grano.

⏸️ ESPERA — primera vez que envío esto

Te interrumpo 30 segundos antes de entrar al artículo. Esto es nuevo, lo acabo de terminar.

Tu primer empleado IA (10 min, gratis)

Se llama Marta. Hablas con ella 5-10 minutos sobre tu negocio y sales con:

El proceso que tiene más sentido automatizar primero en tu negocio
Qué haría cada día, con las herramientas que ya usas
Qué NO automatizar todavía
Un plan concreto de 7 días para arrancar

Irónicamente, Marta es exactamente lo que vas a leer ahora: un arnés montado encima de Claude. Puedes leer la teoría, o probarla en directo durante 10 minutos.

Lo que tardarías un mes en averiguar probando cosas, lo desbloqueas en 10 minutos.

Hablar con Marta →

Esto va contigo, aunque no programes

La palabra "arnés" lleva semanas circulando entre developers porque Mitchell Hashimoto, cofundador de HashiCorp, le puso nombre a la práctica en febrero. La metáfora es lo de menos: un caballo es potente y rápido, pero sin riendas se va donde le da la gana.

El arnés es todo lo que le pones alrededor para que vaya donde tú quieres. Y aquí está la trampa que mucha gente no ve: si usas Claude para escribir emails o ChatGPT para resumir reuniones, ya estás trabajando con un agente. Sin arnés.

La diferencia entre el emprendedor que ahorra 10 horas semanales con Claude y el que se frustra al tercer prompt no es el modelo. Es el sistema que ha montado alrededor. Si esto te suena a teoría que no te llevas a casa, aguanta dos minutos. La chicha está a la vuelta.

La regla de oro: cada error es una pieza nueva

Toda la disciplina del arnés se puede destilar en una frase. Cada vez que tu asistente comete un error, no rezas para que la próxima vez salga mejor. Le escribes una regla.

Te firma los emails en inglés cuando lo querías en castellano. Regla nueva. Te resume las reuniones con esa introducción ñoña que no usas nunca. Regla nueva. Te genera el resumen con guiones largos que has prohibido en tu newsletter. Regla nueva.

Esto es lo que separa al pionero que va perfeccionando su asistente cada semana del que lleva un año dándole los mismos prompts y dándose contra el mismo muro. La pieza es estructural, no conversacional. Vive en un sitio donde el asistente la lee cada vez que arranca, no en el chat de hoy.

Esta es la base. Antes de ir a las piezas que tú sí construyes, hay dos problemas que casi nadie te cuenta y que explican por qué tu IA falla más de lo que debería.

La paradoja: cuantas más herramientas le metes, peor funciona

Aquí viene el primer matiz contraintuitivo. Mucha gente está apilando MCPs, skills y plugins encima de Claude pensando que está construyendo un arnés mejor. Está haciendo justo lo contrario.

Vercel lo demostró en diciembre. Tenían un agente interno con 18 herramientas especializadas para analizar datos. Lo simplificaron y le dejaron una sola: ejecutar comandos básicos del terminal. Lo que cualquier sysadmin lleva usando desde hace 50 años.

Resultado: su agente pasó del 80% al 100% de éxito, se hizo 3,5 veces más rápido y consumió un 40% menos de tokens. Menos herramientas, mejor resultado.

Ahora viene el matiz, porque no quiero que te quedes con la idea simplona. Lo de Vercel funcionó porque su sistema de datos ya estaba bien documentado. Si tu base es un caos, darle al modelo acceso directo no te salva. Solo te da consultas malas más rápido.

La regla útil: cada herramienta que le añades es una decisión que le quitas al modelo. A veces eso es lo que necesitas. A veces le estás atando una pata.

El contexto se pudre antes de llenarse

Segundo problema que casi nadie te cuenta. Te venden ventanas de contexto de un millón de tokens. Suena maravilloso. La realidad es que esa ventana empieza a degradarse mucho antes de llenarse.

Chroma probó 18 modelos punteros este año. Todos sin excepción rinden peor según se les mete más contexto. No es un problema de capacidad, es un problema de atención. Cuando el modelo tiene que buscar la información relevante entre miles de tokens de ruido, simplemente la pierde.

El fenómeno tiene nombre: lo llaman "lost in the middle". Los modelos prestan atención al principio y al final del contexto, y se les escapa lo que hay en medio. En Gemini 2.5 Flash empiezan a verse fallos a partir del 20% de la ventana.

¿La consecuencia práctica para ti? Cuando pides "constrúyeme la app entera" o dejas a un agente trabajando durante horas, no es que el modelo se canse. Es que se ahoga en su propio contexto. La memoria útil tiene que vivir fuera del modelo, en ficheros, en bases de datos, en notas que el agente lee solo cuando las necesita.

Los 4 pilares de tu arnés personal

1. Las instrucciones permanentes. Tu "constitución" del asistente. En Claude y ChatGPT/Codex se llaman Proyecto. En Gemini se llaman Gems. La diferencia con un prompt suelto es enorme: las instrucciones permanentes se cargan automáticamente cada vez que abres el asistente, sin que tengas que copiarlas.

2. La memoria externa. No metas todo en el chat. Saca lo importante a un Notion, un Google Doc o un Drive. El asistente lo lee solo cuando lo necesita, y tú no le ahogas la ventana de contexto con cosas que ahora mismo no le hacen falta.

3. Asistentes especializados, no un superasistente. Un agente que te escribe emails, otro que te resume reuniones, otro que te prepara informes. Pequeños y centrados. Funciona mucho mejor que uno gigante que lo intenta todo y lo hace todo mal.

4. Verificación. Quien revisa el trabajo del asistente. Tú, otra herramienta o, como verás ahora, otro modelo. Esto es lo más importante y lo más ignorado de todo el arnés.

Y aquí entra la pieza que Anthropic y OpenAI acaban de meter en sus productos esta semana, y que cambia el pilar 4 entero.

/goal: la pieza que ya tienes disponible

OpenAI lo lanzó el 30 de abril. Anthropic copió la idea once días después y la metió en Claude Code. Se llama /goal.

Cómo funciona: tú le das un objetivo de alto nivel al asistente. Por ejemplo, "responde todos los emails pendientes del cliente X con menos de 80 palabras y saludo personalizado". El agente trabaja sin pedirte permiso turno tras turno. Mientras tanto, un modelo más pequeño y rápido revisa cada paso y le hace una sola pregunta: "¿se ha cumplido el objetivo?". Si no, sigue. Si sí, para.

Es el pilar 4 automatizado, sin que tú tengas que montarlo.

Y esto sí lo puedes usar hoy. No es solo terminal para developers. /goal está en la app de Codex de OpenAI y en Codex Mobile. Si tienes ChatGPT Pro, ya está en tu escritorio.

Aquí es donde el prompt vuelve a importar. Un buen /goal necesita tres cosas:

Un "terminado" verificable. "Haz un buen análisis" no se puede comprobar. "Genera 5 conclusiones, cada una respaldada por un dato del CSV" sí.
Alcance acotado. Qué tiene que hacer y qué NO tiene que tocar. Lo segundo se olvida y es lo que más rompe.
Un criterio de salida claro. Cuándo parar. Si no se lo dices, gasta tokens hasta que tú lo cortes.

Cómo lo montas tú esta semana

Cinco pasos. Empieza hoy.

1. Elige UN flujo repetitivo que te quema. Responder consultas de clientes, resumir reuniones, preparar la newsletter, redactar contratos. Uno. No diez.

2. Crea un Proyecto en Claude (o un Custom GPT, o una Gem). Súbele toda la información de contexto que tu asistente debería conocer de memoria: tu estilo, ejemplos pasados, tu cliente ideal, las reglas de tu casa.

3. Escribe la primera versión de las instrucciones. Qué quieres, qué NO quieres, formato esperado, tono. Y aquí aplicas el criterio /goal: añade al final un párrafo claro de "el trabajo está terminado cuando...". Esa es la vara de medir que tú y tu asistente vais a usar.

4. Úsalo durante una semana. Cada vez que falle, regla nueva. Tres errores corregidos te montan un asistente que ya rinde el doble que el de partida.

5. Cuando el primero esté fiable, replicas. Otro flujo, otro proyecto, otras instrucciones. En tres meses tienes cuatro asistentes haciendo trabajo de verdad.

El error caro que casi todos cometen

Querer que UN solo asistente lo haga TODO. Mismo proyecto, todos los flujos, todos los contextos, todos los tonos. Suena cómodo, da resultados de pena.

Tres asistentes pequeños y bien definidos rinden mejor que uno gigante con 50 reglas dentro tirando unas de otras. Si tu asistente empieza a tardar mucho o a contradecirse, no es que sea tonto. Es que le has metido demasiado dentro.

Lo que te llevas

La próxima frontera no es saber promptear mejor. Es saber diseñar el sistema que rodea al modelo.

Quien lo entienda primero va cinco pasos por delante el mes que viene. Y no necesitas saber programar para empezar. Solo el lunes.

Pablo

¿Qué tal te ha parecido el nivel de esta guía?

¿Eres de Madrid?

Estoy preparando una newsletter con lo bueno del tech madrileño cada semana: eventos, demos, encuentros, sitios donde se deja ver la gente — incluidos los que voy yo. ¿Te interesa?

Sí, me apunto |
.

🤖 /goal: tu IA acaba sola tu trabajo