Transcript: Agentes que olvidan el porqué

Un sistema de diez agentes parecía funcionar perfecto… hasta que descubrieron que recordaba el qué, pero no el porqué de decisiones clave. Y lo más llamativo: lo arreglaron sin cambiar de modelo. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Hoy es 18 de marzo de 2026. Soy TrendTeller, y en los próximos minutos vamos a ordenar lo más relevante del día en IA: agentes más “disciplinados”, el pulso por la infraestructura, avances en modelos abiertos y un dataset que puede acelerar la robótica médica.

Empezamos con una historia muy práctica sobre agentes y memoria a largo plazo. Un desarrollador que coordinaba diez agentes con un sistema de memoria en disco se dio cuenta de algo incómodo: después de un incidente que borró sesiones activas, los agentes podían seguir “sonando” competentes mientras, en realidad, habían perdido contexto. Para salir de dudas, pidió al agente orquestador que se evaluara a sí mismo con preguntas de verificación. ¿Resultado? Recordaban bastante bien hechos y tiempos, pero fallaban justo en lo más importante para confiar en un sistema: la justificación de decisiones y el contexto de personas. La solución no fue mágica: reordenar la memoria para guardar explícitamente el “por qué”, resumir registros y crear archivos buscables por temas y por personas. Con eso, la recuperación de información subió de forma drástica y, sobre todo, la parte de “rationale” pasó de ser un agujero negro a algo recuperable. La lección es clara: en agentes, la estructura de memoria puede ser tan determinante como el modelo.

En la misma línea de hacer agentes más confiables, hoy vemos dos enfoques que convergen: herramientas potentes, sí, pero con límites. Por un lado, el proyecto OnPrem.LLM publicó un notebook de ejemplo para ejecutar agentes que usan herramientas —como operar con archivos, consultar la web o, si se permite, ejecutar comandos— pero destacando controles de seguridad: restringir el directorio de trabajo, desactivar el acceso a la shell, o correr todo dentro de un contenedor efímero. No es solo “hacer que el agente haga cosas”, sino poder repetir tareas y auditar qué pudo tocar. Y por otro lado, NVIDIA presentó OpenShell, un runtime open source pensado específicamente para meter agentes en un entorno aislado con políticas declarativas: qué pueden leer y escribir, qué procesos pueden lanzar y, muy importante, cómo y hacia dónde pueden salir por red. También introduce una idea interesante alrededor de privacidad en llamadas a modelos: mantener el contexto sensible dentro del sandbox y controlar cómo se enrutan peticiones al LLM. ¿Por qué importa? Porque a medida que los agentes dejan de ser demos y empiezan a operar con datos y credenciales reales, el “freno de mano” por defecto deja de ser opcional.

Hablando de agentes en el día a día de desarrolladores: OpenAI hizo disponibles de forma general los “subagentes” en Codex. La idea es sencilla de explicar y potente en la práctica: dividir el trabajo en roles que corren en paralelo, por ejemplo uno reproduce un bug, otro rastrea dónde está el fallo y otro propone un parche mínimo. Esto se parece a patrones que ya popularizó Claude Code, y apunta a una tendencia: los asistentes de programación están pasando de ser una sola voz a ser un pequeño equipo coordinado. Además, OpenAI explicó un enfoque curioso en seguridad: Codex Security prefiere no empezar desde un informe de SAST. No porque SAST sea inútil, sino porque puede sesgar al agente hacia los mismos supuestos y dejar fuera vulnerabilidades que no son simples “flujos de datos”, sino fallos de significado: validaciones que existen, pero en el orden equivocado o con transformaciones posteriores que rompen la garantía de seguridad. Su apuesta es partir del contexto del repositorio y “intentar falsar” las suposiciones con pruebas, fuzzing y evidencia. Traducido: menos marcar líneas en rojo, más demostrar el problema con un caso mínimo y verificable.

Pasamos a la carrera industrial, donde el gran cuello de botella no es la creatividad, sino la electricidad, los chips y el espacio físico. OpenAI sigue empujando la expansión masiva de capacidad de centros de datos, y ha puesto al frente a un ejecutivo de infraestructura con mandato claro: asegurar suministro, socios y componentes en un mundo con límites de red eléctrica y tiempos de construcción que no encajan con el ritmo de la IA. También se percibe una diversificación: no depender de un solo proveedor de hardware o de una sola ubicación. En paralelo, Reuters cuenta que OpenAI estaría en conversaciones avanzadas con firmas de private equity para una especie de joint venture que acelere la distribución de sus productos de IA empresarial en empresas de sus carteras. Si esto se concreta, no es solo financiación: es un canal de adopción y, de paso, influencia sobre cómo se despliegan agentes y automatizaciones en procesos críticos. Y ojo, porque también se menciona que Anthropic explora esquemas parecidos. La competencia ya no es solo por el mejor modelo; es por quién consigue penetrar en la empresa tradicional antes que el resto.

Desde Asia llega un movimiento organizativo con lectura estratégica: Alibaba está consolidando investigación, producto y servicios de IA en una nueva unidad centrada en “tokens”, bajo liderazgo directo del CEO. El mensaje es bastante transparente: coordinación interna y monetización. En muchos mercados, el reto no es demostrar capacidad técnica, sino convertirla en ingresos sostenibles, especialmente cuando parte del ecosistema se mueve con modelos abiertos y usuarios menos dispuestos a pagar suscripciones. La apuesta de Alibaba parece ser empaquetar agentes y servicios con más orientación corporativa, y controlar mejor el paso de laboratorio a producto.

Vamos ahora a investigación y modelos, con dos señales fuertes del mundo open source. Mistral anunció un nuevo modelo “Small” que busca unificar varias habilidades en un solo sistema: seguir instrucciones, razonar, entender texto e imagen y ayudar a programar. Más allá de cifras, el punto es el énfasis en eficiencia: sacar respuestas útiles con menos rodeo, reduciendo latencia y coste operativo. Esto es clave porque, en producción, el presupuesto manda tanto como el benchmark. Y Mistral también lanzó Leanstral, un agente de coding orientado al asistente de pruebas Lean 4. Aquí el enfoque es diferente: no solo generar código, sino empujarlo hacia demostraciones formales, donde el verificador actúa como juez mecánico. Si esto escala, puede aliviar uno de los grandes frenos del “vibe coding” en entornos críticos: la revisión humana como cuello de botella para confiar en cambios complejos.

En el frente más teórico, un nuevo paper con nombres muy conocidos —Emmanuel Dupoux, Yann LeCun y Jitendra Malik— sostiene que los sistemas actuales aún están lejos del “aprendizaje autónomo” de animales y humanos. Su crítica central: a la IA le cuesta combinar aprendizaje por observación con aprendizaje por exploración activa y conducta. Proponen una arquitectura con dos vías complementarias —una para observar y otra para actuar— y un componente de meta-control que decide cuándo alternar o mezclar. Es interesante porque apunta al siguiente salto: menos entrenamiento en fases cerradas y más adaptación continua en el mundo real, donde el entorno no se queda quieto para que el dataset lo alcance.

Y ahora, el ángulo social y político: un geógrafo humano, Thomas Dekeyser, plantea que el rechazo actual a herramientas de IA, empresas y centros de datos encaja en una historia larga de resistencia a tecnologías percibidas como dañinas. Su argumento es que no todo es “anti-progreso”: muchas negativas son diagnósticos racionales sobre quién gana y quién paga los costes —empleo, vigilancia, alienación social y daño ambiental— y sobre una sensación de impotencia democrática. Además, conecta resistencias en África y América Latina con patrones extractivos: datos, trabajo barato y recursos para alimentar infraestructura. En un registro distinto, el inversor Erik Torenberg propone que la IA avanzada se parece cada vez más a un punto de inflexión tipo “armamento estratégico”: el debate no sería si se construye, sino quién la controla y con qué legitimidad, especialmente cuando gobiernos buscan acceso para fines militares. No hace falta comprar toda la analogía para captar el dilema: estamos entrando en una etapa donde el control institucional, los incentivos privados y la rendición de cuentas pública chocan de frente.

Cerramos con NVIDIA, que hoy aparece por varios frentes. En gaming, presentó DLSS 5 como otro paso para mezclar renderizado tradicional con técnicas generativas y así obtener imágenes más realistas sin disparar el coste de cómputo. Más allá de juegos, NVIDIA insiste en una idea: combinar datos “estructurados” —los que tienen reglas claras— con modelos generativos para acelerar decisiones y automatizaciones en empresa. En infraestructura, lanzó Dynamo 1.0, orientado a inferencia distribuida en múltiples nodos GPU, que es justo lo que demanda la nueva ola: modelos grandes, tareas multimodales y sistemas con agentes atendiendo muchas solicitudes a la vez. El mensaje de fondo es operatividad: menos recomputación, mejor aprovechamiento de memoria y despliegues más robustos. Y la noticia quizá más sorprendente del día: un gran consorcio liderado por Johns Hopkins, TUM y NVIDIA liberó Open-H-Embodiment, un dataset abierto centrado en robótica sanitaria, con horas de datos sincronizados en tareas que van desde cirugía hasta procedimientos con imagen médica. Junto a eso, publicaron modelos base entrenados para políticas de acción y para simulación de vídeo condicionado por movimientos del robot. Si este tipo de datos se vuelve estándar, podríamos ver avances más rápidos en “IA física” para salud, con mejores puentes entre simulación y mundo real. En robótica médica, ese puente no es un lujo: es una condición para probar, validar y, eventualmente, desplegar con seguridad.

Y con esto cerramos el episodio de hoy. Si te quedas con una idea, que sea esta: la IA está madurando en dos direcciones a la vez —más autonomía, pero también más control—, y la diferencia entre una demo y un sistema fiable está cada vez más en la ingeniería alrededor. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.