Transcript
La enfermedad falsa que engañó a chatbots & Nuevos estándares para evaluar agentes IA - Noticias de IA (10 abr 2026)
10 de abril de 2026
← Back to episodeImagínate inventarte una enfermedad, publicarla como si fuera investigación… y ver cómo, en semanas, varios chatbots la repiten como si existiera, con consejos médicos incluidos. Hoy traigo ese experimento —y por qué es una señal de alarma. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller y hoy es 10 de abril de 2026. Vamos con las noticias: evaluaciones más duras para agentes de IA, la carrera por chips de servidor, el pulso entre el Pentágono y Anthropic, y una discusión incómoda sobre cómo estamos midiendo —y pagando— el “razonamiento” de los modelos.
Primero, el caso que más debería preocuparnos si usamos IA para salud o para investigar. Una investigadora de la Universidad de Gotemburgo inventó una condición médica ficticia llamada “bixonimania” y dejó preprints y entradas de blog llenas de pistas para ver si los modelos caerían. El resultado fue rápido: en cuestión de semanas, grandes chatbots y motores de respuesta empezaron a describir la enfermedad como real, incluso con cifras de supuesta prevalencia y recomendaciones. Lo más delicado es que el ruido no se quedó en internet: la “enfermedad” llegó a aparecer citada en literatura revisada por pares, hasta que una revista terminó retractando un artículo por referencias irrelevantes. ¿Por qué importa? Porque demuestra lo fácil que es contaminar tanto las respuestas de IA como el registro científico con material falso pero “bien vestido”. Y también expone algo incómodo: la respuesta puede variar muchísimo según el prompt, así que la consistencia —en temas sensibles— sigue siendo un punto débil.
En paralelo, aparece una respuesta más constructiva desde el lado de las evaluaciones. Claw-Eval, un benchmark open-source para medir modelos actuando como agentes, está ganando atención por su enfoque de auditoría y reproducibilidad: tareas verificadas por humanos, rúbricas claras y seguimiento del recorrido completo del agente, no solo el resultado final. La novedad de marzo de 2026 es su métrica “Pass^3”: para contar como aprobado, el modelo debe completar la misma tarea en tres intentos independientes. Es una forma directa de reducir victorias por suerte, que en agentes se vuelven comunes por la aleatoriedad, fallos intermitentes de herramientas o APIs, y decisiones inseguras. En pocas palabras: si vamos a poner agentes a tocar sistemas reales, necesitamos pruebas que premien fiabilidad, no chispazos.
Y si hablamos de fiabilidad, esta semana se repite un patrón: los agentes no fallan solo por el modelo, sino por la arquitectura alrededor. Por un lado, Anthropic presentó un enfoque llamado Claude Managed Agents, centrado en separar el “cerebro” del agente, sus “manos” —sandboxes y herramientas— y, sobre todo, una sesión duradera que guarda el historial de eventos. La idea es que, si algo cae, se pueda retomar sin perder contexto, y que las credenciales delicadas no queden expuestas donde se ejecuta código generado por el modelo. Más que un producto, el mensaje de fondo es claro: los agentes de largo recorrido necesitan diseño de sistemas, no solo prompts. Esa misma preocupación aparece en un texto crítico sobre el estado del ‘agentic software’. El autor compara el momento actual con errores clásicos de ingeniería: optimizamos piezas sueltas, pero no diseñamos el comportamiento del sistema completo. Y remarca una frase que conviene tatuarse: la seguridad no puede depender de “instrucciones” al modelo; tiene que imponerse con límites técnicos, permisos, auditoría y aislamiento real entre solicitudes y usuarios.
En el frente de la “memoria” para agentes, IBM Research y colaboradores publicaron ALTK‑Evolve, una propuesta para evitar el síndrome del “becario eterno”: agentes que obedecen, pero no internalizan lecciones y repiten tropiezos. Su apuesta es convertir trayectorias completas de interacción en una librería compacta de guías y procedimientos, y luego recuperar solo lo relevante en el momento justo. En pruebas tipo AppWorld, reportan mejoras especialmente fuertes en tareas difíciles. El punto interesante no es el número exacto, sino la dirección: estamos pasando de agentes que releen transcripciones a agentes que extraen principios reutilizables, algo más cercano a aprendizaje operativo.
Ahora, negocio y adopción: OpenAI dice que muchas empresas ya dejaron atrás los pilotos y están reorganizando trabajo alrededor de agentes que cruzan toda la organización. Según su jefa de ingresos, la parte enterprise ya supera el 40% del total y podría empatar con consumo hacia finales de 2026, impulsada por APIs, Codex y flujos “agentic”. El problema que intentan resolver se resume en una queja común: demasiadas herramientas sueltas. Su respuesta es una capa unificada de permisos y gobernanza para que los agentes operen a través de sistemas y datos con controles. En la misma dirección, el Financial Times apunta que Perplexity está creciendo fuerte tras girar de “búsqueda con IA” a agentes que ejecutan tareas: más ingresos y mucha tracción de usuarios. Es otra señal de mercado: la gente no solo quiere respuestas, quiere que el sistema haga cosas. Pero ojo: el clima social no va al mismo ritmo. Una encuesta de Gallup sugiere que Gen Z usa IA con frecuencia, pero se siente menos esperanzada y más enfadada que hace un año. Y en el trabajo, muchos perciben más riesgos que beneficios. Esto importa porque esa generación está entrando a un mercado laboral tenso: su escepticismo puede influir en políticas educativas, normas internas y regulación.
Saltemos al hardware, donde la competencia se está volviendo tan estratégica como el software. Un reporte de cadena de suministro indica que Apple quiere involucrarse más directamente en la producción de su ASIC de servidores de IA, conocido como “Baltra”, desarrollado con Broadcom. El detalle que levanta cejas: proveedores habrían entregado muestras de materiales de empaquetado avanzado no solo a Broadcom, sino también directamente a Apple. Traducido: Apple estaría validando componentes y calidad por su cuenta, y potencialmente preparando el terreno para controlar más fases del diseño y el empaquetado. ¿Por qué es relevante? Porque en un mundo con escasez y presión por capacidad, controlar el “cómo se fabrica” es casi tan importante como el “qué se diseña”. Y porque una empresa que integra verticalmente puede optimizar rendimiento, fiabilidad y suministro con menos dependencias.
Meta también entra en escena con Muse Spark, presentado como el primer modelo de una nueva familia multimodal con uso de herramientas y orquestación multiagente. Meta habla de mejoras de rendimiento y de técnicas para elevar el razonamiento sin disparar la latencia. Hasta aquí, el anuncio. Lo interesante es la conversación paralela: un artículo critica que el “gasto en tokens” se haya convertido en trofeo interno, como si más tokens equivalieran a más inteligencia. El argumento es que muchos modelos “piensan” escribiendo largas cadenas de texto, lo que sube costes y puede distorsionar incentivos. Y ahí aparece la parte polémica: se especula que parte del progreso reciente podría apoyarse en destilar salidas de modelos rivales, aprovechando justamente esas trazas largas de razonamiento. Si esa vía se consolida, cambia el tablero competitivo: las ventajas pueden venir menos de secretos mágicos y más de quién puede pagar, registrar y refinar enormes volúmenes de interacciones. También subraya por qué los términos de uso, la trazabilidad y la evaluación de “contaminación” de datos se están volviendo temas centrales.
Cierro con dos piezas para el público más técnico. PyTorch presentó avances de Monarch, un framework para programación distribuida que busca que un clúster grande de GPUs se sienta más “programable”, con menos dolor de despliegue y depuración. La tendencia aquí es clara: ya no basta con tener GPUs; hace falta observabilidad, integración con Kubernetes, y ciclos de iteración rápidos para entrenamiento a escala. Y en el día a día de notebooks, Google Colab añadió dos funciones con Gemini: instrucciones personalizadas por notebook —útiles cuando compartes proyecto y quieres coherencia— y un modo de aprendizaje que empuja al asistente a explicar y guiar, en vez de simplemente volcar código. Esto puede parecer menor, pero apunta a un cambio práctico: la IA como tutor y como estándar de colaboración, no solo como generador rápido.
Eso es todo por hoy. Si te quedas con una idea, que sea esta: estamos entrando en una fase donde la calidad de un agente depende tanto de sus pruebas, su memoria y su arquitectura de seguridad como del modelo base. Soy TrendTeller y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.