Transcript

Foto falsa de lobo & Agentes corporativos: OpenAI y Google - Noticias de IA (24 abr 2026)

24 de abril de 2026

Back to episode

Una sola imagen generada por IA bastó para desviar una operación policial real y activar alertas de emergencia. Hoy, 24 de abril de 2026, ese caso nos sirve de aviso: la IA ya no es solo “respuestas en un chat”, está tocando procesos, presupuestos y decisiones en el mundo físico. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller, y en cinco minutos repasamos lo más relevante del día en inteligencia artificial, con foco en lo que cambió y por qué importa.

Empezamos con el incidente en Corea del Sur: la policía arrestó a un hombre acusado de entorpecer la búsqueda de un lobo escapado al difundir una foto falsa creada con IA. La imagen se viralizó, hizo que las autoridades reasignaran recursos y que se enviaran avisos de emergencia a la población. Más allá de lo pintoresco, es un recordatorio duro: en situaciones críticas, la “verosimilitud” de la IA puede convertirse en coste público y en ansiedad colectiva si no hay verificación rápida.

Ahora sí, el gran tema empresarial del día: OpenAI presentó los “workspace agents” en ChatGPT, agentes compartidos para equipos que pueden ejecutar flujos complejos, durar horas o días, usar herramientas conectadas, recordar contexto y pedir aprobaciones antes de acciones delicadas. La lectura estratégica es clara: OpenAI quiere que la IA viva dentro de los permisos y controles de una organización, no solo como un asistente que responde a un prompt aislado.

Y Google respondió con fuerza: lanzó la Gemini Enterprise Agent Platform, una plataforma unificada para construir, desplegar y gobernar agentes, con herramientas visuales y también enfoque para desarrolladores. Su mensaje es que la etapa de “pilotos” se está acabando: ahora importan identidad del agente, registro de herramientas aprobadas, pasarelas de seguridad y observabilidad. En otras palabras, menos magia y más auditoría: quién hizo qué, con qué datos, y bajo qué políticas.

En esa misma línea, Google también presentó Workspace Intelligence, una especie de capa semántica que conecta correos, chats, archivos, personas y proyectos para darle a Gemini contexto compartido en el trabajo diario. Si esto aterriza bien, cambia la experiencia: en vez de buscar en cinco apps, le pides a un agente que entienda tu objetivo y actúe dentro del ecosistema. Pero el punto sensible es obvio: cuando la IA razona sobre contenido corporativo, el cumplimiento, el cifrado y la residencia de datos dejan de ser un “extra” y pasan a ser el producto.

Del lado del desarrollo de software, Google hizo una afirmación que marca época: dice que alrededor del 75% del código nuevo ya lo genera IA y luego lo revisan ingenieros humanos. Además, lo vinculan a “workflows agentic”, donde agentes asumen tareas más autónomas, como migraciones internas aceleradas. Que sea cierto o no en todos los equipos, el titular importa porque redefine métricas: el valor del ingeniero se desplaza hacia revisión, arquitectura, pruebas y criterio, y las empresas empiezan a medir uso de IA como parte del rendimiento.

Y hablando de medición, se filtró que Microsoft planea mover GitHub Copilot a un modelo de límites y cobro por tokens, manteniendo suscripción pero con un “saldo” consumible, y con tokens compartidos a nivel empresa. ¿Por qué es relevante? Porque convierte la asistencia de código en un coste más variable: puede empujar a controles internos, a políticas de uso, y a comparar con alternativas locales o de código abierto. También fuerza una conversación incómoda: ¿quién “gasta” tokens y para qué?

En paralelo, Applied Compute cuestiona los benchmarks clásicos de inferencia: pruebas de una sola pregunta y una sola respuesta ya no representan aplicaciones con agentes que hacen muchas idas y vueltas, llamadas a herramientas y cachés de contexto que viven mucho tiempo. Propusieron perfiles de carga que reproducen trazas completas y ponen el foco en cosas que a negocio le duelen: latencia de cola —p90 y p99—, tiempos de espera por herramientas y, sobre todo, la capacidad de KV cache como cuello de botella. Traducción: si tu agente se vuelve lento bajo concurrencia, quizá no es “el modelo”; es tu infraestructura y cómo mantiene el contexto.

Otra pieza práctica para equipos: Augment analizó archivos AGENTS.md —documentos pensados para guiar a un agente de codificación— y encontró que pueden ser oro o un lastre. Los mejores eran cortos, directos, y organizaban la información para que el agente cargue solo lo necesario. Los peores, largos y llenos de prohibiciones, disparaban un modo de “sobreexploración” donde el agente se vuelve conservador e incompleto. La moraleja: documentar para agentes no es lo mismo que documentar para humanos; hay patrones que se pueden aprender y estandarizar.

Y si tu stack ya tiene muchos servicios, llega otra discusión de infraestructura: Anthropic insiste en que, a la larga, la mayoría de equipos migra a MCP para conectar agentes con sistemas reales. El argumento no es glamour, es mantenimiento: cuando tienes muchos agentes y muchas integraciones, el enfoque “cada uno con su API” escala mal. Un protocolo común simplifica descubrimiento, autenticación y portabilidad entre entornos. En 2026, esa capa de conectividad empieza a parecerse a lo que fueron los gateways y los estándares de identidad para el software empresarial tradicional.

En generación de imágenes, hubo un episodio curioso: OpenAI subió por poco tiempo tres modelos anónimos a LM Arena y los retiró en dos días, pero la comunidad ya los había asociado a OpenAI y los llama “GPT Image 2”. Las pruebas filtradas sugieren mejoras fuertes en texto dentro de imágenes, colores más naturales y más “conocimiento del mundo” para interfaces y productos reales. El calendario añade presión: DALL‑E 2 y 3 se apagan el 12 de mayo de 2026, y el sucesor tiene que estar a la altura justo cuando se acercan exigencias de transparencia en la UE para agosto.

Del “demo” al mundo real: en San Francisco, una startup dejó a un agente llamado Luna gestionando una tienda física con personal humano. Y el experimento está siendo… irregular: decisiones raras de inventario, confusión operativa y hasta un caso de salarios distintos por género con una justificación discutible. Aunque haya supervisión humana, el punto es potente: cuando un agente administra personas y procesos, los fallos ya no son bugs simpáticos; son riesgos laborales, de reputación y de cumplimiento.

En investigación aplicada, Perplexity publicó cómo está entrenando modelos con búsqueda sin sacrificar guardrails: primero afianzan conductas esenciales con SFT, luego aplican RL con recompensas diseñadas para no “premiar” respuestas bonitas si no son correctas y seguras. Esto es importante para cualquier producto que consulte la web: el usuario no quiere una IA que busque de más, ni una que invente, ni una que se vuelva rígida por miedo. El reto real es equilibrar precisión, coste y alineamiento en producción.

Y para cerrar con algo que entusiasma a la comunidad open: Simon Willison destacó Qwen3.6-27B, un modelo de pesos abiertos que, según sus pruebas y los claims del fabricante, logra rendimiento de codificación muy alto con un tamaño mucho más manejable que gigantes anteriores. Si esa tendencia se sostiene, abre una vía concreta para empresas y desarrolladores: asistentes de código locales, con más control de datos y costes, y menos dependencia de una sola nube.

Dos notas rápidas de ecosistema. Primero, MeshCore se partió en dos tras una disputa sobre gobernanza, marca y el uso no transparente de código generado por IA; un ejemplo claro de que la “procedencia” del software —saber qué se generó, cómo y por quién— se está convirtiendo en tema comunitario, no solo legal. Y segundo, Jerry Tworek, ex investigador de OpenAI, lanzó Core Automation con la idea de automatizar el propio trabajo de investigación del laboratorio: una apuesta a que la próxima ola no vendrá solo por escalar, sino por nuevas recetas de aprendizaje y arquitectura. Ah, y en el frente financiero, Vast Data levantó 1.000 millones con Nvidia entre los inversores, confirmando que la infraestructura —almacenamiento y datos para cargas de IA— sigue siendo donde se están concentrando cheques gigantes.

Y hasta aquí el episodio de hoy, 24 de abril de 2026. Si te quedas con una idea, que sea esta: la industria está pasando de “modelos que responden” a agentes que operan dentro de organizaciones… y eso obliga a elevar el nivel de gobernanza, métricas y verificación, tanto en oficinas como en la calle. TrendTeller se despide. Encontrarás los enlaces a todas las historias en las notas del episodio.