IA resolviendo matemáticas de frontera & SkillOS y curación de habilidades - Noticias de IA (12 may 2026)
ChatGPT sorprende con matemáticas “nivel PhD”, SkillOS para agentes que aprenden, IA en zero-days, seguridad de Codex y la batalla por cómputo. 12-may-2026.
Our Sponsors
Today's AI News Topics
-
IA resolviendo matemáticas de frontera
— Un matemático, Timothy Gowers, reporta que ChatGPT 5.5 Pro generó construcciones nuevas en teoría aditiva y mejoró cotas de forma sorprendente. Palabras clave: investigación, arXiv, límites polinomiales, autoría, crédito académico. -
SkillOS y curación de habilidades
— Un paper en arXiv presenta SkillOS, que separa un ejecutor “congelado” y un curador entrenable para mantener un repositorio de skills reutilizables. Palabras clave: RL, agentes LLM, SkillRepo, recompensa compuesta, aprendizaje continuo. -
Memoria que empeora a agentes
— Experimentos muestran que la “memoria” basada en resumir y reescribir trayectorias puede degradar el rendimiento con el tiempo. Palabras clave: memory rot, consolidación, interferencia, episodios crudos, benchmarks ARC-AGI. -
Post-entrenamiento: SFT vs RL vs OPD
— Un ensayo propone un marco “distribucional” para entender post-entrenamiento: SFT empuja hacia datasets fijos, mientras RL y OPD aprovechan datos on-policy y olvidan menos. Palabras clave: KL, on-policy, distillation, generalización, olvido catastrófico. -
MoE modular: modelo EMO
— Ai2 libera EMO, un MoE donde los expertos se vuelven coherentes a nivel documento, facilitando usar solo una fracción de expertos sin perder tanta calidad. Palabras clave: mixture-of-experts, routing, eficiencia, despliegue, modularidad. -
Seguridad: IA y zero-days
— Google afirma haber visto el primer caso conocido de criminales usando IA para descubrir y explotar una vulnerabilidad zero-day, reavivando el debate de controles. Palabras clave: ciberseguridad, exploit, 2FA, divulgación responsable, riesgo. -
Codex en empresas con controles
— OpenAI detalla cómo ejecuta Codex con límites: sandboxes, aprobaciones humanas, reglas de comandos y telemetría para auditoría. Palabras clave: agent safety, gobernanza, OpenTelemetry, allowlists, revisión. -
Infraestructura y carrera por cómputo
— Akamai sube por un gran contrato ligado a Anthropic; Nvidia invierte agresivamente y Mistral crece con el argumento de soberanía europea: el cómputo manda. Palabras clave: capacidad, neocloud, vendor financing, lock-in, regulación. -
Economía de herramientas: pago por uso
— El giro de Copilot a facturación por uso empuja a algunos a inferencia local, pero el cuello de botella es rendimiento y memoria, no solo ‘tener GPU’. Palabras clave: tokens, KV cache, ancho de banda, hardware doméstico, costos. -
Reacción social: abucheos a la IA
— En una graduación en Florida, una ponente fue abucheada al llamar a la IA ‘la próxima revolución industrial’, mostrando la polarización cultural. Palabras clave: educación, humanidades, empleo creativo, percepción pública, backlash.
Sources & AI News References
- → SkillOS Trains Agents to Curate Reusable Skills with Long-Horizon Reinforcement Learning
- → Developer Uses AI to Build a Home System Linking Noise Clips to Sleep Disruptions
- → On-Policy Data as the Key Difference Between SFT, RL, and On-Policy Distillation
- → Google brings Gemini 3.1 Flash-Lite to general availability on Google Cloud
- → Garry Tan outlines a skill-based architecture for compounding personal AI agents
- → Anthropic Blames ‘Evil AI’ Fiction for Claude’s Past Blackmail Behavior
- → Gowers Reports ChatGPT 5.5 Pro Producing Publishable-Level Additive Number Theory Results
- → OpenAI details sandboxing, approvals, and telemetry used to run Codex safely
- → Ai2 releases EMO, a mixture-of-experts model with emergent document-level modularity
- → Mistral AI’s Growth Spurs on Sovereignty, Open-Weight Models, and Efficiency
- → Clerk Launches CLI to Automate App Authentication Setup for Developers and AI Agents
- → AI Coding Tools Are Making Rust and Go Competitive With Python for New Projects
- → Anthropic reportedly named as Akamai’s $1.8B AI cloud customer, sending shares soaring
- → Copilot’s Usage Billing Spurs Push for Local AI Inference Hardware
- → Nvidia’s AI Investing Spree Tops $40 Billion as It Funds the Supply Chain
- → Essay Proposes an ‘Anti-Singularity’ Future of Many Heuristic AIs, Not One Superintelligence
- → Airbyte Launches Airbyte Agents with a Context Store to Power Production AI Workflows
- → GM Lays Off Hundreds of IT Workers in Shift Toward AI Talent
- → UCF humanities graduates boo commencement speaker after pro-AI remarks
- → As Fine-Tuning Fades, AI Models May Become ‘Appliances’ Optimized for First-Party Harnesses
- → Google Says Hackers Used AI to Find and Exploit a Zero-Day Flaw
- → OpenAI Guide Explains How to Build Live Speech-to-Speech Apps with gpt-realtime-translate
- → Study Finds Continual LLM Memory Consolidation Can Make Agents Forget and Perform Worse
Full Episode Transcript: IA resolviendo matemáticas de frontera & SkillOS y curación de habilidades
Dicen que en menos de dos horas una IA ayudó a empujar un problema abierto de matemáticas hacia una mejora que suena a trabajo de doctorado… y eso está abriendo un debate incómodo: ¿cómo se acredita, se archiva y se enseña investigación cuando el copiloto es un LLM? Bienvenidos a The Automated Daily, AI News edition. El pódcast creado por IA generativa. Hoy es 12 de mayo de 2026. Soy TrendTeller, y en cinco minutos te pongo al día con lo más relevante del cruce entre modelos, productos y el mundo real.
IA resolviendo matemáticas de frontera
Empezamos por la historia más llamativa del día: el matemático Timothy Gowers cuenta que, al probar ChatGPT 5.5 Pro con preguntas abiertas de teoría aditiva, el modelo propuso construcciones nuevas que mejoran cotas conocidas, pasando —en un caso— de un crecimiento exponencial a uno cuadrático, y luego apuntando a mejoras polinomiales para variantes más generales. Lo importante aquí no es solo el resultado puntual: es la señal de que ciertos tipos de “trabajo exploratorio” en matemáticas pueden acelerarse muchísimo. Y eso trae preguntas prácticas: si una idea nace en diálogo con un modelo, ¿cómo se documenta? ¿quién firma? ¿y qué significa para la formación de nuevos investigadores si el listón de los problemas ‘accesibles’ sube de golpe?
SkillOS y curación de habilidades
En paralelo, en investigación de agentes aparece SkillOS, un enfoque de RL para que los agentes basados en LLM dejen de ser ‘solucionadores de una sola vez’ y empiecen a mejorar acumulando habilidades reutilizables. La tesis central es elegante: el gran cuello de botella no es ejecutar habilidades, sino curarlas—decidir qué guardar, qué editar y cómo organizarlo cuando el feedback llega tarde y de forma indirecta. SkillOS separa un ejecutor congelado —que recupera y aplica skills— de un curador entrenable que modifica un repositorio externo con lo aprendido en trayectorias previas. ¿Por qué importa? Porque apunta a un camino más estable hacia agentes que se vuelven mejores con el tiempo sin convertir la memoria en un cajón de sastre.
Memoria que empeora a agentes
Y justo aquí encaja otra pieza: un conjunto de experimentos advierte que la receta popular de “memoria” para agentes —resumir experiencias pasadas en lecciones y reescribirlas una y otra vez— puede salir mal. En una secuencia controlada, un modelo que había resuelto problemas perfectamente cayó de forma drástica tras varias rondas de consolidación, sin que el problema fuera falta de datos: el deterioro venía de la reescritura misma. El diagnóstico suena familiar para cualquiera que haya sufrido documentación que se ‘autocopia’ y se deforma: sobre-generalización, episodios mezclados que no deberían mezclarse y un bucle donde el resumen generado se vuelve la nueva ‘verdad’. La propuesta de mitigación es más conservadora: preservar evidencia cruda —trayectorias episódicas— y consolidar solo cuando haya motivos fuertes y compuertas de control.
Post-entrenamiento: SFT vs RL vs OPD
Si juntamos estas dos historias, aparece un mensaje común: no basta con dar memoria a un agente; hay que gobernarla. De hecho, Garry Tan, CEO de Y Combinator, insiste en algo parecido desde el ángulo práctico: la confiabilidad llega cuando conviertes prompts improvisados en skills reutilizables, probados y componibles. Su idea de un “sistema operativo personal” con una base de conocimiento que se actualiza y se cruza automáticamente sugiere que el valor compuesto está en la acumulación ordenada: cada reunión, cada lectura, cada skill mejora la siguiente ejecución. Menos chat puntual; más infraestructura personal.
MoE modular: modelo EMO
En teoría del post-entrenamiento, también se está afinando el vocabulario. Un ensayo propone un modelo mental “distribucional”: SFT te arrastra hacia la distribución de un dataset fijo y, si está lejos del comportamiento original del modelo, puede provocar olvido catastrófico. En cambio, el RL online y variantes como la destilación on-policy mueven la probabilidad de forma más local, apoyándose en datos generados por el propio modelo, lo que actúa como una especie de freno implícito que preserva capacidades. La idea útil para equipos aplicados es sencilla: no es solo “qué teacher usas”, sino de dónde sale el dato —si es on-policy— y cómo asignas crédito sin sesgar el comportamiento hacia tokens de estilo.
Seguridad: IA y zero-days
Pasando a arquitectura, Ai2 presentó EMO, un modelo MoE pensado para que los “expertos” sean más coherentes a nivel documento. Traducido: en muchos MoE, aunque por token activas pocos expertos, a lo largo de una respuesta terminas tocando muchos, lo que complica desplegar solo una parte del modelo. EMO intenta que, por documento, el enrutamiento se mantenga dentro de un conjunto más estable. ¿Por qué interesa? Porque acerca el sueño práctico de los modelos dispersos: modularidad que se pueda recortar, desplegar y adaptar con menos dolor operativo.
Codex en empresas con controles
Ahora, seguridad: Google dice haber identificado lo que cree que es el primer caso conocido de hackers criminales usando IA para descubrir y “armar” un zero-day. Los detalles públicos son limitados, pero el punto es el cambio de estatus: de preocupación teórica a evidencia concreta. Incluso si para explotar hacía falta credencial válida, el riesgo sistémico es que el hallazgo de fallos explotables se abarate y aumente la cadencia de ataques. Esto empuja otra conversación: cómo coordinas divulgación responsable y parches cuando hay modelos que pueden acelerar tanto defensa como ofensiva.
Infraestructura y carrera por cómputo
En esa misma línea de ‘operacionalizar’ la seguridad, OpenAI explicó cómo ejecuta su agente de programación Codex en flujos reales de ingeniería: sandboxes con límites claros, políticas de aprobación humana para acciones más riesgosas, control fino del acceso a red y, sobre todo, telemetría para auditar qué quiso hacer el agente y qué hizo de verdad. Lo interesante no es un truco específico, sino el patrón: si los agentes van a tocar repos, CI y producción, la seguridad ya no puede ser solo un filtro al final; tiene que ser gobernanza continua y rastreable.
Economía de herramientas: pago por uso
Y mientras tanto, la carrera por cómputo se vuelve cada vez más financiera. Las acciones de Akamai se dispararon tras un reporte que vincula un gran compromiso de infraestructura cloud con Anthropic, señalando cómo proveedores tradicionales están encontrando un nuevo motor en la demanda de IA. En otra punta, Nvidia sigue expandiéndose como gran inversor del sector, con compromisos enormes y una estrategia que algunos ven como ‘financiar el ecosistema’… y otros como una forma de apuntalar demanda futura de GPUs. En Europa, Mistral crece rápido apoyándose en el argumento de soberanía y control: modelos que puedes ejecutar y ajustar sin depender por completo de APIs cerradas. El tema común: capacidad, dependencia y quién controla la pila.
Reacción social: abucheos a la IA
Cerramos con dos termómetros sociales y económicos. Primero, GitHub moviendo Copilot hacia facturación por uso reaviva la sospecha de que la era de ‘IA barata’ venía subsidiada, y empuja a más gente a probar inferencia local. Pero los relatos de usuarios son claros: para tareas de agente, el límite es la velocidad real —tokens por segundo— y los cuellos de memoria, no solo “tener una GPU”. Segundo, en una graduación de la Universidad de Central Florida, una ponente fue abucheada al llamar a la IA “la próxima revolución industrial”. Más allá del momento, refleja una brecha: para algunos, promesa de productividad; para otros, amenaza a trabajos creativos, evaluación académica y dignidad profesional. Esa tensión va a seguir marcando el ritmo de adopción, dentro y fuera de las empresas.
Hasta aquí el episodio de hoy, 12 de mayo de 2026. Si algo queda claro es que el futuro cercano de la IA no depende solo de modelos más potentes: depende de cómo curamos memoria y habilidades, cómo auditamos agentes, y quién asegura el cómputo para ejecutar todo esto. Como siempre, los enlaces a todas las historias están en las notas del episodio. Gracias por escuchar The Automated Daily, AI News edition. Soy TrendTeller. Hasta mañana.
More from AI News
- 10 de mayo de 2026 Gen Z se enfría con IA & IA como muleta y riesgo
- 9 de mayo de 2026 Interpretabilidad: activaciones en lenguaje natural & Control de calidad en datos RL
- 8 de mayo de 2026 IA en gobiernos y credibilidad & China impulsa campeones de IA
- 7 de mayo de 2026 Chrome descarga IA sin avisar & Anthropic y el megacontrato en Google Cloud
- 6 de mayo de 2026 Un agente de IA abre café & Webhooks en la API de Gemini