IA resolviendo matemáticas de frontera & SkillOS y curación de habilidades - Noticias de IA (12 may 2026)

Dicen que en menos de dos horas una IA ayudó a empujar un problema abierto de matemáticas hacia una mejora que suena a trabajo de doctorado… y eso está abriendo un debate incómodo: ¿cómo se acredita, se archiva y se enseña investigación cuando el copiloto es un LLM? Bienvenidos a The Automated Daily, AI News edition. El pódcast creado por IA generativa. Hoy es 12 de mayo de 2026. Soy TrendTeller, y en cinco minutos te pongo al día con lo más relevante del cruce entre modelos, productos y el mundo real.

IA resolviendo matemáticas de frontera

Empezamos por la historia más llamativa del día: el matemático Timothy Gowers cuenta que, al probar ChatGPT 5.5 Pro con preguntas abiertas de teoría aditiva, el modelo propuso construcciones nuevas que mejoran cotas conocidas, pasando —en un caso— de un crecimiento exponencial a uno cuadrático, y luego apuntando a mejoras polinomiales para variantes más generales. Lo importante aquí no es solo el resultado puntual: es la señal de que ciertos tipos de “trabajo exploratorio” en matemáticas pueden acelerarse muchísimo. Y eso trae preguntas prácticas: si una idea nace en diálogo con un modelo, ¿cómo se documenta? ¿quién firma? ¿y qué significa para la formación de nuevos investigadores si el listón de los problemas ‘accesibles’ sube de golpe?

SkillOS y curación de habilidades

En paralelo, en investigación de agentes aparece SkillOS, un enfoque de RL para que los agentes basados en LLM dejen de ser ‘solucionadores de una sola vez’ y empiecen a mejorar acumulando habilidades reutilizables. La tesis central es elegante: el gran cuello de botella no es ejecutar habilidades, sino curarlas—decidir qué guardar, qué editar y cómo organizarlo cuando el feedback llega tarde y de forma indirecta. SkillOS separa un ejecutor congelado —que recupera y aplica skills— de un curador entrenable que modifica un repositorio externo con lo aprendido en trayectorias previas. ¿Por qué importa? Porque apunta a un camino más estable hacia agentes que se vuelven mejores con el tiempo sin convertir la memoria en un cajón de sastre.

Memoria que empeora a agentes

Y justo aquí encaja otra pieza: un conjunto de experimentos advierte que la receta popular de “memoria” para agentes —resumir experiencias pasadas en lecciones y reescribirlas una y otra vez— puede salir mal. En una secuencia controlada, un modelo que había resuelto problemas perfectamente cayó de forma drástica tras varias rondas de consolidación, sin que el problema fuera falta de datos: el deterioro venía de la reescritura misma. El diagnóstico suena familiar para cualquiera que haya sufrido documentación que se ‘autocopia’ y se deforma: sobre-generalización, episodios mezclados que no deberían mezclarse y un bucle donde el resumen generado se vuelve la nueva ‘verdad’. La propuesta de mitigación es más conservadora: preservar evidencia cruda —trayectorias episódicas— y consolidar solo cuando haya motivos fuertes y compuertas de control.

Post-entrenamiento: SFT vs RL vs OPD

Si juntamos estas dos historias, aparece un mensaje común: no basta con dar memoria a un agente; hay que gobernarla. De hecho, Garry Tan, CEO de Y Combinator, insiste en algo parecido desde el ángulo práctico: la confiabilidad llega cuando conviertes prompts improvisados en skills reutilizables, probados y componibles. Su idea de un “sistema operativo personal” con una base de conocimiento que se actualiza y se cruza automáticamente sugiere que el valor compuesto está en la acumulación ordenada: cada reunión, cada lectura, cada skill mejora la siguiente ejecución. Menos chat puntual; más infraestructura personal.

MoE modular: modelo EMO

En teoría del post-entrenamiento, también se está afinando el vocabulario. Un ensayo propone un modelo mental “distribucional”: SFT te arrastra hacia la distribución de un dataset fijo y, si está lejos del comportamiento original del modelo, puede provocar olvido catastrófico. En cambio, el RL online y variantes como la destilación on-policy mueven la probabilidad de forma más local, apoyándose en datos generados por el propio modelo, lo que actúa como una especie de freno implícito que preserva capacidades. La idea útil para equipos aplicados es sencilla: no es solo “qué teacher usas”, sino de dónde sale el dato —si es on-policy— y cómo asignas crédito sin sesgar el comportamiento hacia tokens de estilo.

Seguridad: IA y zero-days

Pasando a arquitectura, Ai2 presentó EMO, un modelo MoE pensado para que los “expertos” sean más coherentes a nivel documento. Traducido: en muchos MoE, aunque por token activas pocos expertos, a lo largo de una respuesta terminas tocando muchos, lo que complica desplegar solo una parte del modelo. EMO intenta que, por documento, el enrutamiento se mantenga dentro de un conjunto más estable. ¿Por qué interesa? Porque acerca el sueño práctico de los modelos dispersos: modularidad que se pueda recortar, desplegar y adaptar con menos dolor operativo.

Codex en empresas con controles

Ahora, seguridad: Google dice haber identificado lo que cree que es el primer caso conocido de hackers criminales usando IA para descubrir y “armar” un zero-day. Los detalles públicos son limitados, pero el punto es el cambio de estatus: de preocupación teórica a evidencia concreta. Incluso si para explotar hacía falta credencial válida, el riesgo sistémico es que el hallazgo de fallos explotables se abarate y aumente la cadencia de ataques. Esto empuja otra conversación: cómo coordinas divulgación responsable y parches cuando hay modelos que pueden acelerar tanto defensa como ofensiva.

Infraestructura y carrera por cómputo

En esa misma línea de ‘operacionalizar’ la seguridad, OpenAI explicó cómo ejecuta su agente de programación Codex en flujos reales de ingeniería: sandboxes con límites claros, políticas de aprobación humana para acciones más riesgosas, control fino del acceso a red y, sobre todo, telemetría para auditar qué quiso hacer el agente y qué hizo de verdad. Lo interesante no es un truco específico, sino el patrón: si los agentes van a tocar repos, CI y producción, la seguridad ya no puede ser solo un filtro al final; tiene que ser gobernanza continua y rastreable.

Economía de herramientas: pago por uso

Y mientras tanto, la carrera por cómputo se vuelve cada vez más financiera. Las acciones de Akamai se dispararon tras un reporte que vincula un gran compromiso de infraestructura cloud con Anthropic, señalando cómo proveedores tradicionales están encontrando un nuevo motor en la demanda de IA. En otra punta, Nvidia sigue expandiéndose como gran inversor del sector, con compromisos enormes y una estrategia que algunos ven como ‘financiar el ecosistema’… y otros como una forma de apuntalar demanda futura de GPUs. En Europa, Mistral crece rápido apoyándose en el argumento de soberanía y control: modelos que puedes ejecutar y ajustar sin depender por completo de APIs cerradas. El tema común: capacidad, dependencia y quién controla la pila.

Reacción social: abucheos a la IA

Cerramos con dos termómetros sociales y económicos. Primero, GitHub moviendo Copilot hacia facturación por uso reaviva la sospecha de que la era de ‘IA barata’ venía subsidiada, y empuja a más gente a probar inferencia local. Pero los relatos de usuarios son claros: para tareas de agente, el límite es la velocidad real —tokens por segundo— y los cuellos de memoria, no solo “tener una GPU”. Segundo, en una graduación de la Universidad de Central Florida, una ponente fue abucheada al llamar a la IA “la próxima revolución industrial”. Más allá del momento, refleja una brecha: para algunos, promesa de productividad; para otros, amenaza a trabajos creativos, evaluación académica y dignidad profesional. Esa tensión va a seguir marcando el ritmo de adopción, dentro y fuera de las empresas.

Hasta aquí el episodio de hoy, 12 de mayo de 2026. Si algo queda claro es que el futuro cercano de la IA no depende solo de modelos más potentes: depende de cómo curamos memoria y habilidades, cómo auditamos agentes, y quién asegura el cómputo para ejecutar todo esto. Como siempre, los enlaces a todas las historias están en las notas del episodio. Gracias por escuchar The Automated Daily, AI News edition. Soy TrendTeller. Hasta mañana.

IA resolviendo matemáticas de frontera & SkillOS y curación de habilidades - Noticias de IA (12 may 2026)

Our Sponsors

Today's AI News Topics