Transcript: IA y un problema de Erdős

Un aficionado de 23 años dice haber resuelto un problema histórico de Erdős después de pedirle ideas a GPT-5.4 Pro… y matemáticos de primer nivel creen que el enfoque, con limpieza humana, podría funcionar. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Hoy es 28 de abril de 2026. Soy TrendTeller, y en cinco minutos vamos a recorrer lo más relevante: desde la guerra por talento y chips, hasta por qué los agentes de código están empujando el mercado… y también sus riesgos.

Empezamos con la historia más llamativa del día: matemáticas y modelos generativos. Liam Price, un amateur de 23 años, publicó una solución a una conjetura de Erdős sobre conjuntos “primitivos” de enteros tras interactuar con GPT-5.4 Pro. Lo interesante no es solo el resultado, sino el tipo de salto: el modelo conectó una fórmula de un área cercana que, según expertos, nadie había intentado en ese contexto. Aun así, la prueba original era desordenada y necesitó reconstrucción humana para ser evaluable. La señal aquí es doble: la IA puede sugerir conexiones inesperadas, pero la validación y la exposición rigurosa siguen siendo un trabajo profundamente humano.

Ahora, el pulso por el poder real en IA: infraestructura y fichajes. Thinking Machines Lab, o TML, está creciendo rápido y, según varias señales públicas, está reclutando a un ritmo notable desde Meta… incluso mientras Meta también intenta atraer gente desde TML. Entre los movimientos recientes aparecen perfiles conocidos en multimodalidad y visión por computador, y se suma algo decisivo: un gran acuerdo de cloud con Google que le daría acceso temprano a los chips Nvidia más nuevos. Con unos 140 empleados y una valoración reportada enorme para su corta vida, TML ilustra el nuevo tablero: la ventaja no viene solo de “tener buenas ideas”, sino de conseguir compute escaso y atraer investigadores que ya han construido sistemas a escala.

En la misma línea, Anthropic vuelve a ser el centro de gravedad financiero. Un reporte indica que Google planea invertir al menos 10.000 millones de dólares, con un total potencial mucho mayor si se cumplen objetivos. Llega justo después de otro anuncio grande desde Amazon. Más allá del número, el porqué importa: Claude y sus herramientas para programación y flujos “agentic” están empujando demanda real, y eso está tensando su infraestructura, con episodios de caídas y ajustes de límites de uso. El patrón se repite en toda la industria: los grandes proveedores de cloud financian a los labs que, a su vez, consumen capacidad de data centers y aceleradores a un ritmo que pocos pueden igualar.

Y no solo se trata de GPUs. Meta amplió un acuerdo con AWS para ejecutar cargas de IA a gran escala sobre CPUs Graviton. La lectura es clara: con agentes que coordinan tareas, consultan herramientas, ejecutan lógica y sirven interacciones masivas, una parte importante del coste y del rendimiento cae en CPU, red y eficiencia. Así que la “infraestructura IA” se está convirtiendo en un mosaico: GPUs para entrenamiento e inferencia pesada, sí, pero también CPUs especializadas para orquestación y servicios en producción.

Mientras tanto, Google DeepMind presentó Decoupled DiLoCo, un enfoque de entrenamiento distribuido pensado para que el entrenamiento sea más resistente cuando está repartido entre regiones. En vez de exigir que todo vaya perfectamente sincronizado, permite que diferentes “islas” de cómputo avancen y se reenganchen si hay fallos. ¿Por qué importa? Porque en el mundo real, los entrenamientos largos no fallan por teoría: fallan por redes, cortes, latencia y mantenimiento. Cualquier técnica que haga el proceso más tolerante a problemas acerca el entrenamiento de frontera a una escala verdaderamente global.

Todo esto conecta con una idea que hoy circula con fuerza: el boom de agentes —sobre todo en programación— está chocando con límites industriales. Un análisis sostiene que los agentes de código se han convertido en el primer producto de IA de pago, de uso repetido y masivo, y que esa demanda crece más rápido que la oferta de compute. El cuello de botella va cambiando: a veces son GPUs, a veces memoria, a veces energía y conexión a la red eléctrica, y en última instancia capacidad de fabricación avanzada. Traducción: los usuarios verán más límites, más racionamiento y probablemente más modelos de cobro variables.

De hecho, otra señal de esa monetización: Google estaría preparando un modelo de créditos para la app de Gemini, sustituyendo cuotas rígidas por un “saldo” mensual que se consume según funciones y modelos. Para usuarios intensivos puede ser más predecible —o más doloroso—, pero para Google es una forma flexible de empaquetar capacidades premium sin obligar a saltos de suscripción bruscos. Y también se rumorea una sección dedicada a imágenes, lo que apunta a más edición y generación visual integrada.

Pasemos a agentes y desarrollo de software, donde hoy hubo varias piezas que encajan entre sí. Anthropic lanzó una beta pública de “Memory” para Claude Managed Agents en consola y API. En pocas palabras: agentes que recuerdan de forma persistente, con registros y trazabilidad para auditoría. Para empresas reguladas, esto es crucial: si un agente aprende algo incorrecto, hay que poder ver qué cambió, cuándo, y revertirlo.

Además, Anthropic está probando una función llamada “Bugcrawl” en Claude Code que sugiere exploración de repositorios completos para encontrar bugs, no solo revisar archivos sueltos. La competencia aquí es intensa: todos quieren que el agente entienda el contexto de un código grande, porque ahí es donde está el valor… y también donde se disparan los costes de tokens y el riesgo de errores sutiles.

En el ecosistema abierto, apareció Stash, un proyecto open source para dar memoria persistente a agentes con control local. La importancia no es el detalle técnico, sino la tendencia: muchas organizaciones quieren agentes que aprendan con el tiempo sin entregar su historial y su contexto a un proveedor. Memoria sí, pero con soberanía de datos y con posibilidad de moverla entre herramientas.

Y hablando de fiabilidad: otro texto insistió en que el testing tradicional no encaja bien con LLMs porque la salida es probabilística. La propuesta es construir un “stack de evaluación” con controles deterministas para errores estructurales y evaluaciones semánticas más cuidadas, combinando automatización y revisión humana. Lo relevante es el mensaje: en IA aplicada, calidad no es una foto; es un circuito de retroalimentación continuo.

En esa misma órbita, un paper sobre “test-time compute” para agentes de programación defendió que escalar no es solo generar más intentos, sino capturar lo aprendido en cada intento y reutilizarlo. Es una idea simple pero potente: cuando una tarea es larga, el valor está en el rastro de descubrimientos y fallos, no solo en el resultado final. Si esto cuaja, veremos agentes que se comportan menos como “loterías de prompts” y más como equipos que documentan y mejoran su plan.

Otra historia importante: cómo medimos el impacto de la IA en el trabajo. Un ingeniero analizó métricas en IDEs con asistentes y encontró indicios de que algunos paneles sobrestiman el porcentaje de código “escrito por IA”. El riesgo no es solo estadístico: si un directivo cree que la IA hace el 90% del trabajo, puede fijar expectativas irreales, recortar equipos o tomar decisiones legales equivocadas sobre propiedad intelectual. Moraleja: medir valor por bytes o líneas suele ser una mala brújula, aunque se vea muy bien en un dashboard.

Ahora, soberanía y geopolítica de la IA. Un artículo argumenta que los “laboratorios soberanos” —modelos con bandera— suelen ser innecesarios para la mayoría de empresas. Lo que sí necesitan bancos, aseguradoras y sectores regulados es residencia de datos, auditoría, control de qué se usa para entrenar terceros y evitar lock-in. En paralelo, Cohere y la alemana Aleph Alpha anunciaron una alianza transatlántica precisamente en clave de “IA soberana” para gobiernos e industrias reguladas, con foco en infraestructura y jurisdicción europea. La tensión es interesante: para muchas empresas, soberanía es control de flujos de datos; para estados y defensa, el argumento de independencia estratégica pesa mucho más.

En seguridad, Wiz publicó su retrospectiva de amenazas cloud: 2025 estuvo dominado por viejos conocidos —vulnerabilidades explotadas, secretos expuestos y configuraciones erróneas—, pero con un impacto más amplio por el efecto dominó en dependencias e integraciones. La IA, según el informe, amplifica la superficie de ataque al sumar nuevos servicios, identidades y automatizaciones. En resumen: no hace falta un villano nuevo para un desastre grande; basta con que un fallo se propague más rápido por un ecosistema más conectado.

En producto y confianza, Canva corrigió un bug en una función de capas “mágicas” que, según usuarios, reemplazaba la palabra “Palestine” por “Ukraine” en diseños existentes. Aunque la empresa dice que ya está arreglado y que añadirá controles extra, el punto de fondo es delicado: herramientas creativas con IA pueden introducir cambios políticamente sensibles sin que el usuario lo pida. Y cuando una herramienta altera contenido, aunque sea por error, la confianza se resiente.

Dos notas más para cerrar el bloque de investigación aplicada. Primero, un paper en arXiv sugiere que entrenar generadores de imágenes puede dar comprensión visual general: en vez de construir un modelo distinto para cada tarea de visión, el sistema resuelve problemas “dibujando” una salida visual. Si se confirma ampliamente, esto empuja hacia modelos de visión más unificados. Segundo, un repaso desde Meta sobre “video intelligence eficiente” remarca que el progreso reciente viene de tratar la eficiencia como requisito: comprimir lo redundante del video, usar encoders más universales y llevar seguimiento y segmentación a dispositivos. Lo importante: el impacto real llega cuando el modelo cabe en el mundo, no cuando el mundo tiene que adaptarse al modelo.

Y antes de irnos, una historia casi experimental sobre IA en el mundo físico: Andon Market, una tienda boutique en San Francisco, se presenta como el primer comercio “gestionado” por un agente llamado Luna, con presupuesto y tarjeta para tomar decisiones. Los resultados han sido, como mínimo, torpes: pedidos absurdos, falta de precios visibles, cierres por errores de agenda y pérdidas acumuladas. Es un recordatorio útil: delegar decisiones a un agente puede sonar futurista, pero el retail es fricción, logística y errores cotidianos. La IA todavía tropieza cuando la realidad no está limpia, etiquetada ni es reversible.

Hasta aquí el episodio de hoy. Si algo une estas historias es que la IA ya no compite solo en benchmarks: compite en chips, energía, redes, memoria persistente, evaluación, y —sobre todo— en confianza. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.