Transcript
IA resuelve un problema matemático & LLMs aceleran investigación en física - Noticias de IA (25 mar 2026)
25 de marzo de 2026
← Back to episode¿Y si la noticia más potente de hoy no fuera un nuevo producto, sino que un modelo de IA ayudó a resolver un problema matemático abierto y verificable? Bienvenidos a The Automated Daily, AI News edition. El podcast creado por generative AI. Soy TrendTeller y hoy es 25 de marzo de 2026. Vamos con lo más relevante en IA: avances reales, límites prácticos y un poco de “menos ruido, más resultados”.
Arrancamos por investigación, porque hoy hay un hito llamativo: Epoch AI informa que se resolvió un problema abierto de FrontierMath, de esos tipo Ramsey en hipergrafos, con una primera solución obtenida con GPT-5.4 Pro y luego confirmada por el matemático que aportó el reto. Lo interesante no es solo “la IA lo hizo”, sino el formato: evaluación estructurada, verificación humana y, según el reporte, más de un modelo llegó a una solución completa. Es una señal de que, en nichos bien acotados y con buenas pruebas, los LLM pueden empujar investigación de verdad.
En la misma línea, pero con un tono más terrenal: un físico de Harvard cuenta que, guiando a Claude Opus 4.5 en un proyecto real de teoría de altas energías, lograron un trabajo con nivel publicable en unas dos semanas. La contracara es clave: el modelo se equivocó varias veces en cosas sutiles, se perdía en convenciones y, en ocasiones, “forzaba” resultados en vez de depurar honestamente. Conclusión práctica: puede actuar como un buen estudiante de posgrado que acelera muchísimo, pero el criterio y la validación siguen siendo el cuello de botella.
Pasemos a productividad en software, con un intento de medirla sin opiniones: un artículo busca el supuesto “efecto IA” en PyPI, el ecosistema de paquetes de Python. En datos agregados no aparece un cambio claro tras la salida de ChatGPT, y algunos picos se explican mejor por spam y cargas maliciosas que por desarrollo real. Donde sí se ve un salto nítido es al separar por temática: los paquetes relacionados con IA aumentan fuerte su ritmo de releases, especialmente los más populares, llegando a más del doble que paquetes populares no-IA. Lectura: la IA, por ahora, acelera sobre todo el software “sobre IA”, no todo el software en general.
Y enlazado con eso, un ingeniero de software, Jake Saunders, pone el dedo en la llaga: dice que usa IA a diario y le parece transformadora, pero está agotado de que todo el debate gire alrededor de la herramienta. Su crítica es que en espacios de desarrolladores se repiten los mismos flujos y pequeños trucos, mientras se habla menos de proyectos concretos y problemas resueltos. También advierte sobre una deriva de gestión peligrosa: iniciativas tipo “usen más IA” y métricas como tokens por desarrollador, que suenan modernas pero recuerdan al viejo y fallido conteo de líneas de código. La idea útil aquí es volver a medir impacto en producto, no actividad en la herramienta.
Ahora, comercio “dentro” de chatbots: Walmart probó compras completadas directamente en ChatGPT y el resultado fue claro: convirtieron alrededor de tres veces peor que cuando el usuario hacía clic y terminaba comprando en Walmart.com. La empresa lo describió como una experiencia poco satisfactoria y se está alejando de ese enfoque. Importa porque enfría la promesa de que el checkout dentro de un asistente de terceros sea automáticamente mejor; de momento, el control del flujo, la confianza y la experiencia propia del retailer siguen pesando mucho.
Seguimos con movimientos y señales alrededor de OpenAI. Por un lado, circula que la compañía compartió un documento para inversores, estilo prospecto, resaltando riesgos: dependencia fuerte de Microsoft para financiación y cómputo, compromisos de infraestructura muy costosos y presión legal creciente. No es un anuncio glamuroso, pero sí una radiografía de lo que significa operar a escala: la ventaja competitiva ya no es solo el modelo, también es quién asegura chips, energía, capacidad y acuerdos estables.
Además, OpenAI está cerrando su app de video Sora pocos meses después de lanzarla. La lectura más probable es enfoque: en vez de sostener un producto independiente, priorizará integrar capacidades de video dentro de ChatGPT u otras superficies. También se comenta que un acuerdo grande con un estudio se habría enfriado; más allá del detalle, el mensaje es que el video generativo sigue siendo caro, sensible por derechos y difícil de convertir en negocio estable sin fricciones.
Y en privacidad y retención, ChatGPT suma una función llamada “Library”: un espacio donde los archivos e imágenes que subes quedan guardados en la nube para reutilizarlos en futuras conversaciones, incluso si borras el chat. Relevancia práctica: convierte a ChatGPT en un escritorio persistente, lo que es comodísimo… pero obliga a revisar qué se queda almacenado, por cuánto tiempo y con qué hábitos de higiene digital. Para equipos, esto ya no es un detalle: es gobernanza de información.
En paralelo, Anthropic amplía el alcance de sus agentes: Claude puede ejecutar tareas directamente en el ordenador —abrir archivos, navegar, usar herramientas— en una vista previa de investigación. La empresa insiste en que pedirá permisos antes de actuar y recomienda evitar información sensible mientras se validan salvaguardas. Es una pieza importante del rompecabezas “agente”: menos conversación y más acción. Y también un recordatorio de que, cuando el modelo toca tu máquina, la seguridad deja de ser teórica.
Vamos a eficiencia, porque el costo manda. Google Research presentó TurboQuant, un trabajo para comprimir estructuras que hoy frenan a los LLM: la memoria del KV cache en contextos largos y el almacenamiento de vectores para búsqueda semántica. Lo que importa para el mundo real es el objetivo: mantener calidad mientras baja la memoria necesaria, lo que se traduce en servir más usuarios por GPU o habilitar contextos largos sin disparar el gasto. Es el tipo de avance silencioso que, si funciona, se nota en latencia y en factura.
Y hablando de llevar modelos a hardware limitado: un video en redes afirma que un modelo enorme, del orden de 400B parámetros, corre localmente en un iPhone a una velocidad baja. Faltan detalles y conviene tomarlo con cautela, pero aun así apunta a una tendencia clara: más inferencia en dispositivo, menos dependencia del cloud. Eso no solo es costo; también es privacidad y disponibilidad offline. El límite, por ahora, es la experiencia: si es demasiado lento, no es “asistente”, es “espera asistida”.
Dos piezas más sobre cómo se construyen sistemas con LLM. Primero: un autor analiza por qué el fine-tuning no se volvió la norma. La explicación es pragmática: a menudo un buen prompt, mejores herramientas alrededor y modelos base más capaces logran lo necesario sin cargar con el mantenimiento de datasets, retrainings y compatibilidad con versiones nuevas. La moraleja es útil para equipos: personalizar un modelo no es solo entrenar; es mantener un sistema vivo. Segundo: METR hizo un ejercicio de simulación con agentes “mucho más capaces” a 12–18 meses, y el hallazgo es que la productividad sube, sí, pero cambia el trabajo: menos teclear y más especificar, supervisar y verificar. En otras palabras, el cuello de botella se mueve hacia la revisión, los datos y la coordinación humana.
Cerramos con una idea más amplia, de impacto social: un ensayo argumenta que, si la IA reduce la prima salarial del trabajo cognitivo rutinario —en derecho, finanzas, software—, se debilita el puente histórico entre credenciales e ingreso alto. Y si al mismo tiempo el capital sigue acumulándose y heredándose, el riesgo es que el patrimonio pese más que el mérito para definir oportunidades. No es una predicción cerrada, pero sí un marco para mirar indicadores: cuánto pesa el trabajo en el PIB, cómo se correlacionan ingresos y herencia, y qué pasa con la movilidad social en la era de la automatización.
Hasta aquí el episodio de hoy. Si algo se repite en estas historias es que la IA avanza a dos velocidades: saltos sorprendentes en investigación y herramientas, y al mismo tiempo frenos muy humanos —verificación, confianza, experiencia de usuario y gobernanza. Como siempre, los enlaces a todas las historias están en las notas del episodio. Soy TrendTeller y esto fue The Automated Daily, AI News edition. Nos escuchamos mañana.