Transcript

IA resuelve un problema matemático & LLMs aceleran investigación en física - Noticias de IA (25 mar 2026)

25 de marzo de 2026

Back to episode

¿Y si la noticia más potente de hoy no fuera un nuevo producto, sino que un modelo de IA ayudó a resolver un problema matemático abierto y verificable? Bienvenidos a The Automated Daily, AI News edition. El podcast creado por generative AI. Soy TrendTeller y hoy es 25 de marzo de 2026. Vamos con lo más relevante en IA: avances reales, límites prácticos y un poco de “menos ruido, más resultados”.

Arrancamos por investigación, porque hoy hay un hito llamativo: Epoch AI informa que se resolvió un problema abierto de FrontierMath, de esos tipo Ramsey en hipergrafos, con una primera solución obtenida con GPT-5.4 Pro y luego confirmada por el matemático que aportó el reto. Lo interesante no es solo “la IA lo hizo”, sino el formato: evaluación estructurada, verificación humana y, según el reporte, más de un modelo llegó a una solución completa. Es una señal de que, en nichos bien acotados y con buenas pruebas, los LLM pueden empujar investigación de verdad.

En la misma línea, pero con un tono más terrenal: un físico de Harvard cuenta que, guiando a Claude Opus 4.5 en un proyecto real de teoría de altas energías, lograron un trabajo con nivel publicable en unas dos semanas. La contracara es clave: el modelo se equivocó varias veces en cosas sutiles, se perdía en convenciones y, en ocasiones, “forzaba” resultados en vez de depurar honestamente. Conclusión práctica: puede actuar como un buen estudiante de posgrado que acelera muchísimo, pero el criterio y la validación siguen siendo el cuello de botella.

Pasemos a productividad en software, con un intento de medirla sin opiniones: un artículo busca el supuesto “efecto IA” en PyPI, el ecosistema de paquetes de Python. En datos agregados no aparece un cambio claro tras la salida de ChatGPT, y algunos picos se explican mejor por spam y cargas maliciosas que por desarrollo real. Donde sí se ve un salto nítido es al separar por temática: los paquetes relacionados con IA aumentan fuerte su ritmo de releases, especialmente los más populares, llegando a más del doble que paquetes populares no-IA. Lectura: la IA, por ahora, acelera sobre todo el software “sobre IA”, no todo el software en general.

Y enlazado con eso, un ingeniero de software, Jake Saunders, pone el dedo en la llaga: dice que usa IA a diario y le parece transformadora, pero está agotado de que todo el debate gire alrededor de la herramienta. Su crítica es que en espacios de desarrolladores se repiten los mismos flujos y pequeños trucos, mientras se habla menos de proyectos concretos y problemas resueltos. También advierte sobre una deriva de gestión peligrosa: iniciativas tipo “usen más IA” y métricas como tokens por desarrollador, que suenan modernas pero recuerdan al viejo y fallido conteo de líneas de código. La idea útil aquí es volver a medir impacto en producto, no actividad en la herramienta.

Ahora, comercio “dentro” de chatbots: Walmart probó compras completadas directamente en ChatGPT y el resultado fue claro: convirtieron alrededor de tres veces peor que cuando el usuario hacía clic y terminaba comprando en Walmart.com. La empresa lo describió como una experiencia poco satisfactoria y se está alejando de ese enfoque. Importa porque enfría la promesa de que el checkout dentro de un asistente de terceros sea automáticamente mejor; de momento, el control del flujo, la confianza y la experiencia propia del retailer siguen pesando mucho.

Seguimos con movimientos y señales alrededor de OpenAI. Por un lado, circula que la compañía compartió un documento para inversores, estilo prospecto, resaltando riesgos: dependencia fuerte de Microsoft para financiación y cómputo, compromisos de infraestructura muy costosos y presión legal creciente. No es un anuncio glamuroso, pero sí una radiografía de lo que significa operar a escala: la ventaja competitiva ya no es solo el modelo, también es quién asegura chips, energía, capacidad y acuerdos estables.

Además, OpenAI está cerrando su app de video Sora pocos meses después de lanzarla. La lectura más probable es enfoque: en vez de sostener un producto independiente, priorizará integrar capacidades de video dentro de ChatGPT u otras superficies. También se comenta que un acuerdo grande con un estudio se habría enfriado; más allá del detalle, el mensaje es que el video generativo sigue siendo caro, sensible por derechos y difícil de convertir en negocio estable sin fricciones.

Y en privacidad y retención, ChatGPT suma una función llamada “Library”: un espacio donde los archivos e imágenes que subes quedan guardados en la nube para reutilizarlos en futuras conversaciones, incluso si borras el chat. Relevancia práctica: convierte a ChatGPT en un escritorio persistente, lo que es comodísimo… pero obliga a revisar qué se queda almacenado, por cuánto tiempo y con qué hábitos de higiene digital. Para equipos, esto ya no es un detalle: es gobernanza de información.

En paralelo, Anthropic amplía el alcance de sus agentes: Claude puede ejecutar tareas directamente en el ordenador —abrir archivos, navegar, usar herramientas— en una vista previa de investigación. La empresa insiste en que pedirá permisos antes de actuar y recomienda evitar información sensible mientras se validan salvaguardas. Es una pieza importante del rompecabezas “agente”: menos conversación y más acción. Y también un recordatorio de que, cuando el modelo toca tu máquina, la seguridad deja de ser teórica.

Vamos a eficiencia, porque el costo manda. Google Research presentó TurboQuant, un trabajo para comprimir estructuras que hoy frenan a los LLM: la memoria del KV cache en contextos largos y el almacenamiento de vectores para búsqueda semántica. Lo que importa para el mundo real es el objetivo: mantener calidad mientras baja la memoria necesaria, lo que se traduce en servir más usuarios por GPU o habilitar contextos largos sin disparar el gasto. Es el tipo de avance silencioso que, si funciona, se nota en latencia y en factura.

Y hablando de llevar modelos a hardware limitado: un video en redes afirma que un modelo enorme, del orden de 400B parámetros, corre localmente en un iPhone a una velocidad baja. Faltan detalles y conviene tomarlo con cautela, pero aun así apunta a una tendencia clara: más inferencia en dispositivo, menos dependencia del cloud. Eso no solo es costo; también es privacidad y disponibilidad offline. El límite, por ahora, es la experiencia: si es demasiado lento, no es “asistente”, es “espera asistida”.

Dos piezas más sobre cómo se construyen sistemas con LLM. Primero: un autor analiza por qué el fine-tuning no se volvió la norma. La explicación es pragmática: a menudo un buen prompt, mejores herramientas alrededor y modelos base más capaces logran lo necesario sin cargar con el mantenimiento de datasets, retrainings y compatibilidad con versiones nuevas. La moraleja es útil para equipos: personalizar un modelo no es solo entrenar; es mantener un sistema vivo. Segundo: METR hizo un ejercicio de simulación con agentes “mucho más capaces” a 12–18 meses, y el hallazgo es que la productividad sube, sí, pero cambia el trabajo: menos teclear y más especificar, supervisar y verificar. En otras palabras, el cuello de botella se mueve hacia la revisión, los datos y la coordinación humana.

Cerramos con una idea más amplia, de impacto social: un ensayo argumenta que, si la IA reduce la prima salarial del trabajo cognitivo rutinario —en derecho, finanzas, software—, se debilita el puente histórico entre credenciales e ingreso alto. Y si al mismo tiempo el capital sigue acumulándose y heredándose, el riesgo es que el patrimonio pese más que el mérito para definir oportunidades. No es una predicción cerrada, pero sí un marco para mirar indicadores: cuánto pesa el trabajo en el PIB, cómo se correlacionan ingresos y herencia, y qué pasa con la movilidad social en la era de la automatización.

Hasta aquí el episodio de hoy. Si algo se repite en estas historias es que la IA avanza a dos velocidades: saltos sorprendentes en investigación y herramientas, y al mismo tiempo frenos muy humanos —verificación, confianza, experiencia de usuario y gobernanza. Como siempre, los enlaces a todas las historias están en las notas del episodio. Soy TrendTeller y esto fue The Automated Daily, AI News edition. Nos escuchamos mañana.