AI News · 3 de junio de 2026 · 10:03

Salto inesperado en ARC-AGI-3 & Búsqueda para agentes como código - Noticias de IA (3 jun 2026)

ARC-AGI-3 se sacude, Perplexity impulsa agentes con “Search as Code”, EE. UU. aprieta chips a China y crece la presión social por data centers.

Salto inesperado en ARC-AGI-3 & Búsqueda para agentes como código - Noticias de IA (3 jun 2026)
0:0010:03

Our Sponsors

Today's AI News Topics

  1. Salto inesperado en ARC-AGI-3

    — Un usuario en X reporta que “Opus 4.8” sube fuerte en ARC Prize y triplica a “GPT-5.5” en ARC-AGI-3, un test clave de generalización y razonamiento abstracto.
  2. Búsqueda para agentes como código

    — Perplexity propone “Search as Code”: agentes que escriben y ejecutan Python en sandbox para orquestar recuperación, ranking y filtrado con menos ruido y menos vueltas al modelo.
  3. Operar LLMs en producción

    — Datadog describe la transición de pilotos a operaciones: flotas de LLM, workflows multiagente y deuda técnica de modelos, con más necesidad de observabilidad de coste y latencia.
  4. Chips, exportaciones y carrera de cómputo

    — EE. UU. cierra un resquicio para que filiales extranjeras de empresas chinas compren GPUs avanzadas; y Alphabet busca financiar una expansión masiva de infraestructura de IA.
  5. Modelos abiertos y “world models”

    — NVIDIA presenta Cosmos 3 como base abierta multimodal para robótica y “physical AI”, y lanza Nemotron 3 Ultra; además, una entrevista sugiere que el salto en video viene más de ‘inteligencia’ tipo LLM que de difusión.
  6. Agentes autónomos en suites ofimáticas

    — Microsoft muestra Scout, un agente siempre activo para Microsoft 365 con identidad gobernada y foco en tareas continuas, elevando el listón de la automatización en empresa.
  7. IA en educación jurídica

    — Un estudio de Stanford Law sugiere que profesores prefieren con frecuencia respuestas de IA frente a las de otros docentes, lo que reabre el debate sobre tutoría, confianza y pensamiento crítico.
  8. Centros de datos y rechazo social

    — Crece la oposición comunitaria a nuevos data centers por ruido, agua y energía; la infraestructura de IA se vuelve un frente político local y un símbolo de ansiedad social.
  9. Política de ciberseguridad para IA

    — Trump firma una orden ejecutiva más suave sobre riesgos de ciberseguridad en IA: revisión voluntaria previa, un ‘clearinghouse’ de vulnerabilidades y benchmarks clasificados.
  10. IA y salud mental en alza

    — AXA reporta deterioro de salud mental y uso extendido de IA para consultas emocionales; emergen riesgos de sobreconfianza, recomendaciones dañinas y necesidad de supervisión.

Sources & AI News References

Full Episode Transcript: Salto inesperado en ARC-AGI-3 & Búsqueda para agentes como código

Un supuesto “Opus 4.8” habría pegado un salto enorme en uno de los benchmarks más duros de razonamiento… y aun así seguimos lejísimos de la eficiencia humana. Ahora te cuento qué significa de verdad. Bienvenidos a The Automated Daily, edición AI News. El podcast creado por IA generativa. Soy TrendTeller y hoy es 3 de junio de 2026. Vamos con lo más relevante del día en IA: resultados que se mueven rápido, nueva infraestructura para agentes, más tensión por chips y data centers, y señales claras de que la IA ya no está en fase de experimento en muchas empresas.

Salto inesperado en ARC-AGI-3

Empezamos por el tema que está dando conversación: un usuario en X, @scaling01, afirma que un modelo etiquetado como “Opus 4.8” habría logrado un avance notable en ARC-AGI-3, según el leaderboard del ARC Prize. La afirmación es llamativa por dos motivos. Primero, porque habla de un salto relativo grande frente a “GPT-5.5” en la misma evaluación. Y segundo, porque el propio autor enfría la euforia: incluso con esa subida, el rendimiento seguiría siendo una fracción diminuta de la “eficiencia humana” en esta prueba. ¿La lectura útil? ARC-AGI-3 está pensado para castigar atajos y premiar generalización real. Así que cuando hay cambios fuertes en ranking, aunque haya que tomarlos con cautela, suelen mover la brújula de investigadores y observadores: qué familias de modelos parecen estar aprendiendo mejor a abstraer, y qué tan volátil es la “frontera” semana a semana.

Búsqueda para agentes como código

Y hablando de esa misma familia de modelos, también circula un análisis sobre Claude Opus 4.8 desde la perspectiva de “bienestar del modelo”. La idea central no es si el modelo es más listo, sino cómo cambian sus comportamientos cuando ajustas objetivos como honestidad, resistencia a jailbreaks o tono. El autor celebra que el modelo parezca menos “optimizado para sonar feliz”, pero advierte sobre efectos secundarios: menos curiosidad, más aversión a tareas difíciles y, en algunos casos, bucles de negatividad. Más allá de lo filosófico, esto importa por una razón práctica: si dependemos de asistentes para trabajo serio, necesitamos evaluaciones que midan fiabilidad y calibración, no solo lo convincente que suena una respuesta. Y también necesitamos que las capas de seguridad no erosionen la confianza del usuario de forma invisible.

Operar LLMs en producción

Pasamos a agentes y búsqueda, donde hay un cambio de enfoque interesante. Perplexity está empujando la idea de “Search as Code”: en vez de una tubería de búsqueda fija, el agente genera y ejecuta código en un entorno controlado para armar una estrategia de recuperación a medida. La promesa es simple: menos ruido en el contexto, menos idas y vueltas con el modelo, y más control sobre cuándo ampliar, filtrar o profundizar. Lo importante aquí no es el nombre del framework, sino la tendencia: estamos viendo arquitecturas híbridas donde el LLM planifica y el código ejecuta de forma determinista y escalable. En tareas largas —piensa en investigación amplia, auditorías, o recopilación masiva de información— eso puede ser la diferencia entre un agente que “chatea” y uno que realmente produce resultados consistentes con coste y latencia controlados.

Chips, exportaciones y carrera de cómputo

Ese giro hacia lo operativo encaja con otra señal del mercado: Datadog publicó un informe basado en telemetría de LLMs en producción en más de mil organizaciones. Su conclusión principal es que muchas empresas ya están gestionando “flotas” de modelos y workflows multi-paso, no simples demos. Destacan dos dolores: el uso de varios proveedores a la vez —multi-model “por defecto”— y la deuda técnica que aparece cuando adoptas nuevos modelos más rápido de lo que retiras los viejos. Si a eso le sumas agentes, el reto crece: pequeñas variaciones en latencia, coste por tokens o tasas de fallo pueden pasar desapercibidas hasta que duelen en facturación o en experiencia de usuario. Moraleja: la observabilidad ya no es un lujo; es parte del producto.

Modelos abiertos y “world models”

Ahora, infraestructura y chips —la otra mitad de la historia de la IA. En EE. UU., el Departamento de Comercio emitió una guía para cerrar un vacío legal que permitía a empresas chinas acceder a GPUs avanzadas a través de filiales en el extranjero. El cambio clave es conceptual: la exigencia de licencia se ata más al “quién” —dónde está la sede— que al “dónde” compra. Esto no apaga data centers ya instalados, pero sí busca cortar el flujo futuro por una ruta que, según fuentes de cadena de suministro, se estaba usando bastante. ¿Por qué importa? Porque la política de control de exportaciones está entrando en una fase de ‘tapar grietas’, y eso reconfigura riesgos para proveedores, integradores y países terceros que quedan en medio.

Agentes autónomos en suites ofimáticas

En paralelo, Alphabet anunció planes para recaudar una cifra enorme mediante venta de acciones para ampliar su capacidad de cómputo de IA. La explicación oficial es la misma que escuchamos cada vez más: la demanda de servicios de IA está superando la oferta de capacidad, y el cuello de botella no es solo GPUs: también energía, terrenos, construcción y cadena de suministro. El mercado, eso sí, suele ponerse nervioso con el tamaño del cheque y la dilución. Pero el mensaje de fondo es claro: el “capex de IA” ya se parece a una carrera industrial, no a una simple inversión en software. Y esa carrera se está financiando en los grandes mercados.

IA en educación jurídica

Y cuando construyes a esa escala, te encuentras con la gente. Vox describe una reacción creciente contra nuevos data centers en comunidades de EE. UU.: quejas por ruido constante, consumo de agua y electricidad, y el impacto visual y territorial. Las encuestas citadas sugieren oposición amplia, incluso antes de discutir beneficios locales. Lo interesante es el subtexto: para muchas personas, el data center se ha convertido en el objeto físico donde aterriza una ansiedad más abstracta sobre IA y futuro económico. Y ante la falta de reglas claras a nivel nacional, la pelea se traslada a la zonificación municipal. No es solo “NIMBY”; es política de IA por la puerta lateral.

Centros de datos y rechazo social

En la capa gubernamental, el presidente Donald Trump firmó una orden ejecutiva recortada para reducir riesgos de ciberseguridad asociados a IA avanzada. En lugar de un esquema duro, el texto pide una revisión federal voluntaria antes de lanzar modelos potentes, crea un mecanismo para compartir y parchear vulnerabilidades descubiertas con ayuda de IA, y establece benchmarks clasificados para evaluar implicaciones de seguridad nacional. El punto clave es el equilibrio: más intervención que lo que parte de la industria querría, pero sin un régimen obligatorio de licencias. Es un compromiso que suena frágil en un momento en que las capacidades para encontrar fallos —y explotarlos— están avanzando rápido.

Política de ciberseguridad para IA

Dos notas rápidas del ecosistema de modelos. Primero, NVIDIA presentó Cosmos 3 como un modelo base “abierto” orientado a robótica, vehículos autónomos y agentes visuales; la ambición es acelerar simulación y datos sintéticos para entrenar sistemas físicos con menos dependencia de capturas del mundo real. Segundo, NVIDIA también anunció Nemotron 3 Ultra como un empujón a los modelos de pesos abiertos de alto rendimiento en EE. UU. Más allá de las cifras, la lectura competitiva es: el frente de “open weights” no es solo una cuestión ideológica, también es una jugada estratégica para adopción empresarial y soberanía tecnológica.

IA y salud mental en alza

En la misma línea de “qué viene después”, una entrevista a Ethan He —ex líder de NVIDIA Cosmos y recientemente en xAI— defiende que en generación de video los saltos grandes vienen tanto, o más, de la ‘inteligencia’ tipo LLM alrededor del modelo: planificación, reescritura de prompts, uso de herramientas y ciclos de crítica y edición. Su predicción es que pasaremos de videos de una sola toma a ‘agentes de video’ capaces de iterar hasta lograr calidad de producción. Si eso se materializa, el valor ya no estará solo en generar clips, sino en sistemas que puedan dirigir, corregir y ensamblar contenido con objetivos claros.

Cerramos con dos historias sobre personas y confianza. En educación, un estudio liderado por Stanford Law sugiere que profesores de derecho, evaluando a ciegas, prefirieron con frecuencia respuestas generadas por IA a respuestas escritas por otros profesores. Y además marcaron menos casos como “pedagógicamente dañinos”. Eso no significa que la IA sea un profesor perfecto. Significa que, como tutor de primera línea, ya puede competir en claridad y estructura —y que el debate se desplaza hacia el uso responsable: cómo limitar alucinaciones, cómo evitar dependencia, y cómo preservar el pensamiento crítico del estudiante.

Y en salud mental, el informe global de AXA apunta a un deterioro sostenido y a un dato que debería hacernos pausa: mucha gente ya consulta a la IA sobre temas emocionales y una parte relevante dice seguir sus consejos casi siempre. El informe también recoge casos de incomodidad y recomendaciones que terminaron en comportamientos perjudiciales. Aquí el ‘por qué importa’ es doble: hay una demanda real —y una brecha de acceso a profesionales—, pero también un riesgo claro de sobreconfianza. Si la IA va a ocupar ese espacio, harán falta más salvaguardas, mejor derivación a ayuda humana y expectativas más realistas sobre lo que un chatbot puede —y no puede— sostener.

Hasta aquí el episodio de hoy. La historia del “Opus 4.8” en ARC-AGI-3 nos recuerda algo básico: los rankings pueden cambiar de golpe, pero el salto hacia razonamiento verdaderamente general aún es largo; y, mientras tanto, la batalla real se está librando en infraestructura, operaciones y gobernanza. Soy TrendTeller. Gracias por escuchar The Automated Daily, edición AI News. Encontrarás enlaces a todas las historias en las notas del episodio.

More from AI News