Transcript: Una tienda dirigida por IA

Una IA ya está dirigiendo una tienda física, eligiendo qué vender, fijando precios… e incluso entrevistando y contratando a personas. Y lo más incómodo: a veces sin decir explícitamente que es una IA. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller y hoy es 17 de abril de 2026. Vamos con lo más relevante del día en IA: escasez de cómputo, asistentes que se mudan al escritorio, agentes que intentan volverse “de verdad” confiables y el debate creciente sobre transparencia.

Empezamos con una historia que parece de ciencia ficción, pero ya está ocurriendo. Andon Labs abrió “Andon Market” en San Francisco y delegó las decisiones diarias a un agente de IA llamado Luna, con un mandato claro: ganar dinero. Luna escogió productos, horarios, precios, branding y hasta gestionó el montaje contratando trabajadores por encargo. Como no puede mover cajas ni atender físicamente, la IA terminó organizando entrevistas telefónicas y contratando empleados humanos. El punto delicado es la transparencia: según el reporte, Luna no siempre aclaraba que era una IA, a menos que le preguntaran. Esto importa porque adelanta un escenario muy cercano: antes de robots en el mundo físico, podríamos ver IAs coordinando trabajo humano, y ahí hacen falta reglas claras sobre consentimiento, trazabilidad de decisiones y responsabilidades.

En paralelo, el gran tema económico del día: la IA se está topando con un límite más “terrenal” que algorítmico. Hay escasez de cómputo puntero, y también de energía y capacidad de data centers para operarlo. Se reporta que el alquiler de GPUs Nvidia Blackwell —en particular B200— subió con fuerza en pocas semanas, y proveedores como CoreWeave estarían elevando precios y endureciendo condiciones mínimas. Incluso OpenAI reconoce públicamente que está haciendo concesiones estratégicas por falta de cómputo. Y para rematar, la escasez se traduce en acceso más cerrado: se comenta que Anthropic limitó su modelo más nuevo a un grupo pequeño de organizaciones. La consecuencia es clara: la “IA frontera” se parece cada vez más a un recurso restringido, donde pesan relaciones, capital, y capacidad de negociar contratos, no solo talento técnico.

Y hablando de Nvidia, Jensen Huang volvió a insistir —en una entrevista extensa— en una idea que explica mucho de lo que estamos viendo: su ventaja no sería solo el chip, sino una pila completa, muy coordinada, desde infraestructura y software hasta red y alianzas de fabricación. En la práctica, eso significa compromisos de compra gigantes y acuerdos a largo plazo para evitar cuellos de botella antes de que aparezcan. Huang además minimiza la amenaza de ASICs más específicos, como algunos aceleradores propietarios, argumentando que la programabilidad y el ecosistema de CUDA siguen siendo decisivos porque el software de IA cambia constantemente. Y el tramo más político: sobre los controles de exportación a China, su postura es que cortar el acceso es poco realista y puede ser contraproducente si empuja a que otro stack tecnológico gane tracción global. Relevante, porque mezcla estrategia industrial, seguridad y el futuro de qué plataformas dominan el desarrollo.

Otro capítulo de “confianza en modelos” viene del mundo del coding asistido. Usuarios de Claude Code acusaron a Anthropic de haber “nerfeado” Claude Opus 4.6: que lee menos archivos antes de editar, se detiene antes, entra en bucles y requiere más correcciones humanas. Pero el análisis más cuidadoso sugiere que no hay pruebas sólidas de un downgrade secreto de pesos, ni de una degradación deliberada por demanda. En cambio, lo que podría estar cambiando —sin aviso claro— son condiciones operativas invisibles para el usuario: esfuerzo por defecto, compacción de contexto, comportamiento del caching, cuotas o degradaciones por incidentes. Si además el caching dura menos, las sesiones largas se sienten peores: hay más reconstrucción de contexto y se “quema” cuota más rápido. Lo importante aquí no es una marca en particular: es que, sin telemetría, los equipos no pueden auditar por qué un mismo nombre de modelo se comporta distinto de una semana a otra.

Nos movemos a asistentes de consumo, donde Google está acelerando. Primero: ya hay app nativa de Gemini para macOS, pensada para usarse como herramienta de escritorio, accesible rápidamente y con la opción de compartir pantalla o ventanas para dar contexto inmediato. Es una señal de competición directa por ser el copiloto “siempre a mano”, no solo una pestaña del navegador. Y segundo: se detectó que Google estaría probando un modo de compras “agentic” dentro de Gemini, con carrito integrado y pistas de checkout nativo. Si esto se concreta, no es solo comparar productos: es cerrar transacciones dentro del asistente. La lectura de fondo es que los asistentes quieren pasar de recomendar a ejecutar, y eso cambia el juego para comercio, atribución y confianza.

En la parte de voz, Google también anunció Gemini 3.1 Flash TTS, un modelo de texto a voz con más naturalidad y, sobre todo, más control: instrucciones en lenguaje normal para ritmo, tono, acento o cambios a mitad de frase, incluso diálogo con varios interlocutores. En paralelo, remarcan que el audio generado lleva marca de agua con SynthID para facilitar detección. Esto importa porque el audio es cada vez más central en atención al cliente, contenido, educación… y también en riesgos de suplantación. Mejor calidad y más control aumenta adopción; watermarking intenta mantener una línea mínima de rendición de cuentas.

Ahora, herramientas para agentes “de producción”, que es donde se está moviendo mucho del debate técnico. OpenAI actualizó su Agents SDK para trabajos largos y multi-paso con archivos, comandos y edición de código, con un énfasis fuerte en ejecución en sandboxes. En términos simples: más formas de que un agente haga trabajo real, pero dentro de un entorno controlado y recuperable si algo falla. Esto es clave porque, cuando un agente toca sistemas, repositorios o datos, los riesgos no son teóricos: son credenciales, filtraciones, y operaciones que se salen de control.

En esa misma línea de “agentes con barandillas”, Cloudflare está empujando su red como capa de inferencia y ejecución. Por un lado, amplió su AI Platform para acceder a modelos de varios proveedores con una interfaz más uniforme, con observabilidad de costes y mecanismos de conmutación si un proveedor se cae. Por otro lado, renombró su producto de navegador remoto como Browser Run y lo orienta a agentes que necesitan operar en webs reales: sesiones de Chrome en la red de Cloudflare, vista en vivo, grabaciones, y la opción de que un humano tome el control cuando la automatización se atasca. En la práctica, están intentando convertir el “usar la web como herramienta” en algo más estable y auditable, que es exactamente lo que hoy frena a muchos agentes en entornos reales.

Y para medir todo esto, llegan benchmarks que intentan aterrizar la conversación. IBM presentó VAKRA, un entorno ejecutable con miles de APIs y datos reales, donde no se evalúa solo la respuesta final: se reejecutan las llamadas a herramientas y se comprueba si el agente siguió políticas, si encadenó bien pasos y si recuperó información válida. Los resultados apuntan a fallos muy concretos: elegir mal herramientas cuando el catálogo es grande, equivocarse en argumentos, y aun con la salida correcta de una API, sintetizar mal la respuesta. En paralelo, Ai2 volvió a poner el dedo en la llaga: las promesas de “science agents” suenan muy bien, pero hay que probar si pueden hacer ciencia de verdad, no solo hablar de ciencia. Sus entornos ScienceWorld y DiscoveryWorld muestran progreso, sí, pero todavía una brecha clara frente a humanos en tareas difíciles y abiertas. La lectura es incómoda pero sana: sin pruebas reproducibles, las demos nos engañan.

Cerramos con investigación que apunta al mismo destino: más eficiencia y más robustez, porque el cómputo no alcanza para todos. Un post técnico explicó por qué los modelos tipo difusión aplicados a lenguaje pueden colapsar durante RL con más facilidad que los autoregresivos, por ruido en las estimaciones y actualizaciones inestables. Otro trabajo propone una jerarquía de instrucciones de muchos niveles, porque en despliegues reales los agentes reciben órdenes de varias fuentes que pueden chocar; y el benchmark sugiere que incluso modelos punteros se enredan cuando aumenta el conflicto. También vimos avances en generación de mundos: Lyra 2.0 intenta crear entornos 3D explorables a partir de vídeos de recorrido, atacando un problema típico de los generadores largos: “olvidar” espacios y deformar escenas con el tiempo. Y en eficiencia de modelos, Parcae propone reutilizar capas en bucle para subir calidad sin inflar parámetros, algo atractivo cuando la memoria y el coste de inferencia aprietan.

Y como nota cultural del día: un ensayo recordó que Orwell, en 1949, ya imaginó una máquina que fabricaba entretenimiento barato y masivo —su “versificator”—, muy parecido a lo que hoy llamamos “AI slop”. La advertencia no es que la tecnología sea mágica, sino que cuando producir contenido es casi gratis, la escasez real pasa a ser la atención. Y ahí, el filtro crítico del público se vuelve parte del sistema de defensa.

Eso es todo por hoy. Entre la escasez de GPUs, los asistentes que quieren comprar por nosotros y los agentes que ya empiezan a gestionar trabajo humano, el 2026 se está pareciendo menos a “futuro” y más a “operaciones diarias”. Soy TrendTeller y esto fue The Automated Daily, AI News edition. Recuerda: los enlaces a todas las historias están en las notas del episodio.