ChatGPT con anuncios tempranos & Firefox 148 y control AI - Noticias de IA (24 feb 2026)

Que te aparezca un anuncio en ChatGPT justo después de tu primer mensaje —antes de que la IA entienda qué quieres— suena a detalle menor… pero cambia por completo la conversación sobre confianza y monetización. Bienvenidos a The Automated Daily, edición AI News. El podcast creado por IA generativa. Hoy es 24 de febrero de 2026 y yo soy TrendTeller. Vamos con las noticias, agrupadas por temas para entender qué está pasando de verdad, más allá del titular.

ChatGPT con anuncios tempranos

Empezamos por el frente “producto y negocio”, donde la IA ya no es solo una función: es una línea de ingresos. OpenAI comenzó a mostrar anuncios en ChatGPT a usuarios de EE. UU. en los planes Free y Go, con un detalle llamativo: pueden aparecer inmediatamente después del primer prompt. Es decir, antes de que haya señales claras de intención o contexto. En ejemplos tempranos se han visto marcas grandes —desde viajes hasta semiconductores— y OpenAI insiste en dos líneas rojas: los anuncios están visualmente separados y no pueden influir en las respuestas, y las conversaciones no se comparten con anunciantes. Aun así, para el usuario gratuito el control es limitado: no hay opt-out total, aunque sí puedes descartar anuncios y ajustar personalización. El piloto, además, es “premium” para anunciantes: se habla de un CPM alto y un compromiso mínimo enorme, lo que restringe el acceso a marcas con presupuesto. Todo esto llega tras el roce de finales de 2025 por “sugerencias” dentro del producto que incluso tocaron usuarios de pago. El mensaje de fondo: la IA conversacional está entrando en la economía publicitaria… y eso suele venir con preguntas incómodas sobre incentivos.

Firefox 148 y control AI

En paralelo, Mozilla se mueve justo en la dirección contraria: más control y menos empujones. Firefox 148 incorpora un “AI kill switch” para desactivar mejoras de IA —como prompts de chatbots o resúmenes de enlaces— y, según Mozilla, esa preferencia se respeta en futuras actualizaciones: no se vuelve a activar por sorpresa. El ajuste está en Configuración, dentro de controles de IA, con una opción tipo “bloquear mejoras de IA”. Interesante también el enfoque granular: puedes bloquear servicios de IA en la nube y conservar cosas como traducción en dispositivo, si te conviene. Y la versión trae refuerzos de seguridad web con Trusted Types y Sanitizer API para reducir XSS, además de mejoras de accesibilidad en PDFs y más idiomas en traducciones. Es una actualización que, más allá de la IA, empuja la idea de “tú mandas” en el navegador.

Copilot Advisors debate multiagente

Siguiente pieza en esta categoría: Microsoft, según filtraciones, estaría desarrollando “Copilot Advisors”. La idea es un debate estructurado entre dos personas de IA sobre cualquier tema: tú planteas el dilema, eliges dos perfiles —por ejemplo, experto legal contra experto financiero, o artista tradicional contra tecnólogo— y cada uno defiende una postura a favor o en contra. La interfaz se enfocaría en audio, con voces diferenciadas e incluso retratos. El formato recuerda a los “Audio Overviews” de NotebookLM: menos chat y más conversación guiada para “estresar” una idea. Si esto sale bien, puede ser una herramienta útil para pensar, no para delegar. Si sale regular, se quedará en un teatro de argumentos. Pero es otra señal de hacia dónde va la experiencia: de un asistente a un panel de expertos sintéticos.

Personal Brain OS en Git

Ahora pasamos al gran bloque de “agentes y cómo se les da contexto”, que hoy viene cargado. Muratcan Koylan presentó lo que llama “Personal Brain OS”: un sistema operativo personal para agentes que vive íntegramente en un repositorio Git, basado en archivos —más de 80 entre Markdown, YAML y JSONL— sin base de datos, sin vector store y sin una capa de recuperación hecha a medida. Su tesis es provocadora: el cuello de botella no es el prompting, sino la “ingeniería de contexto”. Los modelos tienen un presupuesto de atención limitado y sufren el famoso “lost in the middle” cuando les metes un mega prompt con todo. ¿La solución? “Progressive disclosure”: un archivo de ruteo ligero se carga siempre; luego instrucciones por módulo; y solo si hace falta, se incorporan datos detallados como logs, configuraciones o investigación. También define una jerarquía de instrucciones para evitar reglas que se pisan: onboarding a nivel repo, una tabla de decisiones a nivel “cerebro” que mapea solicitudes a secuencias de acciones, y restricciones conductuales a nivel de cada módulo. Lo más jugoso es la “memoria episódica”: logs append-only de experiencias, decisiones y fallos, para que el agente recupere razonamientos y trade-offs reales en lugar de generar consejos genéricos. Con referencias cruzadas —como contact_id o pilares de marca— se parece a un modelo relacional plano, navegable sin cargarlo todo de golpe. El premio: portabilidad. Clonas el repo y tu agente ya habla con tu voz, tus prioridades y tus procesos, todo versionado en Git.

Frameworks más token-eficientes

Y si hablamos de agentes en la práctica, aparece OpenClaw: un framework open source para convertir LLMs en agentes que ejecutan flujos reales en tu propia infraestructura. La propuesta es clásica pero bien empaquetada: un núcleo de agente para estado y orquestación, “canales” para Telegram/WhatsApp/Slack/SMS/REST/UI web, un motor de habilidades como plugins, y un sandbox para ejecutar código con permisos escalables. Lo interesante es el patrón “serverless brain”: triggers por webhook —por ejemplo, llega un ticket— y el agente resume, clasifica, etiqueta sentimiento y dispara acciones en otros sistemas. Eso sí, el autor insiste en lo que muchos descubren tarde: operar esto es operar infraestructura. Autenticación, despliegue, control de skills de terceros… y disciplina de seguridad.

Seguridad: Claude Code y Wiz

Aquí entra una noticia que suena a cambio de era: Amp sostiene que la “generación actual de coding agents” ya está agotada, no porque fallen, sino porque el wrapper y la integración con herramientas ya no son el principal limitador con modelos recientes. Según Amp, el cuello de botella se movió a cómo están organizados los codebases y cómo las organizaciones operacionalizan agentes. Su decisión concreta es contundente: discontinuar sus extensiones para VS Code y Cursor. El mensaje es “desencadenar” al modelo del sidebar del editor y empujar el uso hacia CLI, con una fecha de caducidad dramática para las extensiones. Puedes estar de acuerdo o no, pero captura una tensión real: ¿estamos construyendo asistentes de edición o sistemas que ejecutan trabajo con mínima supervisión?

Pruebas matemáticas y RLHF

Desde el ángulo más cuantitativo, Martin Alderson probó 19 frameworks web para ver cuáles son más “token-eficientes” con agentes: le pidió a Claude Code, en contexto fresco, que construyera la misma app de blog con SQLite, CRUD básico, CSS y verificación por curl. Todos lograron una app funcional —algo que, según él, hace un año no era tan común—, pero la eficiencia varió mucho: ASP.NET Minimal API rondó los 26k tokens, mientras Phoenix se fue cerca de 74k, casi 3 veces más. El patrón fue claro: frameworks mínimos tienden a consumir menos tokens en el setup inicial, y los full-stack tienen más “overhead” de lectura y scaffolding. Luego pidió añadir “categorías” a la app; ahí, el coste se igualó bastante entre frameworks, lo que sugiere una idea práctica: el gran gasto está en arrancar, no tanto en iterar sobre una base ya establecida. Este tipo de pruebas aterriza una nueva métrica: no solo velocidad o DX humana, sino coste y fricción para agentes que repiten tareas cientos de veces al día.

IA real: fluidez, economía, adopción

Y en el debate sobre por qué algunos modelos “se sienten” mejores programando, hay un argumento que está ganando tracción: no es solo generar código correcto, es disciplina de proceso. Un autor dice que la gente vuelve a Claude porque otros modelos fallan en tareas reales de extremo a extremo: elegir archivos correctos, editar con precisión, no expandir cambios innecesarios, no entrar en bucles, hacer preguntas cuando falta información. Su reparto es provocador pero plausible: “ser bueno programando” sería 40% código y 60% comportamiento de workflow. Ese análisis conecta con otra discusión curiosa: ¿por qué la app de escritorio de Claude está hecha con Electron? La respuesta es la de siempre: un solo código para Windows, macOS y Linux, con menos superficie de mantenimiento. El artículo plantea que, en teoría, con agentes y desarrollo guiado por especificaciones podríamos generar apps nativas por plataforma… pero el último 10% —fiabilidad, bordes raros, mantenimiento continuo— sigue costando mucho y se multiplica por tres si haces tres apps nativas. Moraleja: hoy la decisión “aburrida” sigue ganando.

Wearables de Apple y FreeBSD

Cambiamos a seguridad, donde la palabra “agente” ya está levantando alarmas. Anthropic lanzó Claude Code Security en preview de investigación: escanea repositorios, detecta vulnerabilidades y sugiere parches para que un humano los revise. Lo diferencial que prometen es razonamiento contextual: no solo patrones conocidos, sino fallos de lógica de negocio y controles de acceso rotos, siguiendo flujo de datos y cómo interactúan componentes. Para bajar falsos positivos, cada hallazgo pasa por verificación en varias etapas donde el propio sistema intenta refutarse antes de llegar al analista. Y añade dos etiquetas útiles: severidad y confianza, porque hay cosas que no se pueden decidir solo leyendo código. Anthropic afirma haber encontrado más de 500 vulnerabilidades en proyectos open source en producción y estar en proceso de divulgación responsable. El subtexto es claro: las mismas capacidades que ayudan a defender también podrían acelerar ataques, así que el “race” también es defensivo. En la misma línea, Wiz está empujando un recurso llamado “Securing AI Agents 101”, tipo ficha rápida, aunque es de acceso restringido con formulario. Más allá del marketing, la señal es que la seguridad de agentes se está formalizando como categoría: pipelines, modelos, herramientas, permisos y trazabilidad de decisiones.

Vamos con investigación y medición, donde hay dos historias que muestran lo difícil que es evaluar “razonamiento”. OpenAI publicó sus intentos de prueba para “First Proof”, un reto matemático de nivel investigación. Dicen que su modelo interno intentó los 10 problemas, y, tras feedback experto, creen que al menos cinco tienen alta probabilidad de ser correctos… pero también tuvieron que retractarse en uno que inicialmente pintaba bien, el problema 2. Lo importante aquí no es el número, sino el método: pruebas end-to-end, verificación costosa, y un proceso que no fue una evaluación totalmente controlada —hubo reintentos, aclaraciones, selección de mejores intentos—. Aun así, es una ventana rara a cómo se ve “progreso” cuando la métrica no es un benchmark automático, sino convencer a matemáticos. Y para quienes quieren entender la maquinaria detrás del alineamiento en chatbots, circula un tutorial “intuición primero” sobre RLHF: desde REINFORCE hasta actor-critic como PPO y variantes sin crítico como GRPO. Me quedo con dos ideas prácticas: el problema real es asignar crédito token a token cuando el reward llega al final, y por eso aparecen conceptos como advantage, value function, GAE y penalizaciones KL para que el modelo no se desboque. Es teoría, sí, pero es la teoría que está moldeando cómo responden los asistentes que usamos a diario.

En paralelo, Anthropic publicó su “AI Fluency Index”, intentando medir no solo adopción, sino habilidad real de colaboración humano-IA. Analizaron casi 10 mil conversaciones anonimizadas con una herramienta de privacidad, y buscaron 11 comportamientos observables dentro de un marco de 24. El hallazgo central: la fluidez aparece cuando la conversación es iterativa. La mayoría de chats muestran refinamiento, y esos chats largos acumulan más “buenas prácticas”: cuestionar el razonamiento del modelo, detectar contexto faltante, ajustar objetivos. Pero hay un giro interesante: cuando la gente genera “artefactos” —apps, documentos, herramientas— se vuelve más directiva (formato, ejemplos, objetivos), pero menos evaluativa dentro del chat: menos fact-checking y menos cuestionamiento explícito. Puede ser porque la verificación ocurre fuera, ejecutando el código, o porque un output pulido baja la guardia. Y ese matiz es oro para equipos que están metiendo IA en producción: el riesgo no siempre está en pedir mal, sino en revisar poco.

Cerramos con dos impactos del mundo físico: economía y hardware. Goldman Sachs dice que el boom de gasto en IA añadió “básicamente cero” al crecimiento del PIB de EE. UU. en 2025, lo que pincha una narrativa muy popular en Wall Street. Su explicación clave es contable y geopolítica: gran parte del hardware —sobre todo chips— se importa, y eso reduce el impacto neto en PIB; el dinero puede estar impulsando más a países productores que a la economía doméstica. Además, aún no hay una forma fiable de medir cómo el uso real de IA se traduce en productividad agregada. Y una encuesta a miles de ejecutivos sugiere algo incómodo: muchas empresas ya usan IA, pero la mayoría no ve impacto en productividad o empleo… todavía. Por el lado de dispositivos, Bloomberg dice que Apple acelera wearables con IA: gafas inteligentes, un posible “pendant” y AirPods con cámaras, con la ambición de meter a Siri en la vida diaria de forma más útil. La pieza más llamativa es la supuesta adquisición de Q.ai por unos 2 mil millones de dólares, asociada a interpretación de “voz silenciosa” mediante micro movimientos faciales. Si eso funciona bien, resuelve un problema práctico enorme: hablarle a un asistente en público o en entornos ruidosos. Y como recordatorio de que la IA también está cambiando cómo construimos software de bajo nivel: un desarrollador cuenta cómo convirtió un MacBook Pro 2016 en banco de pruebas para FreeBSD 15 y, al no tener soporte Wi‑Fi para su Broadcom, terminó creando un driver nuevo. Tras un intento fallido de port directo, usó un agente para generar una especificación detalladísima —un ‘libro’— del comportamiento del chip, la contrastó con el código Linux, y con eso desarrolló un módulo funcional desde cero. Es un caso muy concreto donde la IA no “escribió por escribir”, sino que ayudó a convertir un sistema complejo en una especificación operable.

Y hasta aquí el episodio de hoy, 24 de febrero de 2026. Si te quedas con una idea, que sea esta: la conversación sobre IA ya no va solo de modelos más grandes, sino de incentivos —anuncios—, control del usuario —kill switches—, disciplina de proceso en agentes, y medición realista de impacto, tanto en seguridad como en productividad. TrendTeller se despide. Encontrarás enlaces a todas las historias en las notas del episodio.

ChatGPT con anuncios tempranos & Firefox 148 y control AI - Noticias de IA (24 feb 2026)

Our Sponsors

Today's AI News Topics