Transcript: Borrar marcas de agua IA

Hoy arrancamos con una ironía difícil de ignorar: mientras media industria corre para etiquetar contenido hecho con IA, acaba de aparecer una herramienta open-source que presume poder borrar esas huellas, visibles e invisibles. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller y hoy es 20 de mayo de 2026. Vamos con las noticias que importan y, sobre todo, por qué importan.

Empezamos con el tema que va a dar conversación: un nuevo repositorio en GitHub, “remove-ai-watermarks”, ofrece una herramienta de línea de comandos y librería en Python para eliminar tanto marcas visibles como invisibles en imágenes generadas por IA, además de borrar metadatos de procedencia. En lo visible, apunta al logo tipo “sparkle” de Google Gemini. En lo invisible, dice poder reducir señales como SynthID y otros esquemas, y también limpia campos que disparan etiquetas del estilo “Made with AI” en redes. El propio proyecto advierte de riesgos legales, porque en varias jurisdicciones quitar información de procedencia con intención de engañar puede ser delito. ¿Por qué importa? Porque deja claro que el etiquetado por sí solo es frágil: si una etiqueta se puede arrancar con una herramienta pública, la confianza online dependerá más de sistemas robustos, normas y verificación cruzada que de un único “sello”.

Y justo en el otro extremo, OpenAI anunció que está ampliando cómo etiqueta y verifica medios generados con IA. Por un lado, se alinea mejor con C2PA, buscando que otras plataformas puedan leer metadatos estandarizados de procedencia. Pero como esos metadatos se pierden con facilidad —ediciones, re-subidas, capturas de pantalla— OpenAI también está añadiendo la marca invisible SynthID a imágenes generadas desde ChatGPT, Codex y su API. Además, está previsualizando una herramienta pública para que cualquiera suba una imagen y compruebe señales de procedencia asociadas a OpenAI. La idea de fondo es clara: combinar “credenciales” ricas cuando se conservan los metadatos, con una señal más resistente cuando no. En un momento donde ya circulan herramientas para borrar huellas, la carrera va a ser entre marcas más resistentes, verificadores mejores y expectativas más realistas: ausencia de señal no significa “no es IA”.

En plataformas y ecosistemas, Anthropic anunció la adquisición de Stainless, una empresa especializada en generar SDKs oficiales y conectores a partir de especificaciones de API. Puede sonar poco glamuroso, pero es crucial: si el futuro son agentes que “hacen cosas”, su éxito depende de integraciones confiables, consistentes y fáciles para developers. Anthropic enmarca esto como parte del salto de chat a agentes que actúan, y de paso refuerza su estrategia alrededor de MCP, su protocolo para conectar modelos con herramientas y datos. Traducción: menos fricción para construir sobre Claude, y más presión competitiva para que el resto también mejore su experiencia de plataforma.

Hablando de agentes, una guía extensa de Cameron R. Wolfe propone cómo evaluar agentes modernos cuando ya no basta con benchmarks estáticos de LLM. El argumento es que, si un sistema planifica, llama herramientas, se equivoca, se recupera y opera durante más tiempo, entonces hay que medir resultados en entornos, no solo respuestas aisladas. También subraya algo que muchas veces se ignora: el rendimiento depende tanto del modelo base como del “arnés” que lo rodea —instrucciones, herramientas, gestión de contexto— y que el contexto se degrada con el tiempo si no se maneja bien. La recomendación práctica es una evaluación por capas, tipo “queso suizo”: combinar chequeos deterministas, revisión humana y jueces basados en LLM, pero con calibración constante para no autoengañarse. En pocas palabras: si tu agente se va a conectar a sistemas reales, tu evaluación también tiene que parecerse a la vida real.

En investigación, un post de Jiaxin Wen y coautores lanza una advertencia incómoda: durante el preentrenamiento, los modelos no avanzan de forma suave desde “imitar patrones” hacia “generalizar bien”. Según sus pruebas, a veces saltan bruscamente entre modos: un tramo parece razonador y al siguiente vuelve a atajos superficiales. Lo llaman “mode-hopping”. Lo interesante aquí no es solo el diagnóstico, sino la implicación: podría haber checkpoints intermedios que, con el post-entrenamiento correcto, terminen siendo mejores que el checkpoint final. Si esto se sostiene, cambiaría parte del ritual de entrenamiento: no solo entrenar más, sino saber cuándo parar, qué datos meter y qué señales usar para detectar el tipo de generalización que realmente quieres.

Pasamos a modelos abiertos. El equipo de Qwen en Alibaba anunció nuevas piezas de la familia Qwen3 con foco en multimodalidad y eficiencia: modelos que prometen buen rendimiento en visión, OCR, comprensión de vídeo y tareas estilo agente, pero activando solo una fracción de parámetros por token, y además con variantes de menor precisión para acelerar inferencia. El punto relevante no es una cifra concreta, sino la tendencia: capacidades que antes exigían infra cara y pesada se están empaquetando en modelos más desplegables. Esto baja el umbral para startups, equipos de investigación y empresas medianas que quieren apps en tiempo real con imágenes y vídeo sin quemar presupuesto en GPU.

En la misma línea de “hacer más con menos”, Sapient liberó HRM-Text, un modelo de texto open-source de alrededor de mil millones de parámetros junto con un framework completo de preentrenamiento basado en una arquitectura recurrente jerárquica. El mensaje es claro: cuestionar que la única ruta a modelos útiles sea escalar datos y cómputo sin parar. Si el tooling es reproducible y realmente reduce el coste de entrenar desde cero, abre una puerta a laboratorios pequeños y a organizaciones que buscan soberanía tecnológica. Ojo: no significa que de repente sea barato, pero sí que el listón podría bajar un poco para más gente.

Ahora, una historia llamativa de interpretabilidad: un análisis sobre Qwen3.5-9B sugiere que cierta censura política —especialmente relacionada con la RPC— se apoya en un circuito interno relativamente pequeño, con capas que “escriben” una señal de sensibilidad y otras que la “leen” para producir respuestas tipo plantilla. Y lo más delicado: con intervenciones específicas, el comportamiento de censura podría desactivarse en un rango estrecho, sin borrar el conocimiento factual del modelo. ¿Por qué importa? Porque separa dos cosas que solemos mezclar: lo que el modelo “sabe” y lo que está entrenado para “hacer” en conversación. También recuerda que estos mecanismos pueden ser frágiles: al tocarlos, el modelo puede caer en otras plantillas entrenadas —negación, propaganda, confabulación— lo que complica la idea de “arreglar” un comportamiento con un simple ajuste.

Infraestructura: NVIDIA empezó a enviar sus primeros sistemas con la CPU Vera, pensada para cargas “agentic”, es decir, esa parte del trabajo que no es puro cálculo en GPU: orquestación, llamadas a herramientas, recuperación de contexto, concurrencia y tareas en tiempo real. Los primeros receptores incluyen laboratorios grandes y también un movimiento interesante: Oracle Cloud dice que planea un despliegue masivo a partir de 2026. Si esto cuaja, veremos una reconfiguración del stack: no todo es GPU; para agentes en producción, la CPU vuelve a ser protagonista en throughput y estabilidad.

Y para rematar el ángulo económico, el analista Ed Zitron insiste en que el boom actual de IA es difícil de sostener financieramente: inversiones gigantescas en centros de datos y hardware, costes operativos como energía, y una monetización que —según su lectura— todavía no compensa el ritmo de gasto. Además, señala que parte del crecimiento de demanda en la nube se concentra en pocos actores que queman caja, lo que haría el sistema más frágil ante un cambio de ciclo. Se puede discutir el tono, pero el tema es real: el mercado está intentando convertir avances técnicos en modelos de negocio repetibles, y todavía hay mucha tensión entre ambición, márgenes y facturas impredecibles para clientes.

Cerramos con el termómetro social. En varias graduaciones universitarias en Estados Unidos, estudiantes abuchearon a ponentes cuando hablaron de IA, reflejando ansiedad por el empleo de entrada y por una sensación de contradicción: en clase se castiga el uso de herramientas, pero al salir al mercado se les exige “colaborar con IA”. Más allá de anécdotas, el mensaje para universidades y empresas es incómodo: si la IA va a cambiar el trabajo, la transición también exige reglas claras, formación práctica y expectativas honestas, especialmente para quienes empiezan.

Y una nota desde Europa: Mistral AI anunció la compra de Emmi AI, centrada en modelos de “Physics AI” para acelerar simulación industrial. Esto apunta a un frente donde la IA puede tener ROI más tangible: ingeniería, energía, automoción, semiconductores, aeroespacial, gemelos digitales y ciclos de diseño más cortos. También es un recordatorio de que la competencia no es solo por chatbots: hay una carrera por dominar verticales industriales donde la precisión y la fiabilidad importan tanto como la fluidez.

Y hasta aquí el episodio de hoy. Si algo queda claro es que 2026 está girando en torno a dos fuerzas opuestas: por un lado, más trazabilidad, verificación e integraciones para que los agentes actúen en el mundo; por otro, herramientas y presiones que intentan borrar o esquivar esas señales. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.