Transcript: IA y decisiones militares automatizadas

¿Y si el mayor peligro de la IA en guerra no fuera “un modelo eligiendo un objetivo”, sino un proceso que convierte un error de base de datos en una tragedia en minutos? Hoy lo conectamos con otra tensión clave: más autonomía, más velocidad… y más necesidad de control. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller y hoy es 26 de marzo de 2026. Vamos con lo más relevante del día en inteligencia artificial, sin humo y con contexto.

Empezamos por el tema más incómodo, pero también de los más importantes para entender cómo se está usando la IA en el mundo real. Un artículo sobre el ataque estadounidense a una escuela primaria en Minab, Irán, durante la Operación Epic Fury —con un saldo estimado de 175 a 180 víctimas, en su mayoría niñas— critica la narrativa que se volvió viral: que un chatbot “decidió” el objetivo. La tesis es otra: la automatización de la cadena de targeting, apoyada por Project Maven y una infraestructura que integra inteligencia, empaqueta objetivos y acelera decisiones, puede volver letales los errores burocráticos. Si un edificio sigue mal etiquetado en una base de datos, un flujo diseñado para velocidad no lo corrige: lo ejecuta. ¿Por qué importa? Porque el debate público puede desviarse hacia el “villano” fácil —la IA con cara— y dejar en segundo plano preguntas de responsabilidad humana, gobernanza y verificación de datos.

Y en Washington también hay batalla, pero en tribunales. Una jueza federal sugirió que la decisión del gobierno de Estados Unidos de vetar a Anthropic podría ser retaliatoria y, potencialmente, inconstitucional. La discusión gira en torno a si el Pentágono castigó a la empresa tras hacer público un conflicto contractual, algo que rozaría la Primera Enmienda. Más allá del caso concreto, el precedente sería enorme: define hasta dónde puede llegar el argumento de “seguridad nacional” cuando choca con derechos básicos, y cómo se relacionarán los proveedores de IA con Defensa en adelante.

Ahora, Apple. Según The Information, Apple habría conseguido “acceso completo” al modelo Gemini dentro de los propios centros de datos de Google. Dicho en simple: no se trata solo de consumir una API, sino de poder adaptar el comportamiento del modelo y, sobre todo, usarlo como “profesor” para entrenar modelos más pequeños y baratos mediante destilación. El objetivo es claro: que muchas funciones de IA corran directamente en el iPhone, iPad o Mac, incluso sin conexión, mejorando latencia, fiabilidad y privacidad. El detalle interesante es el equilibrio estratégico: Apple seguiría desarrollando modelos propios en paralelo. Eso sugiere una táctica de dos carriles: acelerar mejoras de producto a corto plazo con ayuda externa, mientras se reduce dependencia a largo plazo. Y sí, el rumor apunta a una Siri más conversacional, más tipo “asistente que entiende documentos”, de cara a iOS 27. La fricción aquí, según el reporte, es que Gemini estaría muy afinado para chatbot y código, y ajustar ese “carácter” a Siri no es trivial.

Relacionado con Apple, pero desde investigación: un paper de la compañía sostiene que algunos modelos base —antes de todo el pulido de “asistente” con instrucciones y refuerzos— pueden dar estimaciones razonables sobre cuán correcta es su respuesta a nivel de significado, no solo de probabilidad de tokens. Y lo más provocador: ciertos métodos populares para hacerlos más útiles, como el instruction-tuning con refuerzo, podrían empeorar esa “calibración semántica”. ¿Por qué importa esto? Porque si queremos sistemas que sepan decir “no estoy seguro” de forma fiable, tal vez tengamos que medir y preservar esa propiedad, en lugar de sacrificarla por respuestas más seguras en tono… pero menos honestas en incertidumbre.

Pasamos al ecosistema Anthropic, que hoy aparece por varias vías, todas conectadas por un hilo: más autonomía, más control. La empresa presentó “auto mode” en Claude Code, un ajuste de permisos para que el asistente pueda ejecutar tareas de programación largas con menos interrupciones pidiendo aprobaciones. En vez de solicitar permiso por cada escritura o comando, Claude decide lo rutinario, pero una capa adicional intenta frenar acciones peligrosas antes de que ocurran. La clave está en el matiz: esto no elimina el riesgo. Puede fallar en casos límite o bloquear acciones inocuas. Pero marca una dirección: hacer herramientas más fluidas sin cruzar la línea de “haz lo que quieras” que muchas organizaciones no pueden permitirse.

Y esto encaja con otra publicación técnica de Anthropic sobre cómo mejorar la calidad de software generado por agentes: separar roles. Un agente construye, otro evalúa y critica con criterios claros, y un tercero puede planificar. La idea es simple pero potente: los modelos son buenos produciendo, pero tienden a autoaplaudirse. Un evaluador independiente, incluso automatizando pruebas end-to-end, reduce el riesgo de que se cuelen bugs o funcionalidades a medias. Es una señal de madurez: ya no se trata solo de “que escriba código”, sino de que lo sostenga durante horas y llegue a un resultado verificable.

En paralelo, un informe —muy comentado— describe cómo Claude está dejando de ser un chatbot para convertirse en plataforma de trabajo, con ventanas de contexto enormes y más integración con archivos y herramientas. Y el Economic Index de Anthropic, basado en alrededor de un millón de conversaciones, añade un ángulo social: el uso se está diversificando hacia tareas más cotidianas, mientras parte del trabajo de programación se mueve a flujos más automatizados vía API. También sugiere “curvas de aprendizaje”: usuarios con más experiencia obtienen mejores resultados y aplican la IA a tareas más sofisticadas. Esto importa por una razón incómoda: la productividad con IA podría no distribuirse de forma pareja; podría amplificar brechas entre quienes aprenden rápido estos flujos y quienes llegan tarde.

Hablemos ahora de herramientas para desarrollo con agentes, donde el coste ya no es solo CPU: también son tokens y latencia. Un desarrollador creó “nit”, un reemplazo de Git en Zig que reduce salida pensada para humanos y la convierte en salida más “amigable para agentes”. Menos texto implica menos tokens consumidos por un LLM leyendo el estado del repo, y en teoría bucles más rápidos y baratos. Lo interesante no es “Git contra Git”, sino la tendencia: estamos empezando a rediseñar herramientas clásicas para un segundo usuario… que no es humano.

En esa misma línea de coherencia a escala, aparece Ossature, un proyecto open source tipo harness para que el software generado por LLM no se rompa cuando crece en módulos, interfaces y dependencias. La propuesta: especificaciones claras, validación de ambigüedades y planes de construcción verificables, para que el agente no improvise arquitectura sobre la marcha. Y si lo conectamos con Optio —otro orquestador open source que intenta llevar tareas hasta un pull request mergeado, reaccionando a CI y revisiones— vemos la misma ambición: no es “escribe código”, es “vive en el ciclo real de ingeniería, con pruebas, conflictos y feedback”.

Cambiamos a investigación de infraestructura. Google Research presentó TurboQuant, un trabajo para comprimir vectores de alta dimensión, especialmente los que inflan el consumo de memoria en el KV cache de los LLM y en sistemas de búsqueda semántica. El mensaje de negocio es directo: el contexto largo y la búsqueda a gran escala chocan con límites de memoria y coste. Si puedes comprimir sin destruir calidad, abaratas servir modelos y abres la puerta a contextos largos más accesibles. En 2026, optimizar memoria es casi tan estratégico como entrenar modelos nuevos.

Otra pieza técnica, desde Alibaba Qwen, propone mirar el entrenamiento de razonamiento con recompensas verificables —RLVR— con una lupa distinta: no solo cuánto cambian las probabilidades de tokens, sino en qué dirección cambian. Su análisis sugiere que una minoría de tokens “raros” es crucial para el razonamiento, y que toquetearlos mal puede hundir el rendimiento. ¿Por qué nos debería importar si no entrenamos modelos? Porque estos hallazgos acaban influyendo en cómo se afinan los modelos que luego consumen empresas: mejores métodos de entrenamiento suelen traducirse en modelos más consistentes en tareas difíciles, con menos trucos de prompting.

También en evaluación, ServiceNow presentó EVA, un marco para medir agentes de voz de extremo a extremo en conversaciones tipo llamada telefónica. Y el punto clave es doble: medir si se completa la tarea, y medir si la experiencia hablada es buena. En voz, no puedes “escanear” texto: el ritmo, la concisión y los errores en entidades —como códigos o nombres— pueden arruinarlo todo aunque la lógica sea correcta. El resultado que reportan es interesante: los sistemas más “precisos” a veces son peores conversando. Esa tensión va a marcar el diseño de voice agents en soporte, viajes y salud.

Y ya que mencionamos salud: la Electronic Frontier Foundation demandó bajo FOIA a los Centers for Medicare & Medicaid Services para obtener documentos sobre WISeR, un piloto multiestado que usa IA para evaluar autorizaciones previas de atención médica. La EFF denuncia opacidad: no se sabe bien con qué datos se entrena, cómo se audita sesgo, qué controles hay contra errores o daños a privacidad. Además, cuestiona incentivos: si un proveedor cobra más cuando se niega más atención, el sistema puede empujar en la dirección equivocada. Esto importa porque la IA en decisiones de cobertura no es una demo: impacta tiempos, tratamientos y, en el límite, resultados de salud.

Cerramos con dos movimientos de OpenAI y un debate de fondo sobre plataformas. Primero, ChatGPT está incorporando funciones de compra más visuales para descubrir y comparar productos, con catálogos aportados por comercios y más integración con grandes retailers. Es una apuesta por convertirse en “la primera búsqueda” antes de ir a tiendas o comparadores. Si esto prende, cambia el terreno de juego de la publicidad, el SEO y quién controla el embudo de compra. Segundo, la CFO de OpenAI dijo que la empresa sumó otros 10.000 millones de dólares, llevando una ronda ya descomunal por encima de los 120.000 millones. La lectura es clara: competir en IA de frontera sigue siendo un juego de capital masivo, y al mismo tiempo la empresa habla de prepararse para una posible salida a bolsa. Mucho dinero, pero también presión por eficiencia, capacidad de cómputo y foco. Y como telón de fondo, un análisis sostiene que el modelo “App Store” se tensionará si los agentes hacen tareas llamando APIs en vez de instalar apps. En ese mundo, la conexión se vuelve commodity, y la batalla real pasa a ser el descubrimiento: quién recomienda, cómo se rankea, y cómo se monetiza esa decisión cuando la toma un agente. Es un cambio de poder silencioso, pero enorme.

Eso es todo por hoy. Si algo une estas historias es que la IA está ganando autonomía —en código, en compras, en burocracia, incluso en guerra— y la pregunta ya no es solo “qué puede hacer”, sino “quién responde cuando se equivoca” y “qué incentivos la empujan”. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.