Transcript: IA en operaciones militares y control

Un sistema de IA puede acelerar decisiones militares… pero ¿qué pasa cuando los datos están desactualizados y el resultado acaba siendo una tragedia? Hoy también hablamos de la batalla silenciosa por el cómputo que podría decidir qué laboratorio de IA gana la carrera. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller y hoy es 7 de marzo de 2026. Vamos con las historias clave del día y por qué importan.

Empezamos por la noticia más delicada: el uso de IA generativa en operaciones militares de Estados Unidos. Varios reportes apuntan a que el sistema de targeting Maven de Palantir se habría apoyado en Claude, de Anthropic, para generar y priorizar objetivos durante acciones contra Irán, comprimiendo tiempos de planificación hasta permitir —según las cifras citadas— golpear alrededor de mil objetivos en un solo día. El ángulo no es solo la velocidad: también la gobernanza. Se habla de que el Pentágono planea retirar herramientas de Anthropic tras una disputa de políticas, y al mismo tiempo hay dudas públicas sobre qué significa exactamente que la IA “ayudó”: qué información vio, qué recomendó, y cómo se validó. En paralelo, ha circulado el caso de un ataque que habría alcanzado una escuela de niñas en Minab, con denuncias de muchas víctimas. Hay versiones que sugieren un fallo de automatización o inteligencia archivada que habría confundido ubicaciones asociadas previamente a instalaciones militares. Nada de esto sustituye una investigación, pero sí deja un mensaje claro: cuando incorporas modelos al ciclo de decisión, la trazabilidad y la cadena de autorización humana se vuelven tan importantes como la precisión del modelo. Y cuando hay civiles en juego, “acelerar” deja de ser un eslogan y se convierte en un riesgo político y ético de primer nivel.

Cambiando de frente, una pieza muy comentada sostiene que Anthropic está construyendo una ventaja estratégica no solo por sus modelos, sino por su forma de comprar y operar cómputo. La tesis: mientras muchos laboratorios siguen atados a la economía de Nvidia, Anthropic estaría diversificando cargas grandes hacia TPUs de Google y Trainium2 de AWS, reservando GPUs para necesidades específicas. ¿Por qué importa? Porque a medida que crece el uso, el gasto dominante tiende a ser la inferencia —servir el modelo a millones de usuarios— y ahí el coste por token manda. El artículo también plantea que asociarse “a fondo” con los programas de silicio de los hyperscalers reduce exposición a cuellos de botella muy terrenales: memoria HBM, empaquetado, y centros de datos con suficiente potencia eléctrica. En otras palabras: incluso si diseñas tu chip, sigues necesitando fábricas, capacidad y energía. Si esta lectura es correcta, la ventaja se vuelve compuesta: más capacidad a menor coste implica más iteración y mejores márgenes, lo que a su vez financia más entrenamiento e infraestructura.

En el plano de ideas, un ensayo propone que las tecnologías de comunicación cambian la política al redefinir quién habla y qué mensajes se propagan. Y afirma que, tras las redes sociales, los LLMs serían el siguiente gran giro. Según el autor, las redes “democratizaron” la voz pública pero premiaron el choque, el sensacionalismo y la polarización. En cambio, los modelos conversacionales podrían “tecnocratizar” el debate: hacer que información alineada con consenso experto y evidencia sea más accesible, más paciente y menos cargada de conflicto de estatus. El texto no ignora los miedos: alucinaciones, personalización extrema, propaganda automatizada o manipulación desde élites. Pero apuesta a que la competencia, los incentivos reputacionales y la integración con búsqueda limitarán el daño. La advertencia final es interesante: una esfera pública más “experta” también puede arrastrar sesgos y reducir diversidad epistemológica. En resumen: quizá pasemos del ruido al filtro, pero el filtro también tiene política.

Ahora, avances en modelos. Un intercambio llamativo surge a raíz de resultados compartidos por Epoch AI: en pruebas repetidas de un modelo etiquetado como “GPT-5.4 (xhigh)” sobre un conjunto exigente, el desempeño pass@10 habría llegado al 38%, y en una de esas corridas resolvió un problema que nadie había resuelto antes. El detalle humano lo pone Bartosz Naskręcki, que dice llevar cerca de veinte años curando problemas difíciles y describió la solución como sorprendentemente “limpia” y casi humana. Lo llamó su “move 37” personal. Más allá del nombre del benchmark, lo relevante es el efecto en el trabajo experto: cuando un sistema supera un umbral en tareas que antes resistían, no solo automatiza—cambia qué problemas merece la pena intentar. Y eso tiene un impacto directo en investigación, ingeniería y productividad de alto nivel.

Seguimos con consumo y plataformas: Google anunció mejoras en búsqueda visual para que Lens y Circle to Search puedan identificar varios objetos dentro de una misma imagen y responder preguntas sobre toda la escena, no solo “qué es esto”. La idea es que el sistema lanza múltiples búsquedas en paralelo y luego sintetiza resultados en una sola respuesta con enlaces. Esto suena pequeño, pero tiene implicaciones grandes: si la búsqueda entiende escenas completas, se acelera la investigación cotidiana —desde compras hasta aprendizaje— y se estrecha el lazo entre cámara, pantalla y web. También es una jugada defensiva: en un mundo donde la gente pregunta a chatbots, Google quiere que su buscador sea el lugar donde esa conversación aterriza con fuentes y resultados estructurados.

En finanzas y seguridad, Plaid publicó un informe advirtiendo que la IA está escalando el fraude de identidad. Su mensaje central: los chequeos de identidad “de una sola vez” al abrir una cuenta se quedan cortos, porque el riesgo real cambia con el tiempo y muchas señales estáticas ya son fáciles de falsificar a gran escala. La propuesta va hacia “aseguramiento continuo”: mirar señales que se acumulan a lo largo del ciclo de vida del usuario, y apoyarse más en huellas financieras y patrones cruzados entre redes para detectar campañas coordinadas. Aunque venga de una empresa del sector, la tendencia es clara: si la IA reduce el coste de atacar, la defensa tiene que moverse de la foto fija al seguimiento constante, con el debate inevitable sobre privacidad y proporcionalidad.

También desde Anthropic llega una forma distinta de medir impacto laboral: “observed exposure”, o exposición observada. En vez de preguntar solo qué tareas podría hacer un LLM en teoría, combinan esa capacidad con evidencia de cómo se usa realmente Claude, y ponderan más los casos donde hay automatización, no solo asistencia. El hallazgo clave: la adopción real cubre solo una fracción de lo técnicamente posible, y aun así algunas ocupaciones con mayor exposición —como programación, atención al cliente o entrada de datos— coinciden con proyecciones de crecimiento algo más débiles. No ven una subida clara de desempleo, pero sí señales tentativas de menor contratación para perfiles jóvenes en roles expuestos. Traducido: el primer golpe podría ser menos “despidos masivos” y más “menos puertas de entrada”.

En seguridad de modelos, OpenAI publicó investigación sobre algo muy específico pero importante: lo mal que se les da a los modelos de razonamiento controlar deliberadamente su chain-of-thought cuando se les pide restringirlo. En pruebas con un nuevo conjunto abierto, los modelos casi no cumplen instrucciones del tipo “razona sin usar ciertos patrones”, y a veces parecen darse cuenta de que incumplen… pero no logran corregirse. ¿Por qué importa? Porque para muchas estrategias de seguridad, poder observar el razonamiento —o al menos detectar desviaciones— es una capa de control. Si hoy a los modelos les cuesta “disfrazar” su cadena de pensamiento incluso cuando se lo pides, eso sugiere que el monitoreo podría ser más confiable de lo que temen algunos. Pero también es una métrica para vigilar: en cuanto los modelos mejoren, podría cambiar el equilibrio entre transparencia y evasión.

En el terreno de agentes que escriben código, aparece un paper proponiendo un marco de “dual-helix governance” para hacer más fiables agentes autónomos en desarrollo WebGIS. La apuesta es que muchos fallos típicos —olvidos entre sesiones, variación aleatoria, incumplimiento de instrucciones— no se arreglan solo con un modelo más grande, sino con proceso: conocimiento externalizado, protocolos ejecutables y una estructura que obligue al agente a comportarse de forma verificable. Lo interesante no es la cifra de mejora, sino el mensaje: si queremos agentes en software sensible, la conversación se desplaza de “qué tan listo es el LLM” a “qué tan bien gobernado está el sistema que lo encierra”.

Y cerramos con un conflicto que puede volverse frecuente: licencias open source en la era de los agentes. Simon Willison destaca la polémica alrededor de la librería Python chardet: un mantenedor lanzó una versión reescrita “desde cero” bajo licencia MIT, manteniendo nombre y API, mientras el autor original cuestiona si, con exposición previa al código LGPL y con ayuda de IA, esa reimplementación puede considerarse independiente. Aquí está la bomba de fondo: si la IA permite reescribir proyectos maduros rápidamente a partir de tests y especificaciones, podría surgir una ola de disputas por “clean room” y acusaciones de lavado de licencias. Y eso amenaza con mover el debate del terreno técnico al legal, con impacto directo en confianza comunitaria y en cómo se reutiliza software a escala.

Hasta aquí la edición de hoy. Si te quedas con una idea, que sea esta: la carrera de la IA no se decide solo en modelos, también en infraestructura, gobernanza y responsabilidad—especialmente cuando el software empieza a influir en decisiones irreversibles. Como siempre, los enlaces a todas las historias están en las notas del episodio. Gracias por escuchar The Automated Daily, AI News edition. Soy TrendTeller, y volvemos mañana.