The Automated Daily - AI News Edition · 27 de febrero de 2026 · 16:46

IA que usa el ordenador & Perplexity Computer y subagentes - Noticias de IA (27 feb 2026)

Anthropic compra Vercept, Perplexity Computer promete flujos largos, Palantir en Gaza, matemáticas al límite y Apple libera SDK Python para Apple Intelligence.

IA que usa el ordenador & Perplexity Computer y subagentes - Noticias de IA (27 feb 2026)
0:0016:46

Our Sponsors

Topics

01
IA que usa el ordenador — Anthropic compra Vercept para potenciar el “computer use” de Claude: control en apps reales, percepción e interacción, y salto en OSWorld hasta 72,5%.
02
Perplexity Computer y subagentes — Perplexity lanza Perplexity Computer: un “trabajador digital” que orquesta varios modelos, ejecuta flujos largos y crea subagentes con navegador, filesystem y herramientas.
03
Agentes en la nube de Cursor — Cursor amplía sus cloud agents con VMs y escritorio remoto: pueden probar software, generar evidencias (logs, vídeo) y producir PRs listos para merge desde Slack o GitHub.
04
Claude Code y disciplina de proceso — Un análisis de uso real de herramientas de código destaca a Claude Code por su fiabilidad en flujos de 20+ pasos, recuperación de errores y comunicación clara, más que por benchmarks.
05
SDK Python para Apple Intelligence — Apple publica python-apple-fm-sdk: bindings en Python para el Foundation Models framework en macOS, con inferencia on-device, streaming y generación guiada con esquemas.
06
Matemáticas: FrontierMath y FirstProof — Benchmarks de matemáticas se quedan viejos: FrontierMath sube de <2% a >40% en modelos líderes; First Proof y Aletheia muestran avances en pruebas tipo investigación.
07
Palantir y la ayuda en Gaza — Drop Site News afirma que Palantir opera dentro del CMCC en Israel y aporta infraestructura de datos/IA para rastrear ayuda en Gaza; crecen críticas por militarización y uso de datos.
08
Pentágono vs restricciones de IA — Axios describe tensión entre Anthropic y el Pentágono por “líneas rojas” de uso: presiones para quitar restricciones y debate sobre gobernanza, transparencia y control civil.
09
DeepSeek, chips y exportaciones — Reuters reporta que DeepSeek no dio acceso anticipado a Nvidia/AMD para optimización y habría usado chips avanzados en China; reaviva discusión sobre controles de exportación.
10
Infra de modelos, QA y monetización — FriendliAI presume un catálogo de 510K+ modelos y ofrece hasta 50.000$ en créditos; Metronome propone billing “runtime”; Checksum.ai empuja QA autónoma y TLDR vende ads.

Sources

Full Transcript

¿Qué pasa cuando una empresa privada se sienta físicamente en la sala de operaciones donde se coordina ayuda humanitaria… y esa ayuda se sigue con drones y sistemas de datos? Hoy lo conectamos con otra tendencia mayor: la IA que ya no solo responde, sino que “usa” software como una persona. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller, y hoy es 27 de febrero de 2026. Vamos con las historias más relevantes del día, agrupadas para entender la foto completa: agentes que operan ordenadores, nuevas herramientas para desarrolladores, el salto —y el límite— de los benchmarks, y el lado geopolítico de la infraestructura de IA.

Empecemos por el gran tema del día: la carrera por la “IA que usa el ordenador”. Anthropic anunció la adquisición de Vercept para acelerar las capacidades de “computer use” de Claude, es decir, que el modelo pueda operar dentro de aplicaciones reales como lo haría alguien con teclado y ratón. El argumento de Anthropic es directo: hay problemas que no se resuelven solo con escribir código o llamar APIs; a veces necesitas navegar software vivo —hojas de cálculo enredadas, formularios web con varias pestañas, herramientas internas con flujos raros— y completar tareas de varios pasos sin romper nada por el camino. Lo más llamativo es la métrica: dicen que sus modelos Sonnet subieron en el benchmark OSWorld de menos del 15% a finales de 2024 a un 72,5% hoy. Y rematan con una promesa potente: Sonnet 4.6 estaría acercándose a rendimiento “a nivel humano” en tareas como moverse por hojas de cálculo complejas o completar formularios entre múltiples pestañas. Vercept, por su parte, nació con la obsesión de resolver el cuello de botella real: percepción e interacción. No basta con razonar; hay que “ver” la interfaz y actuar con precisión. Sus cofundadores —Kiana Ehsani, Luca Weihs y Ross Girshick— se integran en Anthropic, y el producto externo de Vercept se irá apagando en las próximas semanas.

En paralelo, Perplexity presentó “Perplexity Computer”, que intenta ir un paso más allá de chatbots y agentes de una sola tarea: lo venden como un trabajador digital generalista capaz de construir y ejecutar flujos completos durante periodos largos, desde horas hasta meses. La tesis es que los modelos ya son suficientemente capaces y que el cuello de botella ahora es la interfaz del producto: si la IA no puede operar el software como lo hace un humano, se frena. Perplexity Computer divide objetivos en tareas y subtareas, crea subagentes especializados —investigación web, redacción, procesamiento de datos, llamadas a APIs— y coordina todo de forma asíncrona. La idea de “check-in” también es interesante: solo te interrumpe cuando de verdad necesita una decisión humana o un dato que no puede inferir. Y cada tarea corre en un entorno aislado con sistema de archivos real, navegador real e integraciones, lo que Perplexity vende como una manera más segura de dar potencia sin tocar tu máquina local. Otro detalle que deja clara la estrategia: no apuestan por un único modelo. Dicen usar Opus 4.6 como motor de razonamiento principal y orquestar otros para trabajos concretos, incluyendo Gemini para investigación profunda y creación de subagentes, Nano Banana para imágenes, Veo para vídeo, Grok para tareas ligeras rápidas y ChatGPT 5.2 para memoria de contexto largo y búsquedas amplias. Está disponible ya para suscriptores Perplexity Max, con Enterprise Max “pronto”.

Y si hablamos de agentes en entornos reales, Cursor anunció una expansión fuerte de sus agentes en la nube: ahora pueden correr en sus propias máquinas virtuales y controlar un escritorio remoto completo de desarrollo. La explicación es muy práctica: muchos agentes se quedan bloqueados cuando no pueden ejecutar el software que están modificando. Con estas VMs, pueden probar cambios, iterar, y producir evidencias: vídeos, capturas, logs. Además, los agentes se pueden invocar desde web, móvil, la app de escritorio, Slack y GitHub, con onboarding del repositorio para generar pull requests listos para revisión. Hay un dato interno que merece atención: Cursor afirma que más del 30% de los PRs que se mergean dentro de la empresa ya los crean agentes de forma autónoma en sandboxes en la nube. Y dan ejemplos que suenan a “QA con ojos”: recorridos de UI de 45 minutos por su documentación, arreglos rápidos guiados por lint, y hasta una demo completa —con vídeo— de una vulnerabilidad de exfiltración del portapapeles, montada por un agente lanzado desde Slack. La ambición final la dicen sin rodeos: acercarse a “codebases que se conducen solas”, donde agentes coordinados abren PRs, gestionan despliegues y vigilan producción.

Todo esto encaja con una idea que aparece en un texto muy comentado por desarrolladores: por qué algunos vuelven a Claude Code incluso cuando otros modelos ganan benchmarks. El autor lo resume en algo menos glamuroso que “inteligencia”: disciplina de proceso. En trabajo real, programar no es resolver un ejercicio aislado; es mantener coherencia en 20 o más pasos, elegir qué archivos leer, editar con cuidado sin romper el alrededor, manejar errores, y —clave— saber cuándo preguntar en lugar de inventar. Según esa experiencia, otros modelos pueden escribir buen código “localmente”, pero fallan en patrones repetidos: entran en bucles, se desvían, sobrescriben archivos, o hacen cambios no solicitados que te obligan a estar corrigiendo. La hipótesis interesante es estructural: Anthropic tendría más presión de mercado para optimizar flujos agentic de ingeniería de software, mientras que Google, por ejemplo, debe balancear muchas tareas generales. Y citan un incentivo claro: casi la mitad de la actividad agentic de la API de Anthropic estaría relacionada con software engineering, lo que empuja entrenamiento específico en secuencias largas con herramientas y recuperación de errores. En su ranking, Claude es el más fiable de extremo a extremo; Codex habría mejorado mucho y se acerca; y Gemini brilla cuando la tarea está perfectamente especificada, pero sufre más como agente autónomo multi-paso.

Siguiendo con herramientas para desarrolladores, Apple publicó un repositorio oficial: python-apple-fm-sdk. Son bindings en Python para el framework de Foundation Models de Apple, el que alimenta el modelo on-device detrás de Apple Intelligence en macOS. Esto es relevante por dos motivos: uno, abre el acceso a un público que no vive en Swift; dos, permite hacer evaluación y análisis desde scripts de Python, por ejemplo procesando lotes de transcripciones exportadas desde apps para revisar calidad. El SDK ofrece inferencia en el dispositivo, streaming de generación de texto y algo que Apple está empujando fuerte: “guided generation”, con esquemas y restricciones para salida estructurada. También incluye ajustes de modelo para afinar comportamiento. Eso sí: requisitos altos y muy Apple. macOS 26, Xcode 26, Python 3.10 y Apple Intelligence activado en un Mac compatible. Está en beta, con instalación desde código fuente y tests con pytest. Licencia Apache-2.0, y por ahora Apple no acepta contribuciones externas.

Ahora, un bloque de investigación y benchmarks, porque aquí también está cambiando la conversación. En matemáticas, durante años se asumió que era el termómetro perfecto: se puede verificar paso a paso, y los resultados se comprueban automáticamente. Pero el ritmo de mejora está volviendo obsoletos los benchmarks. Epoch AI lanzó FrontierMath a finales de 2024, con 300 problemas en niveles que iban de grado avanzado a inicio de posdoc, y luego añadió un “tier 4” extra de 50 problemas especialmente duros. Cuando salió, los modelos líderes resolvían menos del 2%. Hoy, dicen que modelos públicos top como GPT-5.2 y Claude Opus 4.6 superan el 40% en los 300 del tier 1–3 y más del 30% en tier 4. Y la advertencia es seria: FrontierMath podría saturarse —llegar al 100%— en unos dos años o incluso antes. Para evitar el juego de “memorizar el tipo de pregunta”, surgió First Proof: 10 preguntas difíciles de origen investigador, con pruebas cortas que no se publicaron por adelantado. En la primera ronda, nadie resolvió correctamente las 10; los propios autores del reto resolvieron dos usando Gemini Deep Think y ChatGPT 5.2 Pro. Y aquí entra otro paper: “Aletheia tackles FirstProof autonomously”, que reporta que Aletheia —un agente de investigación matemática basado en Gemini 3 Deep Think— habría resuelto 6 de 10 dentro del tiempo permitido, con evaluación de expertos y cierta discrepancia puntual en un problema. Publican prompts y outputs en GitHub, lo cual es importante para transparencia. La conclusión de fondo: si queremos medir progreso real, harán falta retos más parecidos a investigación —y quizá un ecosistema continuo de pruebas—, no solo baterías de respuestas cerradas.

Dos notas rápidas pero conectadas sobre agentes “de terminal”, porque no todo es navegador y UI. Un paper en arXiv, “On Data Engineering for Scaling LLM Terminal Capabilities”, describe algo que muchas veces se oculta en los resultados: la ingeniería de datos. Proponen un generador sintético de tareas, Terminal-Task-Gen, y un dataset grande, Terminal-Corpus. Con eso entrenan Nemotron-Terminal, inicializado desde Qwen3, en tamaños 8B, 14B y 32B. Los números son de los que te hacen levantar la ceja: en Terminal-Bench 2.0 pasan de 2,5% a 13% en 8B; de 4% a 20,2% en 14B; y de 3,4% a 27,4% en 32B. El mensaje es claro: con datos y currículos adecuados, puedes cerrar brechas sin escalar a modelos gigantes. Dicen que abrirán checkpoints y la mayor parte de los datasets sintéticos en una colección de NVIDIA en Hugging Face.

Vamos con el bloque más incómodo: IA, defensa y operaciones humanitarias. Drop Site News reporta, citando fuentes diplomáticas, que Palantir tiene un puesto permanente dentro del Civil-Military Coordination Center —CMCC— en el sur de Israel, y que aporta infraestructura de datos e IA usada para rastrear entregas y distribución de ayuda dentro de Gaza. Según el reportaje, un representante de Palantir estaría en la sala de operaciones integrando datos de convoyes y distribución, recogidos mientras se monitorizan movimientos con vigilancia de drones, dentro de sistemas de Palantir. Las críticas apuntan a dos riesgos: primero, que se incruste un incentivo comercial dentro de una operación humanitaria, convirtiendo la ayuda en un flujo de datos con potencial valor económico. Segundo, que plataformas interoperables entre lo civil y lo militar —Foundry y Gotham— puedan permitir que datos de ayuda, como rutas y localizaciones, se sincronicen hacia flujos de targeting. Incluso se menciona, por fotos, el uso de una herramienta de mapeo llamada Gaia. La relatora especial de la ONU Francesca Albanese lo calificó como un “sistema paralelo impulsado por beneficios” y advirtió sobre posibles implicaciones en crímenes internacionales. El texto añade un elemento polémico: Yanis Varoufakis afirma que una vez le dijeron que la violencia intensa generaba datos valiosos para entrenar modelos sobre comportamiento humano bajo estrés. Como telón de fondo, Israel impondrá desde el 1 de marzo de 2026 nuevas reglas de registro que, según ONG, ponen en riesgo a personal y confidencialidad, y podrían dejar fuera a muchos grupos grandes. En ese vacío, crecerían empresas privadas y contratistas, algunos vinculados a esfuerzos previos como la Gaza Humanitarian Foundation, que el reportaje describe como un precedente sombrío por la violencia alrededor de puntos de ayuda. Más allá de estar de acuerdo o no con el framing, esto es una señal: la “infraestructura” de IA y datos ya es poder, especialmente cuando se mezcla con seguridad y logística.

En una línea relacionada —pero desde el lado de los modelos— Axios cuenta tensiones fuertes entre Anthropic y el Pentágono. Recordemos: Anthropic firmó un contrato de 200 millones de dólares en 2025 para desplegar Claude en sistemas clasificados. Pero la fricción aparece por las llamadas “líneas rojas”: Anthropic mantiene reglas que prohíben facilitar violencia, armas o vigilancia masiva. Según el reportaje, tras un episodio sensible —una operación para capturar a Nicolás Maduro— hubo preocupación interna y un choque con Palantir como integrador, que acabó escalando. Lo más relevante es el pulso de gobernanza: el Pentágono sostiene que quien compra decide usos “legales”; Anthropic intenta renegociar límites. Se menciona presión política para retirar restricciones y amenazas como etiquetar a Anthropic como “riesgo de cadena de suministro”, lo que podría aislarla del ecosistema de defensa. La lectura final del artículo es difícil de ignorar: no es sano que estas reglas se negocien caso por caso entre CEO y secretario de Defensa; haría falta marco legal, transparencia y control democrático sobre despliegues militares y de vigilancia con IA avanzada.

Cerramos con geopolítica de chips y mercado. Reuters dice que DeepSeek no dio acceso anticipado a su próximo modelo insignia a Nvidia y AMD para optimización, algo que suele ser rutina antes de un lanzamiento grande. En cambio, habría facilitado ese acceso a proveedores domésticos como Huawei. El impacto inmediato podría ser limitado —porque muchas empresas fuera de China usan DeepSeek más como referencia que como producción—, pero la señal estratégica es clara: China intenta reforzar su propia cadena y, de paso, dificultar el dominio del hardware estadounidense en su mercado. El mismo reporte incluye otra pieza explosiva: un funcionario estadounidense afirma que un modelo reciente de DeepSeek se entrenó con chips Blackwell en China, lo que sería una violación de controles de exportación, y que podrían intentar ocultar rastros técnicos o atribuir el entrenamiento a chips de Huawei. En paralelo, DeepSeek y otros modelos chinos open source siguen acumulando descargas masivas en Hugging Face, alimentando el debate en Washington sobre qué se exporta, a quién, y cómo se audita.

Un último bloque breve de “operaciones” del ecosistema: FriendliAI está empujando fuerte su plataforma de inferencia con un catálogo enorme —hablan de más de 510 mil modelos open source disponibles para desplegar—, con opciones serverless, endpoints dedicados y contenedores. Además, ofrecen hasta 50.000 dólares en créditos de inferencia para migraciones, intentando reducir fricción para equipos que ya tienen su stack montado. En monetización, Metronome publicó un whitepaper con una idea que suena obvia… hasta que intentas implementarla: el billing para productos de IA debe ser un sistema en tiempo de ejecución. Con precios multidimensionales —por modelo, región, latencia, tokens— y con créditos prepagados, los sistemas clásicos de SaaS por “asientos” se rompen: SKUs por todas partes, reconciliaciones manuales, dashboards tarde. Su propuesta es una “rate card” versionada central y un motor de cómputo de factura en tiempo real. En QA, Checksum.ai insiste en que muchos equipos se ahogan entre pruebas manuales y herramientas fragmentadas, y vende “QA autónoma” con métricas de negocio al frente, incluyendo un claim llamativo: 80% de reducción de costes en procesos de QA, y un calculador de ahorro basado en auto-healing de tests. Y en marketing del sector, TLDR sigue vendiendo patrocinios en newsletters: dicen llegar a más de 6 millones de profesionales, con tasas de apertura del 40 al 48%, y posicionan el formato como alternativa a LinkedIn o search, con reportes de campaña incluidos. Ah, y para la comunidad open source móvil: postmarketOS publicó su actualización de febrero, con cambios técnicos importantes como kernels genéricos —mainline, stable y lts—, mejoras de CI de hardware, y una política de IA que ahora prohíbe explícitamente el uso de IA generativa dentro del proyecto.

Antes de irnos, una nota de generación de imagen: Google DeepMind presentó Nano Banana 2 —también llamado Gemini 3.1 Flash Image—, buscando combinar calidad “tipo Pro” con velocidad Flash. Prometen mejor texto en imágenes, traducción/localización dentro de la imagen, consistencia de sujetos y control de resolución hasta 4K. Y, quizá lo más relevante a medio plazo, refuerzan la trazabilidad: emparejan SynthID con credenciales C2PA, y dicen que la verificación de SynthID en la app Gemini ya se usó más de 20 millones de veces desde noviembre.

Y hasta aquí el episodio de hoy: agentes que ya operan software real, benchmarks que se quedan pequeños en matemáticas, y un recordatorio claro de que la infraestructura de IA también es geopolítica. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Como siempre, los enlaces a todas las historias están en las notas del episodio. Nos escuchamos mañana.