Claude Mythos y ciberseguridad ofensiva & IA en finanzas: lectura vs cálculo - Noticias de IA (9 abr 2026)
Zero-days hallados por Claude Mythos, caída de IA al leer PDFs financieros, TorchTPU para PyTorch en TPUs y el nuevo pulso por el cómputo global.
Our Sponsors
Today's AI News Topics
-
Claude Mythos y ciberseguridad ofensiva
— Anthropic dice que Claude Mythos Preview encontró y encadenó zero-days en sistemas y navegadores, y lanza Project Glasswing. Palabras clave: zero-day, exploit chain, disclosure, hardening, infraestructura crítica. -
IA en finanzas: lectura vs cálculo
— Mercor midió GPT-5.4, Gemini 3.1 Pro y Claude Opus 4.6 en tareas financieras reales y halló una caída fuerte al pasar de texto limpio a PDFs en imagen. Palabras clave: multimodal, extracción, PDFs, analistas, errores de razonamiento. -
Benchmarks saturados y medición difícil
— Un análisis advierte que los benchmarks fijos se están quedando sin techo: los modelos los saturan rápido y validar tareas largas cuesta mucho. Palabras clave: evaluación, saturación, auditoría, Time Horizon, gobernanza. -
Infra: KV cache, MoE y TPUs
— TriAttention promete comprimir KV cache para contexto largo; Cursor propone ‘warp decode’ para acelerar MoE en Blackwell; y Google presenta TorchTPU para PyTorch en TPUs. Palabras clave: inferencia, memoria, throughput, GPU, TPU. -
Quién controla el cómputo global de IA
— Epoch AI estima que Google posee cerca del 25% del cómputo de IA vendido desde 2022, con gran peso de TPUs propias. Palabras clave: compute share, verticalización, supply chain, hyperscalers. -
Agentes persistentes y MLE con RL
— botctl busca operar agentes como procesos persistentes; y SandMLE propone entornos sintéticos para entrenar agentes de ingeniería de ML con RL más rápido. Palabras clave: agentes, observabilidad, on-policy, MLE, automatización. -
Apps iOS impulsadas por vibe coding
— Las nuevas apps en el App Store repuntan gracias a herramientas de programación asistida por IA, pero chocan con reglas de Apple sobre código dinámico. Palabras clave: App Review, vibe coding, políticas, seguridad. -
Demandas, ingresos y fricción en tooling
— Musk ajusta su demanda contra OpenAI; se discute el crecimiento de ingresos de Anthropic; y AMD denuncia regresiones en Claude Code, reabriendo el debate sobre transparencia. Palabras clave: gobernanza, revenue, confiabilidad, tokens, litigio.
Sources & AI News References
- → Frontier AI Models Struggle to Read and Compute From Real Finance Documents
- → TriAttention open-sourced to compress transformer KV cache for faster long-context reasoning
- → Weights & Biases releases ebook on building and deploying physical AI systems
- → Musk Seeks to Redirect OpenAI Lawsuit Damages to Nonprofit, Pushes to Remove Altman
- → botctl launches as a process manager for persistent autonomous AI agents
- → Cursor’s “warp decode” boosts MoE token generation speed and accuracy on Blackwell GPUs
- → Anthropic Says Claude Mythos Preview Can Autonomously Find and Exploit Zero-Day Vulnerabilities
- → Google unveils TorchTPU to run PyTorch natively on TPUs at large scale
- → TLDR Pitches Newsletter Sponsorships Across 12 Tech-Focused Audiences
- → Essay Warns Corporate AI Mandates Mirror the Great Leap Forward’s Incentive Failures
- → Open-source tool brings multimodal Gemma LoRA fine-tuning to Apple Silicon Macs
- → Anthropic’s Rapid Revenue Surge Raises Timeline to Overtake NVIDIA
- → App Store app submissions jump as AI coding tools spread, testing Apple’s review rules
- → A 2026 Snapshot of AI Progress: Productivity Gains, New Frontier Models, and Rising Security Risks
- → AI Benchmarks Are Being Saturated Faster Than They Can Be Replaced
- → Anthropic Launches Project Glasswing to Use Frontier AI for Defensive Software Security
- → DigitalOcean Announces Deploy San Francisco 2026 Conference on Production AI Inference
- → AMD AI director claims Claude Code quality regressed after updates, urges transparency on reasoning limits
- → Epoch AI: Google Leads Global AI Compute Ownership, Powered by In-House TPUs
- → SandMLE Uses Micro-Scale Synthetic Tasks to Enable On-Policy RL for ML Engineering Agents
- → Z.ai Unveils GLM-5.1, Targeting Long-Horizon Agentic Coding and Iterative Optimization
Full Episode Transcript: Claude Mythos y ciberseguridad ofensiva & IA en finanzas: lectura vs cálculo
Dicen que un modelo generalista acaba de encontrar y explotar vulnerabilidades inéditas en sistemas y navegadores, con cadenas completas y sin guía humana. La pregunta no es solo si es posible… sino qué cambia para defensores y atacantes. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Hoy es 9 de abril de 2026. Soy TrendTeller, y en cinco minutos recorremos lo más relevante del día: ciberseguridad, evaluación realista de modelos, infraestructura para inferencia y el pulso empresarial alrededor del cómputo.
Claude Mythos y ciberseguridad ofensiva
Empezamos por seguridad, porque hoy viene cargada. Anthropic publicó resultados internos sobre Claude Mythos Preview, un modelo recién anunciado que, según la compañía, mostró capacidades ofensivas inusualmente altas. Hablan de hallazgo y explotación autónoma de zero-days en sistemas operativos y navegadores, incluyendo fallos antiguos que llevaban años —o décadas— sin detectarse. En un ejemplo concreto, describen cómo el modelo habría encontrado y explotado una vulnerabilidad en FreeBSD NFS, obteniendo acceso remoto con privilegios máximos tras un prompt inicial. Anthropic evita dar detalles técnicos porque muchas cosas siguen sin parche, y usa divulgación coordinada más “compromisos” criptográficos para demostrar después qué encontró. Por qué importa: si esto se generaliza, el coste de descubrir y encadenar exploits puede caer drásticamente, y el tiempo entre parche y ataque masivo —los famosos N-days— podría comprimirse.
IA en finanzas: lectura vs cálculo
En la misma línea, Anthropic anunció Project Glasswing: una iniciativa con socios de tecnología, seguridad e infraestructura para usar un modelo aún no publicado —Mythos 2 Preview— en endurecer software crítico. El mensaje es claro: si la ofensiva se abarata, la defensa tiene que industrializarse. Quieren aplicar el modelo a detección de vulnerabilidades, pruebas sobre binarios y prácticas de secure-by-design, y prometen un informe público en los próximos meses con aprendizajes. La lectura entre líneas: los laboratorios están intentando mover parte de su ventaja hacia el lado defensivo, antes de que estas capacidades se filtren o se repliquen.
Benchmarks saturados y medición difícil
Cambiamos a una prueba que aterriza la conversación en el mundo corporativo. Mercor publicó un stress test de tres modelos “frontier” —GPT-5.4, Gemini 3.1 Pro y Claude Opus 4.6— en tareas financieras sacadas de documentos reales: informes de resultados, presentaciones a inversores y tablas regulatorias. El diseño es inteligente: separan el problema de “leer” del de “calcular”, comparando entradas en texto limpio contra la misma información en imagen, como aparece en un PDF. En texto, los modelos se mueven en una zona razonable; en imagen, la precisión cae de forma consistente, con un deterioro notable. El porqué es importante: muchos flujos de trabajo de analista no son solo matemática, son extracción fiable en documentos densos, con gráficos y tablas apretadas. Y Mercor también detecta un fallo más sutil: incluso con texto perfecto, a veces el modelo aplica la operación equivocada —confunde diferencias con porcentajes, invierte ratios—, lo que es exactamente el tipo de error que no siempre salta a la vista en una revisión rápida.
Infra: KV cache, MoE y TPUs
Esa brecha conecta con otro debate: cómo medimos el progreso cuando los benchmarks se quedan pequeños. Un post en LessWrong argumenta que los benchmarks fijos están dejando de poner límites útiles, porque los modelos los saturan cada vez más rápido. El problema no es solo inventar un test nuevo: validar tareas largas y “realistas” cuesta muchísimo en tiempo y dinero, y puede quedarse obsoleto antes de publicarse. Si medir se vuelve lento y caro, crece la presión por fiarse de evaluaciones internas, encuestas a expertos o auditorías de terceros. Y eso desplaza la discusión desde números comparables hacia confianza, gobernanza y procesos: justo donde las fricciones se vuelven políticas.
Quién controla el cómputo global de IA
En infraestructura, hoy hay varias piezas que apuntan a lo mismo: hacer más con menos memoria y más velocidad. Por un lado, se liberó TriAttention, un proyecto open source con paper en arXiv que propone comprimir el KV cache —uno de los grandes cuellos de botella del contexto largo— con un enfoque en el “dominio de frecuencias”. La promesa: reducir mucho memoria y ganar throughput sin perder precisión en algunos escenarios. Además, el repositorio lo empaqueta como plugin para vLLM y hoy mismo añadieron soporte experimental para Apple Silicon, lo que empuja la idea de correr modelos de contexto largo en hardware más accesible.
Agentes persistentes y MLE con RL
También en inferencia, Cursor describe una estrategia de decodificación para modelos Mixture-of-Experts en GPUs Blackwell que busca acelerar la generación token a token, donde los trucos de paralelización se amortizan peor. La idea central es reordenar el trabajo para reducir el “papeleo” entre expertos y concentrarse en lo que realmente empuja tokens. Si sus resultados internos se mantienen fuera del laboratorio, es relevante para cualquiera que sirva MoE a baja latencia: el cuello de botella del decode es, en la práctica, el cuello de botella del producto.
Apps iOS impulsadas por vibe coding
Y del lado de la plataforma, Google presentó TorchTPU: un stack para ejecutar PyTorch de forma más directa en su infraestructura de TPUs, con modos “eager” para desarrollo y una ruta de compilación para rendimiento. El subtexto es competitivo: gran parte del ecosistema está pensado en PyTorch, y quien haga más fácil mover código sin reescribirlo se gana equipos enteros. En paralelo, Google intenta que sus TPUs no se sientan como un mundo aparte, sino como otro backend viable para entrenar y servir a escala.
Demandas, ingresos y fricción en tooling
Ese movimiento encaja con un dato de Epoch AI: su nuevo hub de “Chip Ownership” estima que Google concentra alrededor de una cuarta parte del cómputo de IA vendido desde 2022, y que una gran fracción proviene de TPUs diseñadas internamente, no de GPUs compradas. Por qué importa: quien controla el cómputo controla el ritmo. La verticalización puede proteger de la escasez de GPUs, influir en costes, y también en qué modelos se pueden entrenar y desplegar —y cuándo.
En el terreno de agentes y automatización, aparece botctl: un gestor de procesos pensado para ejecutar agentes como “bots” persistentes, con programación, estado, logs y control en caliente. Es un síntoma de madurez: cuando pasas del demo al trabajo continuo, lo que falta no es otro prompt bonito, sino operaciones: observabilidad, reintentos, límites y control humano sin apagar la máquina. Y para entrenar agentes que hagan trabajo de ingeniería de ML, un paper propone SandMLE: un marco sintético tipo sandbox que acelera el entrenamiento con RL reduciendo el coste de verificar acciones. La idea es pragmática: si evaluar en grande es lento, creas entornos pequeños pero estructuralmente realistas para iterar más rápido.
En producto y ecosistema, The Information reporta un giro llamativo: subieron con fuerza las nuevas apps enviadas al App Store, tras años de caída, y lo atribuyen en parte a herramientas de programación con IA que permiten a más gente construir y a desarrolladores generar más en menos tiempo. Pero hay choque con Apple: la empresa está vigilando apps que puedan ejecutar o introducir código “cambiante” de formas que alteren el propósito tras la revisión. Es un tira y afloja clásico: Apple quiere seguridad y previsibilidad; los nuevos flujos con IA empujan hacia software más flexible, más rápido de iterar y, potencialmente, más difícil de encajar en reglas antiguas.
Cerramos con negocio y fricciones. Elon Musk enmendó su demanda contra OpenAI y Microsoft para pedir que cualquier indemnización vaya al brazo benéfico del nonprofit de OpenAI, y no a él, mientras sigue atacando la transición hacia estructuras con ánimo de lucro y pidiendo cambios de gobernanza. Es un caso seguido de cerca porque podría sentar precedentes sobre control, misión y comercialización en laboratorios con raíces filantrópicas. Y en el mundo del tooling, una directora del grupo de IA de AMD abrió un issue público diciendo que Claude Code habría empeorado tras actualizaciones recientes, con más paradas prematuras y menos lectura antes de editar. Independientemente de si el diagnóstico final es correcto, el punto es clave: cuando estas herramientas entran en flujos críticos, la transparencia sobre cambios, límites y comportamiento deja de ser un detalle técnico y pasa a ser un requisito de confianza. Por último, circula un análisis que afirma que Anthropic ya habría cruzado los 10 mil millones de dólares de ingresos anualizados a una velocidad extraordinaria. Tómenlo con cautela, porque este tipo de cifras a veces mezclan definiciones y proyecciones; aun así, refleja una realidad: los ingresos en IA están creciendo tan rápido que la conversación sobre “hype” ya convive con otra sobre concentración, dependencia de pocos clientes y estabilidad del crecimiento.
Y hasta aquí el episodio de hoy. Si algo se repite en todas estas historias es que la IA avanza en capacidad, sí, pero los límites prácticos —leer documentos reales, evaluar de forma fiable, operar agentes y asegurar software— siguen marcando la diferencia entre una demo y un cambio de industria. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Encontrarás enlaces a todas las historias en las notas del episodio.