AI News · 25 de febrero de 2026 · 13:32

Un LLM grabado en silicio & Benchmark RTS: LLM Skirmish - Noticias de IA (25 feb 2026)

Un chip con un LLM “grabado” promete 17.000 tok/s. Skirmish RTS, SWE-bench contaminado, Codex 25h, distilación, Comet local y Pro Lite.

Un LLM grabado en silicio & Benchmark RTS: LLM Skirmish - Noticias de IA (25 feb 2026)
0:0013:32

Our Sponsors

Today's AI News Topics

  1. 01

    Un LLM grabado en silicio

    — Taalas presenta HC1, un chip “model-on-silicon” con Llama 3.1 8B y pesos integrados, prometiendo ~17.000 tokens/seg por usuario, alta eficiencia y menor coste por token.
  2. 02

    Benchmark RTS: LLM Skirmish

    — LLM Skirmish enfrenta modelos en partidas 1v1 tipo Screeps, donde escriben código de estrategia; mide adaptación ronda a ronda y muestra liderazgos por ELO y coste por victoria.
  3. 03

    SWE-bench y evaluaciones contaminadas

    — OpenAI deja de reportar SWE-bench Verified por problemas de tests y “contaminación” de entrenamiento; propone usar SWE-bench Pro y nuevas métricas privadas y holísticas.
  4. 04

    Agentes que programan durante horas

    — GPT-5.3-Codex es sometido a una prueba de autonomía de 25 horas, 13M tokens y 30.000 líneas de código; destacan memoria durable y bucles plan→validar→reparar.
  5. 05

    Distilación ilícita contra Claude

    — Anthropic denuncia campañas de distilación a escala industrial (DeepSeek, Moonshot, MiniMax) con millones de intercambios y cuentas fraudulentas; alertan de riesgos de seguridad y evasión de salvaguardas.
  6. 06

    Perplexity Comet: local y créditos

    — Perplexity prueba conectores locales en Comet (Mensajes de Apple vía MCP) y una sección “Usage and Credits”; apunta a integrar contexto del escritorio y monetizar uso tras recortes de límites.
  7. 07

    Precios: ChatGPT Pro Lite $100

    — Se filtra un posible plan intermedio “ChatGPT Pro Lite” por $100/mes, pensado para usuarios intensivos; encaja con una hoja de ruta más “multi-agente” y mayor consumo de cómputo.
  8. 08

    Frameworks y devtools con IA

    — Cloudflare publica vinext, un reemplazo experimental de Next.js sobre Vite para Workers; AWS abre Strands Labs como sandbox de agentes; llegan herramientas como WorkOS CLI y MachineAuth para M2M OAuth.
  9. 09

    Chips y fábricas: ASML EUV 1kW

    — ASML eleva la potencia de la fuente EUV a 1.000W, proyectando más wafers/hora y hasta 50% más producción hacia 2030; afecta costes y capacidad de chips avanzados.
  10. 10

    Trabajo y mercados en tensión

    — La Fed advierte de una reordenación generacional del empleo por IA; un informe viral “doomsday” mueve mercados y casos como IBM muestran sensibilidad del sector ante automatización y modernización de legacy.

Sources & AI News References

Full Episode Transcript: Un LLM grabado en silicio & Benchmark RTS: LLM Skirmish

Dicen haber metido un modelo completo —con sus pesos— dentro del propio chip, y que así entrega unas 17.000 palabras por segundo por usuario. Suena a ciencia ficción… pero hay demo. Bienvenidos a The Automated Daily, AI News edition. El podcast creado por IA generativa. Soy TrendTeller y hoy es 25 de febrero de 2026. Vamos con lo más relevante del día en modelos, agentes, hardware y el pequeño temblor que todo esto ya está provocando en productos, empresas y empleo.

Un LLM grabado en silicio

Empecemos por el dato más llamativo: Taalas ha presentado HC1, un chip de inferencia “model-on-silicon” que, en esencia, cablea un único modelo —Llama 3.1 de 8B— directamente en el hardware, incluyendo los pesos. ¿La apuesta? Quitar casi toda la “programabilidad” típica y fusionar almacenamiento y cómputo, dejando SRAM para el KV cache y para pequeños ajustes como LoRA. El resultado que anuncian es brutal: alrededor de 17.000 tokens por segundo por usuario. Para ponerlo en contexto, comparan con cifras públicas muy inferiores en soluciones alternativas. El coste también es parte del gancho: hablan de del orden de milésimas de dólar por millón de tokens para ese modelo. Ojo: de momento lo logran con cuantización agresiva de 3 a 6 bits, y reconocen degradación de calidad; prometen mejorar fidelidad en iteraciones siguientes, y ya están insinuando un HC2. Si esto escala, cambia el “feeling” de los modelos de razonamiento: más muestreo, más trazas largas, más interactividad, pero sin factura astronómica.

Benchmark RTS: LLM Skirmish

Ahora, si hablamos de medir capacidad real de modelos, hoy tenemos dos historias que chocan frontalmente. Por un lado, LLM Skirmish: un benchmark donde varios modelos se baten en tiempo real en partidas 1 contra 1 estilo RTS, inspirado en Screeps. Aquí los modelos no “chatean”: escriben scripts que controlan unidades y economía. Cada jugador arranca con un edificio de spawn, una unidad militar y tres económicas, y gana quien destruya el spawn rival; si pasan 2.000 frames, decide la puntuación. Lo interesante no es solo el duelo, sino el aprendizaje en el tiempo: torneos de cinco rondas, y desde la ronda 2 el modelo puede revisar resultados previos y reescribir su estrategia. Es, literalmente, una prueba de adaptación con contexto. En la tabla que publican, Claude Opus 4.5 va primero con un 85% de victorias y ELO 1778; GPT 5.2 le sigue con ELO 1625; luego Grok, GLM y Gemini. Y aquí viene el detalle jugoso: casi todos mejoran de ronda 1 a ronda 5… excepto Gemini 3 Pro, que según los autores empieza fortísimo con scripts cortos y agresivos —ronda 1 en torno al 70%— y luego se desploma. ¿La explicación? “Context rot”: empacharlo de resultados anteriores en el prompt termina perjudicando. Además, meten la variable coste: Claude lidera, pero cuesta más por ronda; GPT 5.2 sale mejor en ELO por dólar; Grok rinde razonable gastando poco, aunque sus scripts concisos parecen frágiles. Esto, para equipos que eligen modelos, es oro: no solo quién gana, sino cuánto cuesta ganar y cuán estable es el comportamiento bajo iteración.

SWE-bench y evaluaciones contaminadas

Y por el otro lado, OpenAI ha anunciado que deja de reportar resultados de SWE-bench Verified como métrica estrella para modelos frontier. El argumento es directo: ya no mide de forma fiable la capacidad real de ingeniería de software autónoma. Señalan dos problemas serios. Primero: tests defectuosos o desalineados. Auditaron 138 tareas donde su modelo fallaba de forma inconsistente a lo largo de 64 ejecuciones, y concluyen que en casi el 60% había problemas materiales en tests y/o en el enunciado. Hablan de tests “estrechos” que obligan a una implementación específica, y tests “anchos” que exigen comportamiento no descrito. Segundo: contaminación. Dicen ver patrones donde modelos reproducen parches casi calcados o detalles demasiado específicos, lo que sugiere exposición durante entrenamiento a repos, issues, PRs o incluso materiales del propio benchmark. Incluso mencionan un proceso automatizado de red-teaming con GPT‑5 para tantear señales de contaminación en varios modelos. Su recomendación: para lanzamientos, mejor SWE-bench Pro y, a futuro, evaluaciones “no contaminadas”, privadas o con calificación holística. Para la comunidad, el mensaje es incómodo pero necesario: si el examen está filtrado, el ranking deja de significar lo que creemos.

Agentes que programan durante horas

Siguiendo con eficiencia de razonamiento, investigadores de Beihang University y ByteDance China proponen algo que suena casi obvio, pero que rara vez se ejecuta bien: los modelos de razonamiento “saben” cuándo deberían parar… y aun así seguimos forzándolos a pensar de más. En su trabajo introducen una métrica para cuantificar redundancia y muestran que, en muchos problemas, el modelo alcanza la respuesta correcta a mitad de la cadena, pero continúa generando pasos que no aportan, consumen tokens y hasta pueden empeorar el acierto. Su propuesta, SAGE, es un muestreo guiado por autoconfianza que corta cuando el token de “fin de pensamiento” aparece con alta probabilidad. Y luego SAGE-RL mezcla unas pocas trayectorias eficientes durante entrenamiento. El titular: reportan menos tokens y algo más de precisión en varios benchmarks matemáticos. Si esto se consolida, no es solo un truco de coste: puede cambiar cómo diseñamos productos de “razonamiento”: menos verborrea, más señal, y latencias que no se disparan.

Distilación ilícita contra Claude

Pasemos a agentes que programan de verdad, durante horas. En el cookbook de OpenAI, Derrick Choi describe una prueba de estrés con GPT‑5.3‑Codex: repositorio en blanco, un objetivo —crear una herramienta de diseño desde cero— y dejarlo funcionar con razonamiento extra alto. El agente estuvo unas 25 horas, consumió alrededor de 13 millones de tokens y generó unas 30.000 líneas de código. La idea principal no es “mirad cuántas líneas”, sino el horizonte temporal: mantener coherencia, completar ciclos de planificar→implementar→validar→reparar, y permitir que un humano corrija el rumbo a mitad de camino sin reiniciar el progreso. Un detalle muy práctico: “memoria durable” en archivos markdown dentro del repo —Prompt.md, Plan.md, Implement.md, Documentation.md— con criterios de aceptación y mandatos de verificación. Es un patrón que encaja con cómo los equipos ya trabajan: especificación, milestones, comandos de validación, y disciplina de “si rompe, se arregla antes de seguir”.

Perplexity Comet: local y créditos

En paralelo, Cloudflare cuenta algo que, honestamente, también es un síntoma de época: dicen que reconstruyeron la superficie de API de Next.js desde cero en menos de una semana, con un ingeniero y un modelo de IA, y lo publicaron como vinext. La apuesta: un reemplazo “drop-in” basado en Vite —en vez de toolchains propios— y desplegable a Cloudflare Workers con un solo comando. Reportan builds más rápidos en CI en un proyecto compartido, y bundles cliente mucho más pequeños, aunque avisan que son números orientativos. Lo interesante no es la guerra Vite vs Next, sino el motivo: desplegar Next en serverless hoy es frágil porque a veces hay que “adivinar” su output y cambia entre versiones. Vinext intenta hacerlo portátil reimplementando routing, SSR, React Server Components, server actions, cachés y middleware sobre el sistema de plugins de Vite. Está marcado como experimental, pero dicen tener un set de tests enorme y mencionan incluso uso en producción en un sitio gubernamental. Ah, y dan el dato que todos queríamos: unas 800 sesiones asistidas por IA y alrededor de 1.100 dólares en tokens de Claude para el esfuerzo. Un número que, para algunos equipos, hace replantearse qué significa “coste de reescritura”.

Precios: ChatGPT Pro Lite $100

La fiebre por agentes también se ve en AWS: su SDK Strands Agents ya supera, según cuentan, los 14 millones de descargas. Y ahora abren Strands Labs, un GitHub separado como “caja de arena” para experimentar sin comprometer la estabilidad del SDK principal. Lanzan tres líneas: robots, robots sim y AI functions. Lo de robots no es casual: cuando el software se vuelve agentivo, el siguiente paso es el borde —sensores, dispositivos, mundo físico— y AWS quiere que ese laboratorio sea abierto y comunitario. Y, bajando a herramientas concretas para desarrolladores: WorkOS publica su CLI oficial para manejar sus APIs, con soporte de múltiples entornos y modo “headless”; y aparece MachineAuth, un servidor de autenticación self-hosted para agentes máquina-a-máquina basado en OAuth2 client credentials, JWT firmados y un enfoque “cero base de datos” con JSON. Son piezas pequeñas, pero son la infraestructura silenciosa para el mundo de agentes: credenciales rotables, scopes, verificación, automatización reproducible.

Frameworks y devtools con IA

En seguridad y competencia entre laboratorios, Anthropic dice haber detectado campañas de “distilación” a escala industrial para extraer capacidades de Claude, atribuidas a DeepSeek, Moonshot y MiniMax. Hablan de más de 16 millones de intercambios mediante unas 24.000 cuentas fraudulentas, y de patrones diseñados para exprimir el modelo: desde elicitar cadenas de razonamiento hasta usar a Claude como evaluador tipo reward model. El punto de Anthropic es doble: económico —copiar sale más barato que entrenar— y de seguridad: un modelo destilado no hereda necesariamente salvaguardas, y eso abre puertas a usos peligrosos. También describen cómo operan estas redes: proxies, clusters de miles de cuentas, y pivotes rápidos tras lanzamientos. Da igual con qué proveedor simpatices: esto sugiere que la “guerra de datos” ya no es solo datasets públicos; también son salidas de modelos y defensas contra extracción.

Chips y fábricas: ASML EUV 1kW

En el frente de producto y monetización, Perplexity está probando novedades para su navegador Comet. En builds de desarrollo aparece un conector local en macOS para Mensajes de Apple, sobre una base de soporte MCP —Model Context Protocol— que se venía insinuando. Si se lanza, permitiría que el asistente incorpore contexto de tus conversaciones al responder. Es potente… y delicado: más integración nativa, más utilidad para power users, pero también más preguntas sobre control, permisos y límites del contexto. Además, se estaría preparando una sección de “Usage and Credits” para ver límites de gasto y comprar créditos extra, algo parecido a sistemas de créditos de otros proveedores. Esto llega tras quejas por recortes fuertes de límites en planes Pro, según se reporta, empujando a usuarios intensivos al tier de 200 dólares. Si habilitan créditos, podría ser una válvula intermedia: pagar más cuando lo necesitas sin saltar de plan.

Trabajo y mercados en tensión

Y hablando de tiers intermedios: se ha visto una posible suscripción “ChatGPT Pro Lite” a 100 dólares al mes, filtrada por Tibor Blaho, que suele acertar con funciones antes de su anuncio. La lógica de negocio es evidente: hoy hay un salto enorme entre Plus (20) y Pro (200). Un plan a 100 encajaría con freelancers, investigadores y desarrolladores que chocan con límites del Plus pero no quieren —o no pueden— irse al Pro. Además, el contexto importa: se habla de un futuro “extremadamente multi-agente”, con funciones en segundo plano y agentes que se quedan corriendo. Eso es mucho más caro que un chat normal. Si el producto evoluciona hacia ahí, los precios también.

Antes de cerrar, dos piezas de macro y de hardware que aterrizan todo esto en el mundo real. ASML dice haber subido la potencia de su fuente EUV a 1.000 vatios manteniendo requisitos de fábrica. Traducido: más rendimiento, más wafers por hora —proyectan alrededor de 330 hacia 2030 desde unos 220 actuales— y potencialmente hasta 50% más producción de semiconductores al final de la década. Detrás hay ingeniería casi absurda: gotas de estaño a ritmo de decenas de miles por segundo, láseres, plasma y ópticas de Zeiss. Es un recordatorio: la IA no solo avanza por software; también por la capacidad de fabricar chips a escala. Y en empleo y mercados, la gobernadora de la Reserva Federal Lisa Cook advierte que la IA puede estar empujando una reorganización del trabajo “generacional”, con riesgo de que el desplazamiento laboral ocurra antes que la creación de nuevos puestos. En paralelo, un informe viral y especulativo en Substack —planteado como escenario— logró sacudir bolsas: caídas en índices y en empresas mencionadas, y debate sobre cómo de “sensibles” se han vuelto los mercados a narrativas de agentes autónomos. En esa misma línea, vimos a IBM caer con fuerza en un día, en parte por lectura de inversores sobre herramientas de IA para modernizar COBOL, aunque IBM lleva tiempo vendiendo justo ese argumento con sus propios productos. Todo esto dibuja un patrón: incluso cuando la tecnología aún está madurando, la expectativa ya mueve capital, estrategia… y nervios.

Y hasta aquí el episodio de hoy. Si tuviera que resumirlo: estamos entrando en una fase donde la diferencia no es solo “qué modelo razona mejor”, sino qué eval se puede creer, cuánto cuesta el rendimiento, y cómo se integra —en chips, en navegadores, en herramientas de desarrollo y en empresas— sin romper seguridad ni confianza. Soy TrendTeller, y esto fue The Automated Daily, AI News edition. Recuerda: los enlaces a todas las historias están en las notas del episodio. Nos escuchamos mañana.