Transcript: Une puce LLM gravée en dur

Et si, au lieu d’exécuter un modèle sur une puce… on gravait carrément le modèle dans la puce, poids compris — et qu’on atteignait des vitesses qui rendent le raisonnement presque instantané ? Bienvenue dans The Automated Daily, édition AI News. Le podcast créé par IA générative. Nous sommes le 25 février 2026, et je suis TrendTeller. Aujourd’hui: une puce « modèle-sur-silicium » qui promet des débits hallucinants, des benchmarks d’IA qui révèlent des comportements inattendus, et la bataille très concrète autour des agents — entre productivité, coûts, et sécurité.

Commençons par le matériel, parce que c’est probablement l’annonce la plus… inhabituelle du jour. Une société appelée Taalas dévoile HC1, une carte PCIe d’inférence qui « câblerait » un seul modèle — Meta Llama 3.1 8B — directement dans le silicium, y compris les poids. L’idée est radicale: moins de programmabilité, stockage et calcul fusionnés, et seulement un peu de SRAM pour le KV cache et des ajustements type LoRA. Résultat revendiqué: environ 17 000 tokens par seconde et par utilisateur. Pour situer, l’article compare à des chiffres souvent cités autour de 2 000 tok/s chez Cerebras ou 600 chez Groq sur des cas comparables. Sur le papier, c’est aussi un pari économique: Taalas avance un coût de l’ordre de 0,0075 dollar par million de tokens pour ce modèle précis, et une carte à environ 250 watts — donc un serveur de 10 cartes à 2,5 kW, refroidi à l’air. Le revers de la médaille, c’est qu’on parle d’une quantification agressive, 3 à 6 bits, qui peut dégrader la qualité. Mais si ce type d’approche tient la route, ça peut changer l’expérience utilisateur: des traces de raisonnement plus longues, plus d’échantillonnage, et des workflows où l’agent « réfléchit » vraiment en temps réel sans faire exploser la facture.

Autre brique du monde des puces: ASML annonce avoir franchi le cap des 1 000 watts sur la source EUV — la lumière extrême ultraviolet qui permet de graver les circuits les plus avancés. ASML est seule à fournir ces machines à l’échelle commerciale, et le gain de puissance n’est pas un simple détail: plus de watts, c’est plus de wafers exposés par heure, donc un meilleur débit et potentiellement des coûts de fabrication plus bas. ASML évoque un chemin vers environ 330 wafers/heure à l’horizon 2030, contre environ 220 aujourd’hui. Et rappel utile: l’EUV, c’est littéralement un ballet de gouttelettes d’étain — on parle d’environ 100 000 par seconde — frappées par des lasers pour créer un plasma émettant la lumière à 13,5 nm. Ici, le saut vient notamment du fait de doubler les gouttelettes et de passer d’une impulsion de mise en forme à deux. ASML suggère même un potentiel futur vers 1 500, voire 2 000 watts.

Passons aux modèles et aux mesures, parce que plusieurs histoires se répondent. D’abord, un benchmark assez original: LLM Skirmish. Le principe: des modèles s’affrontent en 1 contre 1 dans un RTS inspiré de Screeps… mais ils jouent en écrivant du code. Chaque match démarre avec une base, une unité militaire et trois unités économiques, et l’objectif est de détruire le spawn adverse, ou de gagner au score après 2 000 “frames”. Ce qui rend le test intéressant, c’est la structure en tournoi: cinq rounds, et après le round 1, chaque modèle peut relire ses résultats et réviser sa stratégie. Autrement dit: on mesure une forme d’apprentissage “en contexte” dans la durée, pas juste un tir unique. Au classement, Claude Opus 4.5 domine nettement en ELO et en victoires, suivi par GPT 5.2, puis Grok, GLM et Gemini. Mais le fait marquant, c’est le cas Gemini 3 Pro: très bon au round 1 avec des scripts courts et agressifs… puis une chute brutale aux rounds suivants. Les auteurs parlent de “context rot”: trop de résultats empilés dans le prompt, et la performance s’écroule. Moralité: parfois, donner plus de contexte rend l’agent moins bon. Et ça fait écho à un autre débat: OpenAI annonce qu’il arrête de publier ses résultats sur SWE-bench Verified, en expliquant que ce benchmark ne mesure plus de manière fiable la capacité “réelle” des modèles de pointe à faire du génie logiciel autonome. Deux raisons principales: des tests qui rejettent des solutions pourtant correctes, et la contamination — autrement dit, des modèles qui ont déjà vu, directement ou indirectement, les issues, les PR ou des patchs présents dans les dépôts. OpenAI dit avoir audité une partie des problèmes et trouvé un volume conséquent d’artefacts de test, entre tests “trop étroits” et tests “trop larges”. Leur recommandation: privilégier SWE-bench Pro et investir dans des évaluations plus difficiles à contaminer, y compris des benchmarks privés et une notation plus “holistique”.

Toujours sur la question “raisonner mieux, mais aussi raisonner moins”, une équipe Beihang University + ByteDance China publie un papier sur une intuition très pratique: les modèles de raisonnement sauraient, implicitement, quand s’arrêter… mais l’inférence standard les pousse à continuer à “surpenser”. Ils introduisent une métrique de redondance et montrent que, sur beaucoup d’exercices, le modèle atteint une réponse correcte, puis déroule encore des étapes inutiles — ce qui augmente coût et latence, et peut même faire baisser l’exactitude. Leur proposition, SAGE, guide l’échantillonnage étape par étape vers des chaînes à plus forte confiance et coupe quand un token “end-of-thinking” devient clairement probable. Et une variante SAGE-RL, qui injecte ces trajectoires plus efficientes dans l’entraînement, annoncerait à la fois un petit gain de précision et une grosse baisse de tokens. Si ça se confirme, c’est une piste très concrète pour rendre le “reasoning” moins cher sans sacrifier la qualité.

Côté agents et code, OpenAI publie un retour d’expérience marquant dans son cookbook: un stress test “long-horizon” avec GPT‑5.3‑Codex. Le setup est volontairement extrême: dépôt vide, objectif unique — construire un outil de design complet — et l’agent tourne environ 25 heures, consomme environ 13 millions de tokens, et produit autour de 30 000 lignes. Le message n’est pas “faites ça en production demain”. Le message, c’est que la frontière bouge sur la durée de cohérence: planifier, implémenter, tester, réparer, et ne pas perdre le fil. Et l’astuce centrale est presque banale, mais efficace: une mémoire de projet persistante en fichiers markdown — spéc, plan, consignes de validation, décisions, état du projet. Autrement dit, on ne délègue pas juste à un modèle; on lui donne une méthode et un cockpit. Dans la même veine “agents partout”, AWS pousse Strands Agents, son SDK open source déjà très téléchargé, et lance Strands Labs: un terrain d’expérimentation séparé sur GitHub pour tester des idées plus risquées sans casser le SDK principal. Les trois axes au lancement sont révélateurs: robots, simulation de robots, et “AI functions” — générer des fonctions Python à partir d’une intention. AWS veut explicitement explorer ce qui change quand le logiciel devient agentique, y compris au bord du réseau, et jusque dans le monde physique.

Et puisqu’on parle d’industrialisation, OpenAI annonce des partenariats pluriannuels avec Accenture, BCG, Capgemini et McKinsey autour de sa plateforme enterprise Frontier — présentée comme une “couche d’intelligence” pour connecter systèmes, données, et déployer des agents en production. Point intéressant: OpenAI martèle que la demande dépasse la capacité d’un seul acteur, et que ces cabinets apportent relations, exécution, et savoir-faire opérationnel. OpenAI dit aussi que l’entreprise pèse déjà une part majeure de son activité, avec l’objectif de monter encore. En parallèle, côté offres grand public, une rumeur crédible circule: un abonnement “ChatGPT Pro Lite” à 100 dollars par mois, entre Plus à 20 et Pro à 200. L’idée est simple: beaucoup d’utilisateurs intensifs explosent les limites de Plus, mais n’achètent pas Pro. Et avec des fonctionnalités agentiques toujours actives, le coût de calcul grimpe, donc un palier à 100 dollars devient, économiquement, presque logique.

Sur le front des produits, Perplexity teste plusieurs nouveautés autour de son navigateur Comet. D’abord, un connecteur local sur macOS, orienté Messages, qui s’appuierait sur MCP — le Model Context Protocol — déjà repéré dans des versions de développement. Si ça sort, c’est un pas de plus vers un assistant qui raisonne non seulement sur le web, mais aussi sur votre historique de communication, de façon plus “native”. Deuxième test: une section “Usage and Credits” pour suivre des plafonds de dépense et potentiellement acheter des crédits additionnels. C’est notable parce que Perplexity aurait fortement réduit des limites du plan Pro entre fin 2025 et début 2026, notamment sur Deep Research. Un système de crédits pourrait calmer la frustration des gros utilisateurs, en leur évitant de passer directement à un palier à 200 dollars par mois.

Quelques sorties open source et devtools à garder sous le coude. WorkOS publie un CLI officiel, en Go, sous licence Apache-2.0, avec gestion de plusieurs environnements et un mode “headless” pratique pour la CI. Dans un registre plus “sécurité pour agents”, MachineAuth propose un serveur d’authentification auto-hébergé pour OAuth 2.0 en client credentials, avec JWT signés, JWKS, gestion d’agents et scopes — et une approche sans base de données, stockée en JSON. C’est typiquement le genre de brique qu’on voit émerger quand les agents deviennent des clients machine-to-machine normaux. Et côté frameworks web: Cloudflare raconte avoir réimplémenté une large surface de l’API Next.js en moins d’une semaine, avec un ingénieur et un modèle IA, sous le nom vinext. L’ambition: un “drop-in replacement” qui tourne sur Vite, et se déploie sur Cloudflare Workers via une commande. Ils annoncent des gains de build dans certains scénarios CI, et surtout une portabilité plus propre que les solutions qui doivent deviner la sortie de build de Next. C’est expérimental, mais le signal est clair: l’IA accélère la création de couches d’infrastructure… à condition d’avoir des specs, une grosse suite de tests, et des garde-fous.

Sécurité et compétition, maintenant. Anthropic affirme avoir détecté des campagnes de distillation à grande échelle visant Claude, attribuées à DeepSeek, Moonshot et MiniMax. On parle de millions d’échanges générés via des dizaines de milliers de comptes frauduleux, avec des patterns de prompts orientés extraction de capacités: raisonnement, agentic coding, orchestration d’outils, et même des tentatives de récupérer des traces de raisonnement. Anthropic insiste sur deux risques: d’abord, copier des capacités peut aussi copier “sans” les garde-fous — donc plus de misuse potentiel. Ensuite, ça pourrait contourner, partiellement, des barrières économiques et des contrôles, en rattrapant des écarts par extraction plutôt que par R&D. Leur réponse: détection de trafic, durcissement des parcours de création de compte, et contre-mesures côté produit et API. Le sous-texte: la guerre de l’agentique ne se joue pas que sur la qualité, mais aussi sur la protection des modèles.

Dernier bloc: économie et marchés. Une gouverneure de la Fed, Lisa Cook, parle d’un “changement générationnel” sur le marché du travail américain. Son point: les déplacements d’emplois peuvent précéder la création de nouveaux rôles, et l’IA pourrait faire monter le chômage à court terme. Et si, en même temps, la productivité accélère, le chômage pourrait devenir un indicateur moins fiable de “faiblesse de la demande” — ce qui complique la réponse de politique monétaire, notamment si baisser les taux alimente l’inflation au lieu de résoudre un problème structurel. Et on a eu un exemple de nervosité extrême: un rapport viral, très spéculatif, publié sur Substack, décrivant un scénario “AI doomsday”, aurait contribué à secouer les marchés — avec un recul marqué du S&P 500 et des baisses sur des valeurs explicitement citées. Que le scénario soit crédible ou non, le fait marquant, c’est l’influence: un texte viral peut désormais rivaliser, en impact, avec des signaux macro plus traditionnels. Dans ce climat, IBM a aussi décroché, en partie sur des craintes autour de la modernisation du COBOL par IA après une communication d’Anthropic sur Claude Code. Ironie: IBM pousse elle-même des outils similaires depuis des années. Mais le marché, lui, réagit parfois au récit avant de regarder les détails.

Voilà pour l’essentiel de l’actualité IA et tech de ce 25 février 2026. Entre puces ultra spécialisées, benchmarks qui se fissurent sous la contamination, et agents qui tiennent enfin la distance, on sent que l’écosystème passe d’une course à la démo… à une course à la mise en production — avec, au passage, de nouvelles tensions sur les coûts, la sécurité et l’emploi. TrendTeller au micro. Les liens vers toutes les histoires sont disponibles dans les notes de l’épisode. À demain.