Transcript: LLM et pièges de performance

Un développeur a laissé un LLM réécrire SQLite en Rust “from scratch”. Ça compile, ça passe les tests… et pourtant, sur une requête basique, c’est jusqu’à vingt mille fois plus lent. Restez là, parce que ça raconte beaucoup de choses sur l’IA en production. Bienvenue dans The Automated Daily, édition AI News. Le podcast créé par l’IA générative. Nous sommes le 10 mars 2026, et je suis TrendTeller. Aujourd’hui: les angles morts des LLM sur la performance réelle, la pénurie de calcul qui se voit déjà côté utilisateurs, des réorganisations chez Meta, des agents qui automatisent la recherche et la sécu, et une controverse qui secoue l’open source.

On commence donc par ce cas d’école: une réimplémentation de SQLite générée par LLM, en Rust, présentée comme compatible et plutôt complète. Sur le papier, tout va bien: compilation, suite de tests, et une API qui “ressemble” à l’original. Sauf qu’au benchmark, les opérations de base s’écroulent, avec un record peu glorieux: des recherches par clé primaire sur une table minuscule qui deviennent environ 20 000 fois plus lentes. Le diagnostic est parlant: au lieu d’emprunter les chemins rapides de SQLite, le moteur planifie certaines requêtes comme des scans complets de table. Et au-delà d’un bug logique précis, l’auteur pointe des choix coûteux—recompilation trop fréquente, allocations et copies à répétition, rechargement de schémas, et synchronisations disque agressives. Pourquoi c’est intéressant? Parce que ça illustre une faille récurrente: un LLM peut produire un code “crédible” qui coche les cases visibles, tout en ratant des invariants de performance et de comportement qui viennent d’années de mesures et de retours terrain. La conclusion est pragmatique: sans critères d’acceptation mesurables et vérification personnelle, “ça build et ça passe les tests” ne suffit pas.

Dans le même esprit—mais côté usage—un autre exemple cité dans l’analyse raconte un gros service de “nettoyage disque” développé comme un démon complexe, alors qu’un cron minimal aurait réglé le besoin. Message sous-jacent: l’IA répond souvent à l’intention formulée dans le prompt, pas à la nécessité pratique. Et ça, en entreprise, ça finit en dette technique, pas en productivité.

On passe à l’économie des créateurs avec le retour d’expérience de Kapwing sur Tess.Design, une marketplace d’images génératives lancée en 2024 et arrêtée en janvier 2026. L’idée était d’être “éthique” par design: rémunérer des artistes à chaque génération réalisée dans leur style, avec une chaîne de droits traçable censée rassurer les éditeurs. Dans les faits, recruter des artistes a été ardu, pour des raisons très humaines: opposition de principe à l’IA, peur de dilution de marque, et risque d’être mal vu dans sa communauté. Financièrement, le projet n’a jamais décollé: recettes modestes, avances versées supérieures aux revenus, et quasiment pas de royalties au-delà des avances. Même un deal prometteur aurait capoté, la partie juridique jugeant le terrain du copyright encore trop instable. Intérêt de ce récit: il montre que le “bon modèle” n’est pas uniquement technique. Culture, confiance, et droit pèsent autant que la qualité des images.

Côté infrastructure, un analyste affirme que la “compute crunch” n’est plus une menace abstraite: elle se traduit déjà par des dégradations visibles. Il cite des soucis de disponibilité et, surtout, une rationnalisation explicite de l’inférence: baisse de qualité par défaut, restrictions d’accès, retrait de certaines options sur des outils de dev. L’argument clé, c’est l’effet des systèmes plus “agentiques”: dès qu’un assistant planifie, itère, et vérifie, la consommation de tokens explose, et la demande peut grimper très vite même si peu d’employés l’utilisent. En face, les limites ne sont pas seulement “des GPU”: mémoire rapide, énergie, cadence de déploiement, et capacité industrielle. Sa projection est assez claire: contraintes plus dures jusqu’en 2026–2027, avec des fournisseurs qui gèrent la rareté via quotas, incitations hors pointe, et limitations aux heures chargées.

Cette tension sur le calcul rejoint un autre sujet: la diversification du hardware d’inférence. On voit monter des accélérateurs qui misent fortement sur de la mémoire rapide proche du calcul, pour servir les besoins de latence et de débit, notamment sur la phase de génération token par token. L’idée n’est pas “les GPU sont morts”—plutôt que l’inférence se fragmente, et que les architectures spécialisées trouvent leur place, surtout quand la bande passante mémoire devient le vrai goulot. Pour les équipes produit, ça signifie des stacks plus hétérogènes, donc plus de décisions à prendre sur où et comment exécuter chaque étape.

Chez Meta, Mark Zuckerberg poursuit la réorganisation avec une nouvelle entité Applied AI engineering. Structure volontairement plus plate, reporting resserré, et mandat centré sur l’outillage interne: pipelines de données, systèmes d’évaluation, et ce que Meta décrit comme un “data engine” pour accélérer l’amélioration des modèles. Le signal est fort: la compétition ne se joue pas uniquement sur les idées de recherche, mais sur la vitesse d’itération, la qualité des boucles de mesure, et la capacité à industrialiser.

Toujours chez Meta, autre évolution: Vibes, qui ressemblait à un “feed” de vidéos IA dans Meta AI, prend la forme d’un studio web plus complet, avec génération et montage sur timeline dans un même espace. L’interface paraît ambitieuse, proche des workflows créateurs. Le bémol rapporté, c’est l’irrégularité des résultats: le studio semble plus mature que la qualité de sortie. Si Meta déploie largement, l’enjeu est évident: offrir aux créateurs et aux marques une chaîne de production de contenus courts directement alignée avec Instagram et Facebook—et un banc d’essai pour ses modèles.

On parle maintenant d’agents côté R&D. Andrej Karpathy publie en open source “autoresearch”, un dispositif minimaliste mais malin: un agent ne modifie qu’un seul fichier d’entraînement, lance un run très court sur un seul GPU, mesure une métrique stable, puis conserve ou jette les changements. L’humain garde la main sur le cadre via un fichier d’instructions, mais la boucle d’expérimentation tourne vite. Pourquoi ça compte? Parce que ça rend concret un style de recherche “itératif automatisé” accessible sans cluster ni grosse infra—et ça pousse à penser la science des modèles comme une chaîne de tests reproductibles, pas comme une série de coups d’éclat.

Dans la famille “briques d’agent”, Google open-source aussi un agent à mémoire persistante, présenté comme “always on”. Ici, la mémoire est stockée de façon structurée dans SQLite, et le modèle lit et réécrit ces souvenirs au fil du temps, sans pile de retrieval sophistiquée. L’intérêt, c’est le signal: la mémoire devient une composante standard du runtime des agents, pas un bricolage dans un prompt. Mais les réactions soulignent le revers: dérive de mémoire, boucles de rétroaction, auditabilité, conformité—et, à mesure que ça grossit, gouverner ce que l’agent “croit” savoir devient au moins aussi important que la technique.

Sécurité maintenant, avec une collaboration annoncée entre Anthropic et Mozilla: Claude aurait aidé à identifier plusieurs vulnérabilités dans le code de Firefox, dont une bonne partie jugée sévère et déjà corrigée dans une version livrée aux utilisateurs. Point notable: la découverte semble progresser plus vite que la capacité à produire des exploits fiables, ce qui laisse encore un écart entre “trouver” et “armer”. Cela dit, l’équilibre peut bouger, et l’histoire rappelle une vérité simple: si les défenseurs gagnent des outils, les attaquants aussi. L’enjeu, c’est d’accélérer le cycle find-and-fix à une cadence supérieure à celle de l’exploitation.

Chez OpenAI, autre sujet de gouvernance: la responsable hardware et robotique, Caitlin Kalinowski, annonce sa démission en réaction à un accord avec le Département de la Défense américain. Elle dit soutenir des usages de sécurité nationale, tout en refusant des dérives possibles—surveillance domestique sans contrôle judiciaire, ou autonomie létale sans autorisation humaine. OpenAI réaffirme des “lignes rouges”, mais l’épisode montre à quel point ces partenariats touchent autant la réputation externe que la cohésion interne. Et sur un marché où la confiance est un actif, la perception compte presque autant que les communiqués.

Sur l’emploi, un papier s’attaque à une question que beaucoup se posent: est-ce que l’IA permet vraiment de faire tourner des entreprises avec moins de monde? Les chiffres mis en avant vont dans ce sens: financement qui repart fortement—tiré par quelques géants—mais embauches en baisse, équipes plus petites dès les premiers tours, et une dynamique de “compute plutôt que headcount”. Les startups AI-native apparaissent comme le cas extrême: plus de revenus par employé, moins de postes, et une croissance qui ne se traduit pas mécaniquement par des recrutements. Intérêt du constat: même si la causalité est complexe, l’effet macro—moins d’emplois créés pour un même volume de capital—commence à ressembler à une tendance, pas à un accident.

Enfin, côté open source, un conflit attire l’attention: le mainteneur de chardet publie une version réécrite “from scratch”, en créditant partiellement un modèle IA, et change la licence de LGPL vers MIT. L’auteur original conteste l’idée d’un vrai “clean-room” et, surtout, pointe un enjeu de normes: l’IA réduit le coût de réimplémentation, donc rend plus facile le passage de licences réciproques vers des licences permissives, sans retour au commun. Le débat dépasse le juridique: il touche à la culture du partage et à ce qu’une communauté considère comme légitime. Et il ouvre une question difficile: si les tests et l’API suffisent de plus en plus à régénérer un projet, comment protéger l’esprit du copyleft dans un monde d’IA génératives?

Voilà pour l’essentiel de l’actualité IA de ce 10 mars 2026. Si un fil relie ces histoires, c’est peut-être celui-ci: les systèmes progressent vite, mais les vrais garde-fous—mesure, gouvernance, droit, et pratiques d’ingénierie—restent le facteur déterminant entre une démo qui impressionne et un produit qui tient dans la durée. Je suis TrendTeller, et c’était The Automated Daily, AI News edition. Vous trouverez les liens vers toutes les histoires dans les notes de l’épisode.