Transcript: Claude Mythos et cybersécurité bancaire

On a eu droit, cette semaine, à une scène assez rare: des patrons de grandes banques américaines convoqués en urgence pour parler d’un modèle d’IA capable de dénicher des failles que tout le monde a ratées depuis des décennies. Pourquoi maintenant, et qu’est-ce que ça change vraiment? Bienvenue dans The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 11 avril 2026. Je suis TrendTeller, et aujourd’hui on va parler d’IA qui écrit des articles scientifiques de bout en bout, d’infrastructures GPU qui se financent à coups de milliards, et de l’écart qui se creuse entre agents “magiques” et agents réellement sûrs, audités, et gouvernables.

D’abord, le dossier qui fait lever les sourcils à Washington. D’après plusieurs sources, le secrétaire au Trésor américain a réuni en huis clos des dirigeants des plus grandes banques, avec la Fed dans la boucle, pour discuter d’un risque très concret: l’usage offensif de l’IA. En cause, le nouveau modèle d’Anthropic, Claude Mythos, présenté comme particulièrement doué pour repérer et exploiter des vulnérabilités logicielles, y compris très anciennes. Anthropic a même restreint l’accès à un petit cercle d’organisations — une inflexion notable — ce qui montre à quel point la question n’est plus théorique. Le message implicite aux banques est clair: si l’IA accélère la découverte de failles, la fenêtre entre “trouvé” et “corrigé” se rétrécit, et c’est toute la surface d’attaque du système financier qui devient plus difficile à défendre.

Dans un registre voisin, on voit émerger des réponses plus “architecturales” que des simples chartes d’usage. IronClaw, un projet open source orienté sécurité, veut rendre les agents personnels moins dangereux en évitant que les secrets — clés API, tokens, mots de passe — ne se retrouvent en clair dans le contexte d’un LLM. L’idée est de garder ces secrets dans un coffre chiffré et de ne les injecter que dans des requêtes autorisées, tout en isolant les outils dans des sandboxes. Pourquoi c’est intéressant? Parce que ça s’attaque à un problème structurel des agents: dès qu’on leur donne des accès, on augmente le risque de fuite, d’abus, ou d’attaque par prompt injection. Là, on essaye de réduire les dégâts possibles par conception, pas par “merci d’être prudent” dans un prompt système.

Et justement, la gouvernance arrive aussi dans l’open source. Le projet du noyau Linux a publié une documentation qui clarifie les attentes quand des assistants de code IA sont utilisés pour contribuer. Le principe: les règles n’ont pas changé, la responsabilité non plus. La conformité licence est mise au premier plan, et surtout, l’IA ne peut pas “certifier” une contribution à votre place. En revanche, Linux pousse la transparence avec un tag de type “Assisted-by” pour indiquer quel outil a aidé. C’est une évolution importante: l’objectif n’est pas d’interdire l’IA, mais de rendre son usage traçable — et juridiquement assumé par un humain.

Passons à l’IA qui écrit… mais pas seulement du texte. Des chercheurs de Google Cloud AI ont présenté PaperOrchestra, un framework multi-agents qui vise à transformer un chaos de notes de labo, de datasets et de fragments de recherche en article académique prêt à soumettre. Là où beaucoup d’outils se limitent à “bien rédiger”, PaperOrchestra se place sur toute la chaîne: structurer, faire une revue de littérature, produire des figures, et mettre en forme le manuscrit, avec des citations ancrées via API. En parallèle, l’équipe lance PaperWritingBench, un benchmark construit à partir de centaines de papiers de conférences IA pour standardiser l’évaluation. Les tests humains rapportés donnent PaperOrchestra devant des baselines autonomes, surtout sur la revue de littérature. Pourquoi ça compte? Parce que ça promet un gain de productivité énorme… et, en même temps, ça augmente le risque de “ghostwriting” à grande échelle, avec une pression supplémentaire sur le peer review: plus de soumissions, plus vite, pas forcément plus solides.

Côté industrie, l’IA se paie d’abord en électricité, en GPUs… et en financement. CoreWeave a révélé que Meta s’engage sur une capacité de calcul additionnelle gigantesque jusqu’en 2032, ce qui fait grimper le carnet de commandes et confirme l’appétit des hyperscalers pour des clouds spécialisés GPU. Mais l’angle le plus instructif, c’est la concentration: Meta pèserait une part très importante du backlog, et OpenAI aussi. En clair, la visibilité est forte, mais le risque client l’est également si les calendriers de demande bougent. Et surtout, l’article insiste sur un point souvent sous-estimé: la croissance de ces acteurs dépend autant de la construction de datacenters que de la capacité à lever de la dette et à financer des capex colossaux. L’IA, ici, ressemble autant à un pari d’infrastructure qu’à un pari logiciel.

OpenAI, de son côté, est au croisement de deux débats: comment payer la facture, et qui porte la responsabilité quand ça dérape. D’après des informations rapportées à des investisseurs, OpenAI projette une montée en puissance massive de la publicité dans son écosystème, avec des ambitions qui rappellent les géants du digital. L’intérêt est évident: monétiser une audience potentiellement immense pour soutenir les coûts d’entraînement et d’inférence. Mais c’est aussi une zone sensible: publicité dans une interface conversationnelle, ça touche directement la confiance, le ressenti d’impartialité, et le risque de confusion entre réponse et contenu sponsorisé. Et sur le plan légal, OpenAI soutient un projet de loi dans l’Illinois qui limiterait, sous conditions, la responsabilité des développeurs de “frontier models” si leurs systèmes sont utilisés pour causer des dommages catastrophiques. Les partisans parlent de cadre clair et de réduction du patchwork réglementaire; les critiques y voient un bouclier trop large, qui pourrait réduire l’incitation à une vraie prudence. C’est un débat central: à mesure que les modèles deviennent des infrastructures, la question de la responsabilité ressemble de plus en plus à celle qu’on a déjà connue dans d’autres industries à risque.

Sur le front des agents, Anthropic avance sur deux axes complémentaires. D’abord un mode “advisor” sur sa plateforme: des modèles moins chers exécutent l’essentiel du travail, et Opus n’intervient qu’aux moments difficiles pour recadrer, planifier ou corriger. L’enjeu est très pragmatique: maintenir une bonne qualité sans payer le coût d’un modèle premium à chaque étape. Ensuite, Claude Cowork devient disponible sur tous les plans payants, avec une vraie couche entreprise: contrôle des accès, plafonds de dépenses par groupe, analytics, et observabilité pour intégrer l’usage IA dans des pipelines de conformité et de sécurité. Ce qui est frappant, c’est la cible: pas seulement les développeurs, mais aussi les équipes opérations, finance, juridique. Autrement dit, l’agent “bureau” se normalise — mais il doit être gouvernable, sinon il restera cantonné à des pilotes.

Un autre signal de “l’IA dans le quotidien”, mais avec une zone de friction évidente: Perplexity étend son expérience de finance personnelle en se connectant, via Plaid, à des comptes bancaires, cartes, prêts et investissements. L’argument produit est séduisant: un tableau de bord unifié, et des questions en langage naturel pour comprendre dépenses, dettes, et patrimoine. L’intérêt, c’est l’accessibilité: beaucoup de gens ont leurs finances éclatées entre plusieurs établissements. Le point sensible, évidemment, c’est la confiance. Donner à un assistant une vue quasi complète de sa vie financière, c’est franchir une marche psychologique et sécuritaire. Cette catégorie “CFO personnel” peut décoller… ou se heurter à une résistance durable, selon la transparence et les garanties réelles autour des données.

Côté recherche en génération d’images, deux papiers vont dans le sens d’une IA plus “processus” et moins “coup de baguette magique”. Un travail sur arXiv propose une génération d’image par étapes, en alternant plan textuel, brouillon visuel, critique, puis raffinement — un peu comme un dessinateur qui corrige au fur et à mesure. L’objectif n’est pas seulement d’améliorer le rendu, mais aussi de rendre la trajectoire plus interprétable. Et dans un autre papier, Sol‑RL cherche à rendre l’alignement par renforcement des modèles de diffusion moins coûteux, en séparant la phase d’exploration de la phase d’optimisation et en jouant sur des calculs moins lourds là où c’est acceptable. Pourquoi ça compte? Parce que l’alignement de modèles génératifs à grande échelle est cher, et toute baisse de coût peut accélérer l’adoption de méthodes qui améliorent l’adhérence aux prompts et la qualité globale.

Pour celles et ceux qui construisent des moteurs de recherche et du RAG, Sentence Transformers ajoute du support multimodal: texte, image, audio, vidéo, avec une interface cohérente pour embeddings et reranking. Le signal ici n’est pas “une feature de plus”, c’est une tendance: la recherche ne se limite plus à retrouver des paragraphes, elle doit relier des documents hétérogènes. Et quand vos données internes contiennent des captures, des enregistrements, des schémas ou des vidéos, le multimodal devient un avantage compétitif très concret.

Dernier bloc: mesurer ce que valent vraiment les agents, au-delà des démos. KellyBench propose un benchmark long-terme dans un marché de paris simulé sur une saison complète de Premier League, avec prise de décision séquentielle et gestion du risque. Résultat: les modèles testés perdent en moyenne, et beaucoup “explosent” faute de stratégie cohérente sur la durée. C’est un rappel utile: être impressionnant sur une tâche courte ne garantit pas la robustesse sur des semaines de décisions. Dans le même esprit, un billet relance le débat sur le “continual learning”: plutôt qu’un module magique, l’auteur propose d’y voir un objectif directionnel — étendre l’horizon de temps sur lequel un modèle reste fiable. Et SkyPilot ajoute un enseignement pratique: des agents de code optimisent mieux quand on leur impose une phase de recherche — lire des papiers, comparer des forks — avant de toucher au code. En clair, l’agent performant est souvent celui qui commence par changer de cadre mental, pas celui qui micro-optimise le plus vite.

Et pour terminer sur la perception publique: Quanta Magazine remet en contexte plusieurs anecdotes “IA effrayante” en montrant combien le rôle des consignes humaines est parfois effacé dans le récit. Des histoires de tromperie ou d’auto-préservation deviennent spectaculaires… quand on oublie que des chercheurs ont souvent donné des objectifs extrêmes et décrit le scénario en détail. Ça ne veut pas dire qu’il n’y a pas de risques, au contraire: la désinformation et la surconfiance restent des menaces très actuelles. Mais ça invite à être précis: exagérer l’autonomie des modèles peut aussi devenir une forme de marketing — et brouiller les priorités de sécurité. Au passage, Google annonce aussi que Gemini peut générer dans le chat des simulations et visualisations interactives manipulables en temps réel. C’est une bonne nouvelle pour l’apprentissage exploratoire, surtout en sciences: quand on peut jouer avec des paramètres et voir les effets, on comprend plus vite — et on repère aussi plus vite les réponses qui sonnent bien mais ne tiennent pas la route.

C’est tout pour aujourd’hui. On retient une dynamique assez nette: les agents gagnent en portée — écrire un paper, assister une équipe, analyser des finances — mais la vraie ligne de partage, c’est la gouvernance et la sécurité, pas la créativité. Je suis TrendTeller, et c’était The Automated Daily, AI News edition. Les liens vers toutes les histoires sont disponibles dans les notes de l’épisode.