Transcript: Prompts persona: moins de précision

Et si le simple fait de dire à une IA “agis comme un expert” la rendait… moins fiable sur les faits, le code et les maths ? Bienvenue à The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 24 mars 2026, et je suis TrendTeller. Aujourd’hui, on parle de confiance: confiance dans les réponses des LLM, confiance dans les agents de code, et même confiance dans l’économie qui se construit autour d’eux.

On commence donc par une remise en question d’un réflexe devenu quasi automatique: demander à un chatbot “d’agir en expert”. Des chercheurs rapportent que ce type de persona peut faire baisser la performance sur des tâches où l’exactitude compte, comme le raisonnement ou le code. L’idée, c’est que le modèle bascule davantage en mode “suivi d’instructions et de rôle” qu’en mode “récupération fidèle de connaissances”. En clair: la posture d’expert n’ajoute pas de compétence, et peut même brouiller la réponse. Ce qui ressort, c’est surtout une recommandation pragmatique: au lieu d’un costume d’“expert”, mieux vaut des exigences concrètes, des contraintes, et des critères de vérification. Et quand une persona est utile — typiquement pour la sûreté ou la modération — elle devrait être activée de façon ciblée, pas par défaut.

Justement, la question de la fiabilité des agents revient dans une prise de position de Mozilla AI. Leur constat est assez piquant: les LLM ont été nourris, en partie, par des années de Stack Overflow et de forums. Mais l’usage massif d’outils de code assisté a aussi contribué à faire baisser la participation sur ces mêmes plateformes. Résultat: moins de connaissance humaine fraîche, et des agents qui redécouvrent, à coups de tokens et d’essais-erreurs, des pièges déjà connus. La proposition de Mozilla s’appelle “cq”, pour “colloquy”: un commun de connaissances où des agents peuvent interroger ce que d’autres agents ont déjà appris, et surtout réinjecter des constats vérifiés. Le point important, c’est l’approche: on ne traite pas ces informations comme une documentation officielle gravée dans le marbre, mais comme des savoirs qui gagnent en crédibilité quand ils se confirment à travers des usages répétés, dans des codebases différentes. Mozilla présente ça comme un essai open source et un pas vers des standards ouverts, pour éviter que la “mémoire des agents” finisse enfermée chez un seul fournisseur.

Dans la même veine “on veut pouvoir vérifier”, deux projets open source attaquent le problème par des angles très concrets. D’abord, ProofShot: l’idée est de produire une preuve visuelle de ce qu’un agent de code a réellement fait quand il prétend avoir corrigé une interface ou validé un parcours. Plutôt que de se contenter d’un message du type “c’est bon, j’ai testé”, l’outil enregistre une session navigateur et aligne la vidéo avec une chronologie d’actions. Pour une revue de pull request, ça change la conversation: on ne discute plus uniquement d’intentions, on regarde des traces. Ensuite, TrustLog Dynamics, qui ressemble à un disjoncteur pour agents autonomes. Le projet surveille les signaux de dépense et tente de repérer les spirales: boucles de retries, contextes qui explosent, comportements mécaniques qui coûtent cher sans progresser. L’intérêt, c’est moins le gadget que la tendance: à mesure que les agents deviennent persistants, la gouvernance ne peut pas reposer uniquement sur “faites attention”. On commence à voir émerger une discipline de type FinOps appliquée à l’IA, avec des garde-fous comparables à ceux qu’on mettrait sur des systèmes financiers automatisés.

À côté des outils et des infrastructures, il y a le facteur humain — et un témoignage le met bien en lumière. Un développeur raconte sa première contribution open source “aidée par IA”: la PR est acceptée, le besoin est comblé, tout le monde est content… mais lui ressort avec un sentiment de fraude. Pas parce que le résultat est mauvais, au contraire, mais parce qu’il a l’impression de ne pas avoir réellement “habité” le code, ni appris le projet comme il l’aurait fait autrement. Ce récit touche un point sensible: la programmation, pour beaucoup, ce n’est pas seulement livrer vite, c’est aussi comprendre, façonner, et ressentir une forme d’artisanat. Or dans certaines équipes, l’usage d’IA devient progressivement une attente implicite, parfois même un critère d’évaluation. Le risque, ce n’est pas juste la dépendance à un outil: c’est de récompenser la vitesse au détriment de la maîtrise, et d’abîmer la motivation de ceux qui aiment précisément la part “difficile mais satisfaisante” du métier.

On élargit maintenant à la science. Un article avance que les IA actuelles sont très fortes pour exploiter l’existant — trier, prédire, optimiser — mais structurellement moins bien armées pour provoquer des changements de paradigme. L’argument est simple: si vous entraînez des modèles à performer sur des jeux de données et des benchmarks définis par le cadre actuel, vous les incitez à mieux jouer la partie… sans remettre en cause les règles. L’auteur rappelle que les grands bonds scientifiques viennent souvent d’une nouvelle “carte” conceptuelle: un vocabulaire et des principes plus simples, mais plus féconds, qui ouvrent des implications inattendues. À l’inverse, une science dopée à l’IA pourrait produire une “hypernormalisation”: plus d’articles, plus vite, davantage de citations, mais une exploration légèrement moins diversifiée. Et la piste intéressante, c’est la metascience: utiliser des agents pour simuler des communautés de recherche et tester quelles incitations favorisent réellement les découvertes disruptives. Autrement dit, si on ne sait pas encore formaliser la naissance des révolutions scientifiques, on peut au moins expérimenter sur les conditions qui les rendent plus probables.

Côté économie, Larry Fink, le patron de BlackRock, a publié une mise en garde: l’IA pourrait accentuer les inégalités en concentrant les gains chez les entreprises qui ont déjà les données, les infrastructures et le capital pour déployer à grande échelle. Il souligne aussi un climat de valorisations très élevées, avec la crainte d’une bulle — et donc d’un retour de bâton si le marché corrige brutalement. Pourquoi c’est à suivre? Parce que l’IA n’est pas seulement une histoire de produits, c’est une reconfiguration des rentes: qui capte la valeur, qui absorbe le risque, et qui reste sur le bord de la route. Et si une correction arrive, les effets seraient probablement aussi concentrés… mais pas forcément là où on l’espère.

On termine avec un sujet plus “terrain”, qui mélange accessibilité et sécurité: un projet open source ajoute une interface façon chatbot au Flipper Zero, pour piloter l’appareil en langage naturel plutôt que via des menus. Pour les amateurs, ça peut ressembler à une couche de confort. Mais l’enjeu, c’est que le Flipper Zero traîne déjà une réputation sulfureuse, parfois associée à des usages limites. Abaisser la barrière d’entrée, même avec des confirmations avant des actions sensibles, peut élargir le public — y compris ceux qui n’ont ni contexte, ni prudence. Les réactions de la communauté semblent d’ailleurs mitigées, entre scepticisme et rejet. Et c’est assez révélateur: “rendre plus facile” n’est pas toujours un progrès net. En sécurité, la facilité d’exécution fait partie du problème autant que de la solution.

Voilà pour l’édition du jour. Si un fil conducteur se dégage, c’est celui-ci: l’IA avance vite, mais la confiance se gagne lentement — avec des connaissances partagées, des preuves vérifiables, et des garde-fous sur les coûts comme sur les usages. Comme toujours, les liens vers toutes les histoires sont dans les notes de l’épisode. À demain.