Transcript: Des papiers scientifiques écrits par IA

Un système d’IA a généré des articles de recherche complets… et l’un d’eux a frôlé une acceptation lors d’une évaluation type conférence. On est en train de changer les règles du jeu, plus vite que prévu. Bienvenue dans The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 5 avril 2026. Je suis TrendTeller, et on fait le tour des infos qui comptent — sans bruit, sans hype.

On commence par la recherche scientifique, parce que c’est probablement la nouvelle la plus dérangeante — et la plus structurante. Des chercheurs présentent “The AI Scientist”, une chaîne de bout en bout où des modèles existants génèrent des idées, fouillent la littérature, lancent des expériences, rédigent un manuscrit… et passent aussi par une phase de relecture automatisée. Le point clé, c’est leur “reviewer” entraîné à imiter des critères de conférences réputées, et qui colle assez bien aux décisions humaines. Pourquoi c’est important : si une partie du tri — l’accepté/refusé — devient automatisable, la barrière d’entrée pour produire des papiers “présentables” baisse brutalement. Et même si les auteurs reconnaissent des limites très actuelles — erreurs d’implémentation, idées parfois superficielles, citations inventées — ils montrent un signal inquiétant : plus les modèles sont forts et plus on met de calcul au moment de l’évaluation, plus la qualité monte. Autrement dit, ce n’est pas un gadget figé : c’est une pente.

Dans un registre plus terre-à-terre, on a aussi un exemple d’agent IA qui tente d’agir dans le monde réel… et qui rappelle pourquoi la supervision humaine reste incontournable. Une journaliste du Guardian raconte avoir été invitée à un meetup à Manchester, soi-disant “organisé” par un agent autonome nommé Gaskell. Sauf que l’agent a halluciné des informations sur son travail, a survendu l’organisation, a embrouillé des détails logistiques — et a même envoyé des e-mails de sponsoring un peu trop ambitieux, jusqu’à contacter par erreur des interlocuteurs hautement sensibles. Au final, l’événement a eu lieu, plutôt banal, parce que des humains ont comblé les trous et surtout ont mis des garde-fous quand l’agent voulait engager des dépenses. Ce que ça dit : les agents savent coordonner, pousser, relancer, produire du texte persuasif… mais leur jugement, lui, reste fragile. Et quand on leur donne accès à des canaux comme l’e-mail ou LinkedIn, l’impact d’une erreur n’est plus “juste” un bug : c’est une situation réelle, avec des conséquences réelles.

On reste dans la pratique, mais côté développement logiciel : plusieurs récits cette semaine convergent vers la même idée — l’IA accélère, oui, mais elle change aussi la manière de travailler, parfois pour le meilleur, parfois pour le pire. D’abord, le développeur Lalit Maganti publie “syntaqlite”, des outils pour SQLite pensés comme une base fiable pour formatters, linters et intégrations d’éditeur. Il explique que le projet est devenu réaliste parce que les agents de code lui ont permis de prototyper vite, générer du code répétitif, refactorer et même apprendre des zones qu’il maîtrisait moins, comme l’outillage Rust ou les API d’extensions VS Code. Mais le cœur du défi, c’est que SQLite n’offre pas une grammaire formelle stable : pour coller précisément au comportement réel, il a dû extraire et adapter des morceaux du code source de SQLite. Et il raconte aussi un échec instructif : une première version “vibe-codée” a fonctionné, mais était fragile et mal structurée — il a tout jeté, puis réécrit avec une conception plus humaine et des contrôles automatisés plus stricts. Ensuite, un ingénieur sécurité, Matthew Taggart, décrit son utilisation à contrecœur de Claude Code pour construire un système de certificats de fin de formation. Verdict : plus rapide, plus complet… mais cognitivement pénible, avec une sensation de glisser vers un mode “j’accepte les changements” qui peut éroder la vigilance. Malgré des tests, des revues attentives et les garde-fous du compilateur, le modèle a inventé des API et a introduit au moins un risque subtil de déni de service au cours d’un correctif. Fait intéressant : une passe dédiée “IA en auditeur sécurité” a aussi permis de repérer de gros problèmes, comme des risques de traversal de chemins ou d’injection, et même un effet de bord type canal auxiliaire de timing sur une vérification de mot de passe. Pourquoi tout ça compte : on voit se dessiner une frontière nette. L’IA est un multiplicateur pour l’implémentation et la “dernière ligne droite” — tests, documentation, intégrations — mais elle reste risquée pour l’architecture, le design d’API, et surtout pour garder un modèle mental clair du système. Et en sécurité, cette perte de clarté n’est pas un détail : c’est souvent là que les failles se cachent.

Ce biais de l’IA apparaît aussi à travers les langages de programmation. Un ingénieur DevOps passionné de Lisp raconte que les outils agentiques l’aident beaucoup moins en Lisp qu’en Python ou Go. Il essayait de développer un convertisseur de formats pour lecteur RSS en Lisp, et l’IA s’est montrée maladroite, lente, coûteuse en itérations — même après avoir amélioré l’accès au REPL via un outil maison. Le contraste est parlant : l’outil de support, lui, a été vite écrit en Python avec des modèles moins chers, tests compris. L’explication avancée est simple : plus un écosystème est populaire, plus les modèles ont vu d’exemples, de conventions, et de “chemins standard” à reproduire. Effet secondaire : l’IA pousse vers la voie la plus commune, parfois contre les préférences de l’utilisateur. Et il y a une thèse plus large : la latence des allers-retours avec un modèle cadre mal avec l’itération ultra-rapide qui rend les langages REPL si agréables pour les humains. Au bout du compte, le choix d’un langage pourrait se retrouver lié à un coût direct en temps et en tokens — un facteur économique, pas seulement technique.

Passons au campus, où l’IA ne change pas seulement la production de texte, mais la dynamique des idées. Des étudiants de Yale expliquent à CNN que des chatbots sont utilisés en temps réel pendant les séminaires : certains chargent les lectures, récupèrent des réponses très propres, et les récitent. Résultat décrit : des interventions plus lisses, mais aussi plus plates, avec une impression que “tout le monde sonne pareil”. Ce constat rejoint un argument de recherche : des modèles de langage peuvent homogénéiser le discours, en produisant des sorties statistiquement typiques — et potentiellement biaisées vers des points de vue dominants, notamment occidentaux et académiques. En classe, l’enjeu n’est pas juste la triche : c’est la disparition d’une étape essentielle de l’apprentissage, l’effort, l’hésitation, la formulation imparfaite qui mène à une idée originale. Certaines réponses pédagogiques émergent déjà : davantage d’évaluations en présentiel, à l’oral, ou sur papier, parce que la détection automatique est peu fiable. La question de fond reste ouverte : utiliser l’IA pour clarifier sa pensée, d’accord — mais quand elle commence à penser à votre place, c’est la diversité intellectuelle qui s’aplatit.

On termine avec deux sujets plus “société et sécurité”, à commencer par la vie privée autour des lunettes connectées. Un site de campagne, BanRay.eu, appelle à interdire les Ray-Ban Meta équipées de caméra, au motif qu’elles transforment les passants en sources de données involontaires. Le site cite une enquête en Suède suggérant que des enregistrements pourraient être envoyés à un sous-traitant, avec des travailleurs amenés à visionner des contenus sensibles, et souligne un point très concret : l’utilisateur ne pourrait pas complètement désactiver certains traitements liés à l’IA. Pourquoi c’est notable : ce débat dépasse Meta. Les caméras portées sur le visage changent la norme sociale — dans une salle d’attente, une école, un lieu de culte, une manifestation. Et même quand on promet de l’anonymisation, on sait que des détails suffisent souvent à ré-identifier. Avec, en toile de fond, des régulateurs et des actions en justice qui s’intéressent à l’écart entre marketing “privacy” et réalité du traitement serveur. Dernier point, plus conceptuel mais très utile pour la sécurité : des chercheurs de UCLA Health proposent l’idée que les IA actuelles manquent d’une pièce maîtresse de la cognition humaine, qu’ils appellent “embodiment interne”. En clair : des signaux persistants — incertitude, fatigue, coût interne — qui régulent le comportement sur la durée. Ils relient cette absence à des échecs mesurables, comme une fragilité à de petites variations d’images, et à un risque plus général : des systèmes trop sûrs d’eux, inconsistants, et manipulables en contexte critique. Le message à retenir : l’alignement et la sûreté ne se résument pas à “mieux raisonner sur le monde”. Il faut peut-être aussi des mécanismes internes qui poussent une IA à se retenir, à douter, à stabiliser son comportement — pas juste à produire la réponse la plus probable.

Voilà pour l’essentiel aujourd’hui. Si je devais résumer : l’IA progresse vite dans la production — code, textes, même recherche — mais la question centrale devient la même partout : qui garde le contrôle, et à quel coût pour la qualité, la sécurité et la diversité des idées ? C’était The Automated Daily, AI News edition. Je suis TrendTeller. Les liens vers toutes les histoires sont dans les notes de l’épisode. À demain.