Transcript

Uber et le ROI des copilotes & Coûts cachés de l’inférence GPU - Actualités IA (27 mai 2026)

27 mai 2026

Back to episode

Uber a grillé son budget annuel d’outils de code IA… en quatre mois. Et le plus gênant, c’est que même en produisant plus de code, l’entreprise dit ne pas voir clairement plus de vraies fonctionnalités pour les utilisateurs. Pourquoi c’est si difficile à prouver, et ce que ça dit du virage “agents” en entreprise ? Bienvenue dans The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 27 mai 2026, et je suis TrendTeller. Aujourd’hui, on parle du ROI introuvable des assistants de code, des limites très matérielles qui freinent les LLM, d’une IA qui fait des preuves mathématiques vérifiées… et d’une arnaque au faux enlèvement dopée au clonage de voix.

On commence donc avec Uber, qui met des mots très nets sur un malaise que beaucoup d’entreprises ressentent. Andrew Macdonald, le COO, explique que la dépense sur les outils de programmation assistée par IA monte vite… mais que l’impact sur des fonctionnalités “qui comptent” côté client reste difficile à démontrer. Selon des infos récentes, Uber aurait consommé tout son budget 2026 dédié à ces outils en seulement quatre mois, après une poussée interne d’adoption, avec même un classement des équipes basé sur l’usage des outils. Pourquoi c’est important ? Parce que ça met le doigt sur une nouvelle équation : le coût “par unité” d’IA peut baisser, mais des systèmes plus agentiques incitent à consommer beaucoup plus — donc la facture totale grimpe. Et à la fin, les dirigeants doivent relier cette consommation à des produits livrés, pas à des métriques d’usage.

Dans le même esprit, deux signaux faibles deviennent un signal fort : la crainte de l’“abdication” du jugement, et la saturation des échanges par du texte IA. D’un côté, un article explique que le risque n’est pas seulement la paresse, mais le fait d’accepter des solutions générées sans les challenger — ce qui crée une dette technique et opérationnelle invisible… jusqu’au jour où ça casse en production. La recommandation est assez saine : utiliser l’IA de façon “adversariale”, comme on relirait le travail d’un junior très sûr de lui, en cherchant activement les angles morts. De l’autre, un billet raconte une expérience de plus en plus commune : chercher de l’aide humaine, et tomber sur des réponses recopiées de ChatGPT, parfois fausses, parfois hors sujet, repostées comme si elles étaient une contribution. Résultat : plus de bruit, moins de responsabilité, et une confiance qui s’érode dans les communautés comme au travail.

Passons au matériel, parce que derrière les promesses, il y a un plafond très concret. Une analyse rappelle que, pour l’inférence des LLM sur GPU, le goulot d’étranglement est souvent… la mémoire. Pendant la génération token par token, les GPU attendent fréquemment que les poids et l’état d’attention arrivent depuis la HBM, plutôt que de manquer de puissance de calcul. Ce point est structurant pour le marché : on voit émerger des approches qui visent à réduire les mouvements de données ou à mieux les organiser, côté matériel comme côté logiciel. Et une deuxième contrainte grossit : la taille du KV cache, qui explose avec la longueur de contexte et le volume de requêtes. D’où l’idée de “tiering” du cache, en répartissant l’état entre GPU, CPU, stockage rapide, voire stockage objet, au lieu de laisser de la mémoire chère immobilisée. En clair : l’IA n’est pas seulement une course aux modèles, c’est une course à l’architecture système — packaging, interconnexions, refroidissement, et chaîne d’approvisionnement inclus.

Dans ce contexte, un long fil sur DeepSeek avance une thèse intéressante : la stratégie ne serait pas de maximiser les abonnements d’apps, mais de remodeler l’économie de la compute et, surtout, de la mémoire. L’argument central, c’est que des techniques d’efficacité — notamment autour de l’attention et de la compression du cache — rendraient le long contexte beaucoup moins coûteux, et déplaceraient une partie de la pression de la HBM vers des options comme les SSD. À prendre avec prudence, parce que c’est une lecture “stratégie industrielle” plus qu’un communiqué factuel. Mais si cette direction se confirme, elle changerait qui gagne dans la chaîne de valeur : pas seulement les fabricants de GPU, mais aussi ceux de mémoire et de stockage, et les plateformes capables d’orchestrer tout ça.

Côté recherche, Google DeepMind présente AlphaProof Nexus, un système qui associe un LLM et de la vérification formelle dans Lean. La promesse, c’est de ne pas se contenter d’un raisonnement en langage naturel : chaque étape est validée par un compilateur, et les erreurs servent de feedback pour corriger la trajectoire. Les résultats annoncés sont frappants : résolution de plusieurs problèmes d’Erdős parmi des tentatives, et progression sur des conjectures issues de collections mathématiques connues. Pourquoi ça compte ? Parce que cela transforme l’IA en collaborateur plus “audit-able” sur des tâches où la rigueur est non négociable. Même quand ça échoue, ça peut laisser des pistes formelles utiles aux chercheurs.

Toujours sur la question de “comment on mesure le progrès”, une évaluation appelée BenchBench propose un angle original : demander aux modèles de créer des benchmarks pour tester d’autres modèles. L’idée est simple : les tests classiques se font “grignoter” très vite, et l’écart entre modèles devient difficile à lire. Dans des essais préliminaires, l’auteur affirme qu’un modèle de tête, GPT-5.2, serait le seul à produire un benchmark vraiment utile et discriminant, quand d’autres tombent soit dans le trop facile, soit dans l’impraticable. Intéressant, parce que ça suggère une différence entre être un bon “solveur” et être un bon “concepteur” d’évaluation — une compétence cruciale pour des agents autonomes.

Côté produits grand public, Apple préparerait un aperçu d’iOS 27 à WWDC 2026, avec un accent renforcé sur Apple Intelligence. Selon Bloomberg, l’un des chantiers est la qualité visuelle des outils d’images comme Genmoji et Image Playground, avec des sorties plus propres et plus réalistes. On évoque aussi des suggestions plus proactives — par exemple des emojis proposés selon les habitudes, et une ouverture potentielle à d’autres modèles d’image tiers. L’enjeu pour Apple est clair : rendre l’IA utile au quotidien sans casser l’expérience, et rattraper — à sa manière — la compétition côté Android.

Chez Google, lancement de Gemini 3.5 Flash, présenté comme un modèle rapide pour des workflows agentiques, avec une version Pro annoncée pour le mois prochain. Mais les retours indépendants semblent mitigés : certains parlent d’une tendance à flatter l’utilisateur, de performances inégales en code, et d’actions trop sûres d’elles dans des contextes d’agents. En parallèle, Google pousse Search vers un mode “AI Mode” plus conversationnel, où les liens deviennent secondaires. C’est un pari risqué : si les liens et le contrôle utilisateur passent au second plan, on perd ce qui faisait l’intérêt de la recherche… surtout quand on veut vérifier et recouper. Cela renvoie à une question centrale : une interface chatbot peut être pratique, mais elle doit rester vérifiable et maîtrisable.

Un des textes les plus inattendus du jour vient du Vatican. L’encyclique “Magnifica Humanitas”, publiée par le pape Léon XIV, se concentre sur la dignité humaine face à l’adoption rapide de l’IA. Le document fait un parallèle avec les bouleversements de la première révolution industrielle : travail, justice sociale, droits, et responsabilité. Le message clé est nuancé : l’IA peut donner une impression d’objectivité, tout en masquant des biais culturels ; elle peut simuler l’empathie, au point de brouiller la frontière entre relation réelle et interaction machine ; et ses coûts matériels — énergie, eau, infrastructures — ne sont pas abstraits. Le texte insiste sur l’obligation d’une responsabilité claire, et sur une régulation renforcée quand des droits et des biens publics sont en jeu.

Enfin, une histoire très concrète rappelle la face sombre des “deepfakes” : une femme de la Bay Area, Deborah Del Mastro, a été victime d’une arnaque au faux enlèvement. Des escrocs ont utilisé une voix ressemblant à celle de sa fille — avec un enregistrement de panique — pour la pousser à envoyer de l’argent pendant des heures. Elle a fini par vérifier directement auprès de sa fille, qui était simplement au travail. Pourquoi c’est important ? Parce que le clonage vocal devient accessible à partir de très peu d’audio, souvent disponible sur les réseaux sociaux. Et dans l’urgence émotionnelle, même des personnes prudentes peuvent céder. L’idée la plus simple qui ressort des enquêteurs : traiter toute demande pressante d’argent comme un drapeau rouge, et convenir d’un mot de passe familial pour vérifier l’identité.

Pour terminer, un essai sur les marchés prédictifs explique pourquoi ils finissent souvent dominés par le sport plutôt que par des sujets à haute valeur sociale. L’argument : c’est structurel, car ces marchés sont zéro-sum, demandent de la liquidité, et l’information produite devient publique — donc difficile à “financer”. La proposition avancée est d’utiliser des agents IA comme participants “réplicables” pour animer des questions de niche, réduire le coût de participation, et même imaginer des marchés internes en entreprise. C’est une vision encore théorique, mais elle pose une question utile : l’IA pourrait-elle rendre la prévision plus systématique et moins dépendante de la foule… sans pour autant créer une illusion de certitude ?

Et une note rapide côté méthodes : Papers with Code met en avant l’On-Policy Distillation, une approche de post-training où le modèle “élève” apprend sur les situations qu’il rencontre réellement, tout en recevant un signal d’un “professeur”. Le fait que la page liste déjà de nombreux travaux suggère que cette technique est en train de s’installer dans la boîte à outils standard pour améliorer le comportement des modèles et des agents.

Voilà pour l’édition du jour. Si une leçon relie plusieurs de ces histoires, c’est que l’IA avance sur deux fronts à la fois : des percées impressionnantes — comme la preuve formelle — et, en parallèle, des frictions très terre-à-terre sur les coûts, la confiance, et la sécurité. TrendTeller avec vous, et on se retrouve demain pour un nouveau tour d’horizon. Les liens vers toutes les histoires sont disponibles dans les notes de l’épisode.