Frappe en Iran et IA & Apple et accès à Gemini - Actualités IA (26 mars 2026)

Une frappe a tué des dizaines d’enfants dans une école en Iran… et une partie du débat public s’est mise à chercher si un chatbot avait « choisi la cible ». Ce décalage en dit long sur la manière dont on parle d’IA, et surtout sur ce qu’on évite de regarder. Bienvenue dans The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 26 mars 2026, et je suis TrendTeller. Aujourd’hui, on va parler d’IA dans la guerre, de Siri qui se prépare à une cure de LLM, d’agents de code plus autonomes — et des nouveaux garde-fous qui vont avec.

Frappe en Iran et IA

On commence par l’histoire la plus lourde de conséquences. Un article revient sur une frappe américaine du 28 février en Iran, qui a touché une école primaire à Minab et fait, selon les estimations, entre 175 et 180 morts. Sur les réseaux et jusque dans certains débats officiels, l’attention s’est vite fixée sur une question très « vendeur de clics »: est-ce que Claude, le modèle d’Anthropic, aurait “choisi” la cible ? Le papier explique que cette grille de lecture passe à côté du cœur du problème: la chaîne de ciblage industrialisée, alimentée par des bases de données et des “target packages”, où une erreur administrative — un bâtiment resté classé “militaire” — devient immédiatement létale quand tout est optimisé pour la vitesse. L’enjeu, c’est la responsabilité: qui valide, avec quels contrôles, et comment éviter que la compression de la décision transforme une approximation en tragédie.

Apple et accès à Gemini

Dans un registre plus institutionnel, mais tout aussi révélateur, une juge fédérale en Californie a laissé entendre que l’interdiction visant Anthropic par le gouvernement américain ressemblait à une représaille — donc potentiellement inconstitutionnelle. Le contexte: le Pentagone aurait banni l’entreprise en la qualifiant de risque pour la sécurité nationale, après un conflit contractuel rendu public. Si le tribunal confirme cette lecture, on touche à une ligne rouge: jusqu’où l’argument “sécurité nationale” peut-il aller quand il entre en collision avec la liberté d’expression et, plus largement, avec la capacité des fournisseurs d’IA à contester l’État sans se faire “punir” économiquement ?

Claude Code devient plus autonome

Passons aux plateformes grand public. Selon The Information, Apple aurait obtenu un “accès complet” au modèle Gemini, mais à l’intérieur même des data centers de Google. Ce n’est pas juste une intégration de plus: cet accès permettrait à Apple de distiller Gemini, c’est-à-dire d’utiliser ses réponses et ses traces de raisonnement pour entraîner des modèles plus petits, moins chers, et surtout adaptés à des tâches précises. Objectif: faire tourner davantage d’IA directement sur l’iPhone, même sans connexion, avec moins de latence et une promesse de confidentialité plus crédible. En filigrane, Apple semble jouer sur deux tableaux: s’appuyer sur Google pour accélérer la nouvelle Siri — annoncée comme plus “chatbot” à l’horizon iOS 27 — tout en continuant à pousser ses propres “foundation models” pour ne pas dépendre éternellement d’un concurrent.

Outils dev pensés pour agents

Apple est aussi dans l’actualité côté recherche fondamentale, avec un résultat contre-intuitif: certains modèles “de base”, avant l’instruction tuning, seraient capables de donner des estimations de confiance plutôt cohérentes… au niveau du sens, pas seulement de la probabilité du prochain mot. L’étude propose une façon de parler de “calibration sémantique” et suggère que des méthodes populaires de post-entraînement, comme le RLHF, peuvent au contraire dégrader cette fiabilité. Et même des techniques de prompting comme le chain-of-thought peuvent casser cette calibration. Pourquoi ça compte ? Parce que si on veut des assistants qui savent dire “je ne suis pas sûr”, la manière dont on entraîne et dont on interroge les modèles peut rendre cette modestie plus difficile, pas plus facile.

Compresser la mémoire des LLM

Côté agents de développement, Anthropic ajoute un nouveau compromis productivité-sécurité avec “auto mode” dans Claude Code. L’idée: réduire les interruptions où l’assistant demande une validation à chaque écriture de fichier ou commande shell, tout en gardant un contrôle automatique. Un classificateur passe en revue chaque action avant exécution et bloque les opérations à risque — suppression massive, exfiltration, exécution douteuse. C’est une étape importante parce que, dans la vraie vie, les équipes veulent des agents plus autonomes, mais elles ne veulent pas ouvrir la porte à un incident de production ou à une fuite. Anthropic reconnaît toutefois les limites: certains cas dangereux peuvent passer, et des actions inoffensives peuvent être bloquées, avec un peu plus de latence au passage.

Mieux entraîner le raisonnement RLVR

Toujours sur le thème “agents qui codent”, plusieurs signaux convergent: on est en train d’optimiser les outils, pas seulement les modèles. Un développeur a par exemple créé “nit”, un remplacement de Git écrit en Zig, pensé pour des agents IA: moins de verbosité, des sorties plus “machine-friendly”, donc moins de tokens et des boucles d’itération plus rapides. En parallèle, des projets comme Ossature mettent en avant une génération de code guidée par des spécifications et des validations, pour éviter le grand classique des agents: produire des modules qui se contredisent. Et Optio pousse l’idée jusqu’à l’intégration DevOps: un agent travaille dans un environnement isolé, ouvre une pull request, puis revient corriger quand la CI ou les reviews le demandent. Ce qui devient intéressant, ce n’est pas “l’IA écrit du code”, c’est “l’IA rentre dans les contraintes réelles du cycle de livraison”.

Évaluer les agents vocaux

Sur l’infrastructure des LLM, Google Research présente TurboQuant, une famille de techniques de quantification visant deux goulets d’étranglement: la mémoire des KV caches quand on sert des contextes longs, et la taille des index en recherche vectorielle. Le message est simple: on veut compresser fort sans casser la qualité. Si ces approches tiennent leurs promesses, elles peuvent réduire le coût par requête et rendre des contextes longs plus accessibles, notamment sur GPU où la mémoire est souvent la ressource qui plafonne avant le calcul. Pour beaucoup d’entreprises, c’est la différence entre “démonstration impressionnante” et “service viable à grande échelle”.

IA et santé: bataille de transparence

Dans la même veine “raisonnement et performance”, l’équipe Qwen d’Alibaba propose une manière originale d’analyser le RLVR, ces entraînements où l’on renforce des réponses vérifiables, notamment en maths. Leur point: il ne suffit pas de mesurer l’ampleur des changements de probabilité de tokens, il faut regarder la direction — quels tokens sont encouragés ou découragés. Ils introduisent un indicateur, Δlogp signé, qui mettrait en évidence une petite fraction de tokens critiques pour le raisonnement. Ce genre de résultat compte parce qu’il suggère des leviers concrets pour améliorer la fiabilité en raisonnement sans forcément tout réentraîner à grands frais — et aussi parce qu’il éclaire pourquoi certaines “petites astuces” de sampling peuvent faire chuter les performances de manière surprenante.

Anthropic face à l’État américain

Sur l’IA vocale, ServiceNow publie EVA, un cadre d’évaluation de bout en bout pour agents conversationnels au téléphone. L’intérêt, c’est qu’on ne juge pas seulement si la tâche est accomplie, mais aussi si l’échange est agréable et compréhensible à l’oral: concision, progression, timing des tours de parole, et même la fidélité des entités énoncées — typiquement un numéro de vol ou un code. Leur benchmark montre un trade-off assez constant: les systèmes qui “réussissent” mieux les tâches peuvent offrir une expérience plus pénible, et inversement. C’est un rappel utile: pour la voix, l’UX n’est pas un vernis, c’est une partie de la performance.

Usage de Claude: inégalités

Dans le secteur public, l’Electronic Frontier Foundation attaque en justice l’agence américaine CMS pour obtenir des documents sur WISeR, un pilote Medicare qui utilise l’IA pour évaluer des demandes de pré-autorisation de soins. L’EFF dit manquer d’informations essentielles: données d’entraînement, tests, audits, protections contre les biais, et même les incitations économiques des prestataires — avec l’accusation que certains pourraient être rémunérés en fonction des refus. Au-delà du cas américain, c’est un sujet universel: quand l’IA intervient dans l’accès aux soins, la transparence n’est pas un luxe, c’est une condition de légitimité, surtout si une erreur se traduit par un retard ou un refus.

OpenAI: méga-financement et contraintes

Autre indicateur social, plus “macro”: l’Economic Index d’Anthropic analyse environ un million de conversations et observe une diversification des usages côté grand public, tandis que certains usages de code migrent vers l’API et des workflows plus automatisés. Le rapport parle aussi de “courbes d’apprentissage”: les utilisateurs expérimentés obtiendraient de meilleurs résultats, plus souvent, et sur des tâches plus liées au travail ou à l’enseignement supérieur. La conséquence potentielle est assez claire: l’IA pourrait amplifier des écarts de productivité entre ceux qui apprennent vite à s’en servir — et ont accès aux meilleurs modèles — et ceux qui arrivent plus tard ou dans des contextes moins outillés.

Vers la fin du modèle App Store

Enfin, un mot sur le marché: la directrice financière d’OpenAI indique que l’entreprise a sécurisé 10 milliards de dollars supplémentaires, portant un tour déjà colossal au-delà de 120 milliards. En parallèle, elle évoque des contraintes de calcul et des arbitrages internes, jusqu’à mettre en pause certains produits. Le signal est double: d’un côté, l’appétit des investisseurs reste massif; de l’autre, même les acteurs les mieux financés sont rattrapés par la réalité matérielle — GPUs, énergie, capacité de déploiement — et doivent choisir où mettre leurs jetons.

Pour finir sur une idée plus prospective: une analyse avance que le modèle “App Store” — des humains qui téléchargent des apps — pourrait être bousculé par des agents qui accomplissent des tâches en appelant directement des APIs. Dans ce monde, la couche de connexion tend à devenir un standard ouvert, et la vraie bataille se déplacerait vers la découverte: qui recommande quel service à votre agent, dans quel ordre, et avec quelles incitations. Autrement dit, on pourrait remplacer un magasin d’apps par un système de ranking — et donc par de nouveaux débats sur le pouvoir de prescription, la publicité déguisée, et la gouvernance des intermédiaires.

C’est tout pour l’édition du 26 mars 2026. Si un fil conducteur se dessine, c’est celui-ci: l’IA devient plus autonome, plus intégrée, et plus “invisible”… ce qui rend les questions de contrôle, d’évaluation et de responsabilité encore plus centrales. Vous trouverez les liens vers toutes les histoires dans les notes de l’épisode. À demain pour un nouveau tour d’horizon.

Frappe en Iran et IA & Apple et accès à Gemini - Actualités IA (26 mars 2026)

Our Sponsors

Today's AI News Topics