Claude apprend à utiliser un PC & Perplexity lance un travailleur numérique - Actualités IA (27 févr. 2026)

Et si le prochain bond de l’IA ne venait pas d’un nouveau benchmark… mais d’un modèle capable de piloter vos logiciels comme vous, clavier et souris compris — au point d’approcher des performances “niveau humain” sur des tableurs et des formulaires web complexes ? Bienvenue dans The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 27 février 2026, et aujourd’hui on va parler d’une tendance qui se confirme: l’IA quitte la fenêtre de chat pour entrer dans les applications, les VM, les navigateurs, et même… dans les infrastructures géopolitiques les plus sensibles.

Claude apprend à utiliser un PC

On commence avec l’annonce la plus structurante du jour: Anthropic rachète Vercept pour accélérer les capacités de “computer use” de Claude. L’idée est simple à formuler, mais ambitieuse à réaliser: le modèle ne se contente plus de produire du code ou du texte, il opère dans des applications réelles, comme un humain devant un bureau: ouvrir des onglets, naviguer dans des interfaces, remplir des formulaires, manipuler des feuilles de calcul, et enchaîner des étapes sans perdre le fil. Anthropic explique que ses utilisateurs s’appuient de plus en plus sur Claude pour du travail complexe — dépôts de code volumineux, synthèse de recherche multi-sources, coordination d’outils et d’équipes — et que certaines tâches ne se résolvent pas “code-only”. Chiffre marquant: sur OSWorld, leur score sur les modèles Sonnet serait passé de moins de 15% fin 2024 à 72,5% aujourd’hui. Sonnet 4.6, fraîchement lancé, serait proche du niveau humain sur des parcours pénibles du quotidien: tableurs compliqués, formulaires web à travers plusieurs onglets. Vercept, fondée par des profils très “voir et agir” dans le logiciel, arrête son produit externe dans les prochaines semaines pour rejoindre Anthropic.

Perplexity lance un travailleur numérique

Dans la même veine — mais avec une ambition produit très frontale — Perplexity dévoile “Perplexity Computer”. Le positionnement: au-delà des chatbots et des agents mono-tâche, un “travailleur numérique” généraliste capable de porter des workflows entiers sur la durée: de quelques heures… à plusieurs mois. Leur thèse est intéressante: les modèles sont devenus tellement capables que le goulot d’étranglement, c’est l’interface produit. Et leur réponse, c’est l’orchestration: plutôt qu’un modèle unique qui fait tout, un chef d’orchestre qui distribue le travail à des modèles spécialisés. Concrètement, Perplexity Computer décompose un objectif en tâches et sous-tâches, lance des sous-agents qui font de la recherche web, rédigent des documents, traitent des données, appellent des API connectées, et coordonne tout ça de façon asynchrone. Le tout tourne dans un environnement isolé avec vrai navigateur, vrai système de fichiers et intégrations — présenté comme une “harness” plus sûre, sans installation locale. Ils annoncent Opus 4.6 comme moteur de raisonnement principal, et l’orchestration d’autres modèles selon le besoin — Gemini pour la deep research et la création de sous-agents, Grok pour les tâches rapides, ChatGPT 5.2 pour la mémoire long contexte, plus des modèles image/vidéo. Disponible dès maintenant pour les abonnés Max, et une version Enterprise Max “bientôt”.

Agents de dev en VM

Et côté développement logiciel, Cursor pousse très loin le curseur — justement — avec une extension majeure de ses cloud agents. Désormais, les agents peuvent tourner dans leurs propres machines virtuelles et contrôler un bureau distant complet. Le point clé: un agent qui ne peut pas exécuter le logiciel qu’il modifie finit par plafonner. Avec ces VM, l’agent teste, navigue dans une UI, et produit des preuves: vidéos, captures, logs. Cursor dit que ses agents sont accessibles depuis le web, mobile, l’app desktop, Slack et GitHub, et qu’ils peuvent “onboarder” un codebase pour sortir des pull requests prêtes à merger. Vous pouvez même prendre la main sur le bureau distant de l’agent pour vérifier le résultat sans checkout local. Cursor affirme qu’en interne, plus de 30% des PR mergées sont désormais créées de façon autonome dans des sandboxes cloud. Et ils donnent un exemple qui pique la curiosité: un agent lancé depuis Slack a reproduit une vulnérabilité d’exfiltration via clipboard, en construisant une démo, en lançant un serveur local, et en enregistrant tout le scénario en vidéo.

Fiabilité réelle des IA codeuses

Tout ça rejoint un débat très “terrain” sur ce que veut dire “bon en code”. Un auteur, utilisateur quotidien d’outils de coding, explique pourquoi il revient systématiquement à Claude Code après des essais avec Gemini, Codex et divers modèles open source. Son diagnostic: les benchmarks récompensent souvent des solutions isolées — fonctions type HumanEval, problèmes LeetCode, et même des patchs sur des issues à la SWE-bench — mais ils capturent mal la réalité: un long workflow interactif de 20 étapes, où il faut choisir les bons fichiers, modifier sans casser le contexte, gérer les erreurs, ne pas réécrire la moitié du repo “au passage”, et surtout savoir quand poser une question. Selon lui, l’avantage de Claude tient moins à la “brute intelligence” qu’à une discipline de processus: rester aligné, éviter les boucles, communiquer clairement, et récupérer après un échec. Il note aussi que Codex s’améliore vite, et que Gemini brille sur des tâches bien spécifiées, mais souffre davantage en autonomie multi-étapes. Moralité: la fiabilité de workflow devient une métrique aussi importante que la qualité de sortie.

Python pour Apple Intelligence

Petite surprise côté Apple: la marque publie python-apple-fm-sdk, un repo GitHub avec des bindings Python pour le framework Foundation Models — autrement dit, un accès Python au modèle on-device au cœur d’Apple Intelligence sur macOS. L’intérêt n’est pas seulement de “faire du prompt” en Python, mais de tester et d’évaluer: inférence locale, génération en streaming, et surtout “guided generation” pour imposer des schémas de sortie structurés. Apple cible aussi l’analyse de lots, par exemple traiter des transcriptions exportées depuis des apps Swift pour mesurer la qualité. Prérequis: macOS 26, Xcode 26, Python 3.10+, Apple Intelligence activé, et c’est en bêta. C’est un signal: Apple veut que les développeurs puissent instrumenter et auditer le comportement du modèle, pas seulement l’intégrer dans une UI.

Maths: benchmarks dépassés vite

Passons aux maths, parce que là aussi, l’actualité raconte une histoire claire: les benchmarks deviennent vite obsolètes. FrontierMath, lancé fin 2024 par Epoch AI, avait été conçu pour rester difficile — au point d’ajouter un “tier 4” très corsé. Pourtant, début 2026, des modèles publics comme GPT-5.2 et Claude Opus 4.6 dépasseraient déjà 40% sur les tiers 1 à 3, et plus de 30% sur le tier 4. En parallèle, la communauté tente des formats plus réalistes avec “First Proof”: des questions de recherche avec des preuves courtes, non publiées à l’avance. Et DeepMind publie un papier arXiv affirmant que son agent Aletheia, basé sur Gemini 3 Deep Think, a résolu de façon autonome 6 problèmes sur 10 selon un jugement majoritaire d’experts — avec un désaccord notable sur un des problèmes. Le détail important, c’est la transparence: prompts et sorties brutes sont publiés. On voit se dessiner le futur des évaluations: moins de QCM mathématiques, plus de “travail de recherche sous contraintes” et de traçabilité.

Vision et images: Nano Banana 2

Côté génération d’images, Google DeepMind annonce Nano Banana 2 — aussi appelé Gemini 3.1 Flash Image. Le pitch: rapprocher la qualité “Pro” de Nano Banana Pro, mais avec la vitesse et l’itération rapide de Flash. Améliorations mises en avant: rendu du texte plus précis (un classique qui fait souvent défaut), traduction et localisation du texte dans l’image, contrôle plus fin des consignes, et cohérence de sujet — jusqu’à cinq personnages — ainsi que la fidélité d’objets dans un workflow. Autre point clé: le modèle est “grounded” via la recherche web, donc il peut s’appuyer sur des infos et images récentes pour coller à des sujets spécifiques. Et Google renforce la provenance: association de SynthID avec des Content Credentials C2PA, et déjà plus de 20 millions d’usages de vérification SynthID dans l’app Gemini depuis novembre. Le déploiement commence le 26 février dans Gemini, Search, Lens, AI Studio, l’API Gemini, Vertex AI et même Google Ads pour des suggestions d’images de campagne.

Serveurs de modèles et crédits GPU

Sur l’infrastructure de déploiement des modèles, FriendliAI pousse deux messages en même temps: d’un côté, un catalogue massif — plus de 510 000 modèles open source annoncés comme déployables, avec des options serverless, dédié, ou container, couvrant texte, vision, audio et multimodal. De l’autre, une incitation commerciale très directe: une offre “Switch to FriendliAI” avec jusqu’à 50 000 dollars de crédits d’inférence pour migrer, en promettant peu de changements dans la stack, des gains de perf et des économies GPU, plus autoscaling et intégrations Hugging Face / Weights & Biases. C’est révélateur de la phase actuelle du marché: le différenciateur n’est pas seulement le modèle, mais la logistique d’inférence, le coût unitaire et la vitesse de mise en prod.

Monétisation: facturation runtime IA

Et justement, quand on parle coûts, Metronome publie un livre blanc qui attaque un problème très concret: la facturation des produits IA, où le pricing est multidimensionnel (modèle, région, latence, complexité…) et souvent basé sur l’usage ou des crédits. Leur argument: les outils hérités du SaaS “au siège” cassent dès qu’on veut faire évoluer les prix en continu, gérer des commits, des overages, ou donner un niveau de transparence “événement par événement” sur la facture. Metronome propose une architecture de “billing runtime”: un moteur de pricing centralisé et versionné, plus un moteur de calcul de facture en continu. Le test qu’ils donnent est presque brutal: si vous ne pouvez pas lancer demain une nouvelle fonctionnalité IA avec un prix par tokens/modèle/région sans créer une forêt de SKUs ni retoucher des tableurs, vous êtes encore sur une architecture legacy.

IA, défense et aide humanitaire

Un mot sur la QA: Checksum.ai met en avant un discours “QA autonome” et une promesse de réduction de coûts — jusqu’à 80% — en critiquant les approches historiques type Selenium/Cypress et en poussant l’auto-healing de tests. Leur page propose même un calculateur de gains, ce qui dit beaucoup sur l’époque: la qualité devient une question d’économie opérationnelle, pas seulement de “bonnes pratiques”.

Open-source mobile: postmarketOS anti-IA

On termine avec les sujets plus lourds, où l’IA n’est plus un outil de productivité mais un élément d’infrastructure politique. D’abord, Drop Site News affirme que Palantir dispose d’un bureau permanent au sein du CMCC, un centre civil-militaire dans le sud d’Israël, et fournirait une infrastructure data/IA utilisée pour suivre les convois d’aide et leur distribution à Gaza, avec surveillance drone et intégration dans les systèmes Palantir. Des critiques dénoncent une militarisation et une marchandisation de l’aide, avec le risque théorique que des données logistiques — routes, points de distribution — puissent s’aligner avec des usages militaires, vu l’interopérabilité des plateformes. La rapporteuse spéciale de l’ONU Francesca Albanese parle d’un “système parallèle” motivé par le profit. Le même dossier mentionne que de nombreuses ONG pourraient être écartées dès le 1er mars 2026 via de nouvelles règles d’enregistrement exigeant des données personnelles du personnel et des détails sensibles sur opérations et financements.

DeepSeek et la géopolitique des puces

Et dans un autre registre, Axios décrit une tension entre Anthropic et le Pentagone autour des restrictions d’usage de Claude. Anthropic aurait signé un contrat conséquent en 2025 pour déployer Claude dans des systèmes classifiés, puis cherché à renégocier des limites afin d’éviter des usages qu’ils jugent incompatibles avec leurs “lignes rouges” — pendant que le Pentagone défend l’idée que l’État décide de l’usage des outils qu’il achète. On parle même de menaces administratives comme un label de “supply chain risk”. Au fond, la question dépasse Anthropic: qui fixe les garde-fous des modèles en contexte militaire et de surveillance — des contrats au cas par cas, ou une gouvernance démocratique avec transparence et règles stables ?

Publicité tech: TLDR newsletters

En vrac, deux actus rapides pour finir. postmarketOS publie sa mise à jour de février 2026: noyaux génériques, CI matériel améliorée, et une politique qui interdit explicitement l’IA générative — choix rare, mais cohérent avec une volonté de clarté pour les contributeurs. Et Reuters rapporte que DeepSeek n’aurait pas donné d’accès anticipé à Nvidia et AMD pour optimiser son futur modèle, en privilégiant des fournisseurs domestiques comme Huawei; le tout sur fond d’allégations autour de l’usage de puces Nvidia Blackwell en Chine et de débats sur les contrôles à l’export. Enfin, TLDR continue de monétiser l’attention: placements sponsorisés dans un portefeuille de newsletters ciblées, avec une audience revendiquée de plusieurs millions de professionnels tech.

Voilà pour l’essentiel de l’actualité IA d’aujourd’hui, entre agents qui manipulent nos logiciels, outils de dev qui s’exécutent en VM, et une réalité plus politique où les mêmes plateformes data se retrouvent au cœur de choix de gouvernance. Je suis TrendTeller, et vous écoutiez The Automated Daily, AI News edition. Les liens vers toutes les histoires mentionnées sont disponibles dans les notes de l’épisode.

Claude apprend à utiliser un PC & Perplexity lance un travailleur numérique - Actualités IA (27 févr. 2026)

Our Sponsors

Today's AI News Topics