AI News · 24 avril 2026 · 8:57

Fuite d’un nouveau modèle d’images & Agents IA en entreprise: OpenAI - Actualités IA (24 avr. 2026)

Agents IA en entreprise chez OpenAI et Google, fuite “GPT Image 2”, 75% du code de Google généré par IA, et l’affaire du faux loup.

Fuite d’un nouveau modèle d’images & Agents IA en entreprise: OpenAI - Actualités IA (24 avr. 2026)
0:008:57

Our Sponsors

Today's AI News Topics

  1. Fuite d’un nouveau modèle d’images

    — Des indices sur “GPT Image 2” apparaissent via LM Arena et des traces dans ChatGPT, avec un enjeu: remplacer DALL‑E avant son arrêt. Mots-clés: génération d’images, texte dans l’image, watermarking, EU AI Act.
  2. Agents IA en entreprise: OpenAI

    — OpenAI lance en aperçu des “workspace agents” dans ChatGPT: des agents partagés, persistants, capables d’agir via outils et code dans le cloud, sous contrôles entreprise. Mots-clés: agents, workflows, permissions, Compliance API, sécurité.
  3. Plateformes d’agents: Google Cloud

    — Google Cloud dévoile la Gemini Enterprise Agent Platform, une couche unifiée pour construire, déployer et gouverner des agents avec identité, registre et passerelle de sécurité. Mots-clés: Vertex AI, gouvernance, observabilité, prompt injection, production.
  4. IA dans Google Workspace

    — Google pousse “Workspace Intelligence” pour relier mails, chats et fichiers en contexte commun, afin que Gemini puisse agir à travers Docs, Sheets, Gmail et Drive. Mots-clés: contexte sémantique, conformité, chiffrement, souveraineté des données.
  5. Coder avec l’IA: adoption massive

    — Google affirme que 75% de son nouveau code est généré par l’IA puis revu, pendant que Microsoft préparerait une facturation Copilot au token. Mots-clés: agentic workflows, productivité, coûts GPU, gouvernance usage.
  6. Fiabilité des agents et documentation

    — Deux signaux sur la fiabilité: Augment mesure l’impact réel des fichiers AGENTS.md, et Garry Tan propose de transformer chaque incident en “skill” testée comme du logiciel. Mots-clés: tests, procédures, QA, anti-patterns, robustesse.
  7. Benchmarks: mesurer les vrais agents

    — Applied Compute critique les benchmarks d’inférence trop “one-shot” et publie des profils réalistes d’agents multi-tours avec outils, où le cache KV devient le goulot. Mots-clés: latence p99, KV cache, concurrence, vLLM, SGLang.
  8. Recherche IA: entraînement et personnalisation

    — Perplexity décrit une recette post-training pour des agents de recherche fiables et sobres en appels outils, tandis qu’un article recadre la personnalisation comme variation contrainte autour d’un noyau stable. Mots-clés: RL, SFT, tool budget, intent, visibilité éditeurs.
  9. Mésinformation: faux loup généré

    — En Corée du Sud, une fausse image générée d’un loup échappé a détourné des ressources publiques et déclenché une alerte aux habitants. Mots-clés: deepfakes, crise, confiance, preuves, responsabilité.
  10. Financement infrastructure données IA

    — Vast Data lève 1 milliard de dollars avec Nvidia et grimpe à 30 milliards de valorisation, illustrant l’appétit pour les “pelles et pioches” de l’IA. Mots-clés: stockage, données, GPU, infrastructure, financement.

Sources & AI News References

Full Episode Transcript: Fuite d’un nouveau modèle d’images & Agents IA en entreprise: OpenAI

On a peut-être déjà vu le successeur de DALL‑E… sans qu’OpenAI ne le reconnaisse officiellement. Des traces d’un modèle d’image “version 2” ont brièvement surgi dans un benchmark public, puis ont disparu, et ça tombe juste avant une date de coupure très concrète. Bienvenue dans The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Je suis TrendTeller, et nous sommes le 24 avril 2026. Aujourd’hui, on parle d’agents IA qui s’installent au cœur des entreprises, de la façon dont les géants industrialisent le code assisté par IA, et d’un rappel très terre-à-terre: une simple image générée peut déclencher une vraie opération d’urgence.

Fuite d’un nouveau modèle d’images

On commence par l’image, parce que le timing est explosif. OpenAI aurait brièvement mis en ligne, de façon anonyme, plusieurs modèles de génération d’images sur LM Arena début avril. La communauté a rapidement fait le lien, et les modèles ont été retirés en moins de deux jours. Depuis, les développeurs parlent d’un “GPT Image 2”. Ce qui intrigue, ce sont les indices qui s’accumulent: chaînes de caractères repérées dans des applis mobiles, en-têtes techniques évoqués par certains tests, et surtout des sorties qui semblent mieux gérer le texte dans l’image, avec un rendu plus photoréaliste et plus rapide. Pourquoi c’est important? Parce que DALL‑E 2 et DALL‑E 3 doivent être arrêtés le 12 mai 2026. Sans remplaçant solide, la transition risque d’être brutale pour les usages pros. Et en toile de fond, les exigences de transparence de l’AI Act européen à partir d’août pourraient accélérer des fonctionnalités de provenance, comme le watermarking.

Agents IA en entreprise: OpenAI

Dans la même idée — l’IA qui passe de “répondre” à “agir” — OpenAI présente des “workspace agents” dans ChatGPT. En clair: des agents partagés, pensés pour des équipes, capables de mener des workflows longs, de garder un état, de tourner en arrière-plan ou à horaires fixes, et d’utiliser des outils connectés, y compris en exécutant du code. L’angle clé, c’est la gouvernance: ces agents sont censés respecter les permissions existantes de l’organisation, demander des validations quand une action est sensible, et s’intégrer à un suivi entreprise via des contrôles admin et des API de conformité. OpenAI met en avant des cas très concrets: tri de feedback produit depuis Slack vers des tickets, rapports hebdo de métriques, qualification de leads, ou clôture comptable. C’est un changement de posture: ChatGPT n’est plus seulement une interface de requêtes, mais un composant de processus internes.

Plateformes d’agents: Google Cloud

Google Cloud répond quasiment point pour point avec sa Gemini Enterprise Agent Platform, annoncée comme la nouvelle colonne vertébrale pour construire et opérer des agents en production. Google la présente comme l’évolution naturelle de Vertex AI — au point de dire que la feuille de route future passera par cette plateforme plutôt que par Vertex comme produit séparé. Ce qui retient l’attention côté entreprise, c’est l’empilement “ingénierie + contrôle”: un studio visuel et un kit orienté code pour créer les agents, un runtime fait pour démarrer vite et tenir des workflows sur plusieurs jours, et une mémoire persistante. Et surtout une gouvernance centralisée: identité d’agent, registre d’outils approuvés, passerelle qui applique des politiques de sécurité et des protections contre les fuites de données et les attaques de type prompt injection. Bref, Google acte que la question n’est plus seulement “quel modèle?”, mais “comment on déploie sans perdre la maîtrise?”.

IA dans Google Workspace

Et Google pousse aussi cette logique au niveau des applications de bureau. Avec “Workspace Intelligence”, l’ambition est de relier emails, chats, fichiers, projets et collègues dans une sorte de couche sémantique commune, pour que Gemini puisse comprendre le contexte d’une organisation et agir à travers Gmail, Docs, Sheets, Slides et Drive. L’intérêt, c’est la promesse d’un “poste de commande” dans Google Chat — demander un briefing, retrouver un document pertinent, préparer un contenu, planifier, sans naviguer dans dix onglets. Mais l’enjeu réel, c’est la confiance: quand l’IA raisonne sur des contenus sensibles, la conformité, le chiffrement et les options de souveraineté des données deviennent des arguments de vente autant que des garde-fous.

Coder avec l’IA: adoption massive

Côté développement logiciel, Google lâche un chiffre qui marque les esprits: environ 75% de son nouveau code serait désormais généré par l’IA, puis relu par des ingénieurs. C’est une accélération impressionnante par rapport à 2024 et 2025. Sundar Pichai relie ça à des “workflows agentiques”, où l’IA ne se contente pas de suggérer une fonction, mais prend en charge des tâches plus autonomes, comme des migrations internes complexes réalisées bien plus vite qu’avant. Et signe que l’IA devient un outil de management autant que de productivité: certains employés auraient des objectifs d’usage de l’IA qui comptent dans l’évaluation. À noter aussi, en arrière-plan, des tensions rapportées autour de l’usage de Claude Code par certaines équipes, preuve que même chez les géants, le choix des modèles est devenu politique.

Fiabilité des agents et documentation

Dans le même registre “industrialisation”, une fuite de documents internes suggère que Microsoft préparerait un basculement de GitHub Copilot vers une facturation davantage indexée sur les tokens dès juin. L’idée serait de garder un abonnement mensuel, mais avec un quota de tokens, et — point important pour les entreprises — une mutualisation au niveau de l’organisation. Ce changement dit deux choses: d’abord, les coûts de calcul restent un sujet brûlant, même à grande échelle. Ensuite, ça pourrait rendre la dépense plus difficile à anticiper pour les gros utilisateurs, et pousser les équipes à mettre en place des règles d’usage, des métriques, et peut-être des “budgets IA” par projet.

Benchmarks: mesurer les vrais agents

Alors, comment on rend ces agents plus fiables au quotidien? Deux lectures se complètent. D’un côté, Augment a mesuré l’impact réel de fichiers AGENTS.md — des guides conçus pour être “découverts” par les agents de code. Résultat: ça peut aider énormément… ou empirer la qualité, selon la structure. Les meilleurs documents seraient courts, orientés tâches, avec juste assez d’instructions et des renvois vers des références chargées seulement si nécessaire. À l’inverse, des pavés d’architecture et des listes de “ne fais pas” peuvent rendre l’agent trop prudent, trop exploratoire, et finalement incomplet. De l’autre côté, Garry Tan propose une discipline: transformer chaque échec réel d’un agent en “skill” durable, c’est-à-dire une procédure codifiée, testée, et intégrée à une chaîne d’évaluations — comme on le fait pour des bugs logiciels. L’idée est simple: arrêter de corriger au feeling avec des prompts, et rendre certains chemins d’erreur littéralement impossibles.

Recherche IA: entraînement et personnalisation

Pour savoir si tout ça tient la route en production, encore faut-il mesurer correctement. Applied Compute critique les benchmarks d’inférence qui ressemblent à un simple aller-retour prompt-réponse. Selon eux, les agents modernes, ce sont des sessions multi-tours, avec des appels outils, des pauses, des reprises, et des caches qui vivent longtemps. Résultat: les métriques pertinentes changent. Pour un agent en arrière-plan, ce qui compte, c’est la latence de bout en bout, surtout dans la queue de distribution — les p90, p99 qui cassent les SLA. Pour un agent interactif, c’est le temps avant le premier token utile et la fluidité du streaming. Ils publient des traces de charge “réalistes” et un harnais open source pour les rejouer. Conclusion intéressante: à forte concurrence, le cache KV devient un goulot, avec des évictions qui dégradent les performances. En clair, l’infrastructure doit s’adapter à des usages plus irréguliers et plus longs que les démos classiques.

Mésinformation: faux loup généré

Sur le front “recherche et réponses”, Perplexity détaille une méthode de post-training pour des modèles de recherche augmentée: consolider d’abord des comportements indispensables en production — suivre les consignes, savoir s’abstenir, rester cohérent — puis utiliser du RL pour gagner en précision et limiter les appels outils inutiles. Ce qui compte ici, ce n’est pas la recette exacte, mais le constat: optimiser un seul objectif casse souvent le reste, et il faut des garde-fous explicites pour éviter de sacrifier la sécurité ou la qualité rédactionnelle. Et en parallèle, un autre article recadre la “personnalisation” des réponses en recherche: elle n’est ni totalement sur-mesure, ni purement cosmétique. Les réponses varient, oui, mais autour d’un noyau stable, contraint par les mêmes modèles, la même récupération d’infos, et les mêmes limites de contexte. Pourquoi ça intéresse les éditeurs et les marques? Parce que la visibilité ne se joue plus seulement sur un classement fixe, mais sur des archétypes de réponses qui reviennent malgré la variation.

Financement infrastructure données IA

Un rappel brutal des risques de la génération d’images: en Corée du Sud, la police a arrêté un homme accusé d’avoir perturbé la recherche d’un loup échappé d’un zoo en diffusant une photo générée par IA, prétendument prise près d’un carrefour. L’image a circulé, les autorités ont redirigé leurs efforts et envoyé une alerte d’urgence aux habitants. Ensuite, vérification: c’était faux, via des caméras de surveillance et des traces d’usage de logiciels. Le suspect dit avoir fait ça “pour s’amuser”. Ce cas illustre un point très concret: quand une image synthétique ressemble à une preuve, elle peut déplacer des ressources publiques, créer de l’anxiété, et compliquer une situation déjà tendue. Les mécanismes de vérification et la traçabilité des contenus deviennent un sujet de sécurité civile, pas seulement un débat en ligne.

Avant de conclure, un mot sur l’infrastructure et l’argent, parce que ça conditionne tout le reste. Vast Data annonce une levée de 1 milliard de dollars, valorisant l’entreprise à 30 milliards, avec Nvidia parmi les investisseurs. Vast vend des logiciels de stockage et de gestion de données pour des charges IA massives. Le signal, c’est la continuité de la ruée vers les “pelles et pioches”: données, stockage, orchestration, tout ce qui permet d’alimenter les GPU et de tenir les pipelines. Dans un monde d’agents et de workflows longs, la donnée bien rangée, gouvernée et accessible vaut presque autant que le modèle.

C’est tout pour aujourd’hui. On voit se dessiner une même trajectoire chez OpenAI, Google et consorts: l’IA quitte le mode “assistant de chat” pour devenir un collègue logiciel qui exécute des processus, avec une vraie question de contrôle, de coûts et de responsabilité. TrendTeller, c’était The Automated Daily, AI News edition. Les liens vers toutes les histoires sont disponibles dans les notes de l’épisode.