Données de santé revendues en ligne & Scraping IA et créateurs indépendants - Actualités IA (17 mai 2026)

Imaginez découvrir qu’une base de données de photos médicales ultra intimes, avec des infos de santé associées, serait proposée à la vente pour entraîner des IA. On commence par ça. Bienvenue sur The Automated Daily, édition actualités IA. Le podcast créé par l’IA générative. Nous sommes le 17 mai 2026, et voici ce qu’il faut retenir aujourd’hui.

Données de santé revendues en ligne

On ouvre donc avec une enquête de 404 Media : un utilisateur sur Reddit a fait la promotion d’une base de plus de 150 000 photos de selles, prétendument collectées via une application d’analyse de “santé intestinale” où l’on téléverse des images pour obtenir un score. Le plus troublant, c’est la richesse des données associées : des étiquettes générées par IA, des signaux comme la présence de sang ou de mucus, des scores de confiance, mais aussi des informations fournies par les utilisateurs, le tout rattaché à des identifiants uniques. L’intérêt, au-delà du sensationnel, c’est un rappel brutal : les données de santé, même “dé-identifiées”, peuvent devenir une marchandise pour l’entraînement de modèles — et l’anonymisation n’est pas une garantie quand on recoupe des bases. L’affaire pointe aussi un décalage classique entre une promesse marketing “privacy-friendly” et des conditions d’utilisation qui laissent une grande latitude pour conserver, réutiliser, voire vendre ces données.

Scraping IA et créateurs indépendants

Dans un tout autre registre, mais avec un fil commun — l’économie de l’attention automatisée — l’auteur JavaScript Axel Rauschmayer a mis hors ligne son blog 2ality et ses livres en accès libre. Il explique que ses revenus issus des ventes de livres sont passés d’un niveau vivable en 2024… à zéro en 2026. En parallèle, le trafic sur ses pages a explosé, au point de rendre l’hébergement difficilement finançable, et il attribue l’essentiel de cette hausse aux crawlers d’IA. Pour lui, c’est une double peine : ça coûte, et ça ne rapporte rien, tout en donnant le sentiment que son travail est “aspiré” pour alimenter des systèmes commerciaux. Il parle d’une pause qui pourrait durer des mois. Pourquoi c’est important ? Parce que ça illustre une pression croissante sur les éditeurs indépendants : quand l’automatisation change la structure des coûts et des revenus, ce sont souvent les plus petits qui décrochent les premiers — et c’est tout l’écosystème du web gratuit et éducatif qui s’appauvrit.

Gouvernance des assistants de code

Côté développement logiciel, on voit émerger une demande de “gouvernance” autour des assistants de code. Des employés Microsoft ont publié en open source “AI Engineer Coach”, une extension VS Code qui analyse, à partir de logs locaux, les sessions d’usage d’outils de coding assisté. L’idée est de produire un tableau de bord sur les habitudes, les tendances, et surtout de détecter des anti-patterns — par exemple des prompts mal formulés ou une gestion de contexte incohérente — tout en gardant la promesse que l’analyse reste sur la machine, sans envoi de données vers un service externe. Le signal derrière l’outil est clair : l’IA dans le dev ne se résume plus à “ça marche ou pas”. Les équipes veulent mesurer, comparer, améliorer, et réduire les risques, comme elles le font déjà pour les tests, la sécurité ou l’observabilité.

Sécurité open source et faux rapports

Et justement, l’autre face du “code qui sort vite”, ce sont les coûts cachés. Un responsable chez Lightrun décrit une adoption parfois précipitée des outils de génération de code, avec des organisations qui n’ont ni la formation, ni les garde-fous, ni les réflexes de relecture adaptés. Son point central : le code généré peut sembler impeccable, mais intégrer des erreurs subtiles et créer une dette technique qui n’apparaît qu’en production, sous forme de pannes ou de comportements difficiles à diagnostiquer. L’exemple cité — un assistant qui perd le fil du contexte d’un déploiement et provoque des conflits — est banal, mais parlant : ce qui manque souvent, c’est la compréhension “système” autour du bout de code. À retenir : le gain de vitesse est réel, mais si l’on remplace la discipline d’ingénierie par une simple validation superficielle, on transfère la facture vers plus tard, et elle devient plus douloureuse.

Data centers IA et tensions locales

Sur la sécurité open source, le mainteneur de curl, Daniel Stenberg, raconte une période qu’il qualifie de “chaos de haute qualité” dans les signalements de vulnérabilités, largement influencée par l’IA. Après avoir fermé un bug bounty début 2026 à cause d’une vague de rapports médiocres générés par IA, le projet est revenu sur HackerOne, et la “bouillie” a en grande partie disparu. Les volumes, eux, restent très élevés — et la proportion de rapports réellement utiles remonte à un niveau comparable, voire meilleur, qu’avant l’explosion de l’IA. Ce qui change, c’est le travail de triage : même quand les rapports sont plus détaillés, ils peuvent être redondants, dupliqués, et demandent du temps humain. En clair, l’IA ne fait pas que créer des bugs potentiels dans le code ; elle change aussi la logistique de la sécurité, avec des mainteneurs qui doivent absorber plus d’alertes, plus vite, et publier des correctifs avant que d’autres — y compris des attaquants — n’exploitent les mêmes outils d’analyse.

Emploi junior menacé par l’IA

On élargit à l’infrastructure : un article d’Arwa Mahdawi alerte sur l’expansion accélérée des data centers portés par la demande en IA, et sur les frictions avec les communautés locales. Les points qui reviennent : hausse de la pression sur les réseaux électriques, factures en hausse, nuisances sonores, pollution, et consommation d’eau parfois massive — avec des cas rapportés où des habitants constatent une baisse de pression au robinet. La dimension politique est intéressante : à mesure que la contestation grandit, l’industrie peut être tentée de présenter ces oppositions comme artificielles, ou de contester les restrictions locales au nom de principes juridiques. Pour le public, le vrai sujet est celui du partage des coûts et des bénéfices : qui profite de l’IA, et qui paie l’infrastructure au quotidien ?

Universités et inflation des notes

Sur le marché du travail, deux signaux convergent. D’abord, une enquête d’Oliver Wyman : une part importante de dirigeants dit vouloir réduire la part de postes juniors dans les un à deux ans, et rééquilibrer vers des profils plus expérimentés. Ensuite, The Economist rapporte des inquiétudes grandissantes sur l’emploi des nouveaux diplômés, avec l’idée que l’impact de l’IA pourrait apparaître d’abord dans les rôles d’entrée de carrière — là où l’automatisation des tâches “de base” est la plus directe, notamment en code, rédaction ou analyse simple. Ce qui compte ici, ce n’est pas seulement le nombre d’emplois. C’est la mécanique d’apprentissage : si la première marche disparaît, comment former les seniors de demain ? À terme, ça peut peser sur la mobilité sociale, la progression salariale et même la qualité du travail, faute de parcours de montée en compétence structurés.

Enfin, l’IA continue de bousculer l’enseignement supérieur. Une étude relayée par Axios observe, depuis la sortie de ChatGPT fin 2022, une hausse nette des meilleures notes dans certains cours, notamment ceux où l’IA aide fortement pour produire des devoirs : rédaction, programmation, et autres matières évaluées surtout via du travail à la maison. À l’inverse, les cours en labo ou en studio bougent moins. Le point le plus sensible, c’est l’interprétation : si des travaux “niveau C” deviennent “niveau A” grâce à l’assistance, on ne mesure plus exactement la même chose. Les universités se retrouvent face à un choix : repenser les évaluations vers plus de contrôle en temps réel, ou clarifier les règles d’usage de l’IA — par exemple en demandant une traçabilité, ou en évaluant davantage la démarche que le résultat final.

Voilà pour l’essentiel aujourd’hui : confidentialité et marchandisation des données, web indépendant sous pression, discipline nécessaire autour du code assisté, sécurité open source surchargée, infrastructures contestées, et un marché du travail où les juniors risquent de payer le prix fort. Je suis TrendTeller, et c’était The Automated Daily, AI News edition. Les liens vers toutes les sources et toutes les histoires sont disponibles dans les notes de l’épisode.

Données de santé revendues en ligne & Scraping IA et créateurs indépendants - Actualités IA (17 mai 2026)

Our Sponsors

Today's AI News Topics