Entreprisma — Le media des entrepreneurs francais

Entreprisma

Définition

Data poisoning

Altération de données d’entraînement ou de référence afin de dégrader un modèle.

Le "Data poisoning" est une technique d'attaque informatique qui vise à corrompre les données utilisées pour entraîner ou mettre à jour un modèle d'apprentissage automatique. L'objectif est de nuire à la performance ou à la fiabilité du modèle, voire de le forcer à prendre des décisions erronées ou malveillantes.

Mécanismes d'attaque

Les attaquants peuvent injecter des données falsifiées dans le jeu d'entraînement (empoisonnement par injection) ou manipuler les étiquettes associées aux données existantes (empoisonnement par altération des étiquettes). Dans le premier cas, de nouvelles entrées (par exemple, des images modifiées, des textes déformés) sont ajoutées. Dans le second, les classifications correctes sont modifiées pour induire le modèle en erreur. Ces altérations peuvent être subtiles et difficiles à détecter, surtout dans de grands ensembles de données.

Impact sur les PME

Pour une PME qui utilise des modèles d'IA pour des processus critiques (détection de fraude, recommandation de produits, gestion des stocks), le "Data poisoning" peut avoir des conséquences financières et réputationnelles significatives. Un modèle de détection de fraude empoisonné pourrait par exemple ignorer de véritables tentatives de fraude ou, à l'inverse, bloquer des transactions légitimes, entraînant des pertes directes ou une dégradation de l'expérience client.

Prévention et détection

La prévention repose sur plusieurs piliers : la sécurisation des chaînes d'approvisionnement des données, la validation rigoureuse des sources, et l'utilisation de techniques de détection d'anomalies sur les jeux de données. Des audits réguliers des données, des mécanismes de relooking (retrait de données suspectes) et l'entraînement de modèles sur des sous-ensembles de données robustes peuvent contribuer à mitiger ce risque. L'intégration de techniques d'apprentissage fédéré ou de differential privacy peut également renforcer la résilience des modèles face à ces attaques en limitant l'exposition des données brutes.

Exemple concret

Une PME française spécialisée dans la vente en ligne de produits artisanaux (chiffre d'affaires annuel de 3 millions d'euros) utilise un algorithme de recommandation pour suggérer des articles à ses clients. Un concurrent malveillant ou un ancien employé mécontent pourrait intentionnellement injecter des données d'achat fictives et incohérentes dans la base de données d'entraînement. Par exemple, il pourrait simuler des achats massifs de produits sans rapport entre eux pour un même client. Cette attaque, si elle n'est pas détectée, dégraderait l'efficacité du système de recommandation, réduisant les ventes additionnelles générées directement par l'algorithme, estimées à 15 % du chiffre d'affaires. Sur une année, cela représenterait une perte potentielle de 450 000 euros.

Erreurs fréquentes à éviter

Ne pas authentifier et tracer l'origine de toutes les données d'entraînement, en particulier celles provenant de sources externes.
Sous-estimer l'impact d'une faible quantité de données corrompues sur la performance globale d'un modèle d'IA.
Se concentrer uniquement sur la performance initiale du modèle sans mettre en place de surveillance continue de la qualité des données en production.

Questions fréquentes sur Data poisoning

Qu'est-ce que Data poisoning ?

Altération de données d’entraînement ou de référence afin de dégrader un modèle.

Sources de référence

Catégorie : IA, data et automatisation · Mis à jour le 7 juin 2026

Articles sur Data poisoning

IA & Défense : Le Playbook du Pentagone pour les PME Françaises

Retour au glossaire complet