Aller au contenu
    Entreprisma — Média entrepreneur
    EntreprismaLe média de l'entreprise française
    Définition

    Data poisoning

    Altération de données d’entraînement ou de référence afin de dégrader un modèle.

    Le "Data poisoning" est une technique d'attaque informatique qui vise à corrompre les données utilisées pour entraîner ou mettre à jour un modèle d'apprentissage automatique. L'objectif est de nuire à la performance ou à la fiabilité du modèle, voire de le forcer à prendre des décisions erronées ou malveillantes.

    Mécanismes d'attaque

    Les attaquants peuvent injecter des données falsifiées dans le jeu d'entraînement (empoisonnement par injection) ou manipuler les étiquettes associées aux données existantes (empoisonnement par altération des étiquettes). Dans le premier cas, de nouvelles entrées (par exemple, des images modifiées, des textes déformés) sont ajoutées. Dans le second, les classifications correctes sont modifiées pour induire le modèle en erreur. Ces altérations peuvent être subtiles et difficiles à détecter, surtout dans de grands ensembles de données.

    Impact sur les PME

    Pour une PME qui utilise des modèles d'IA pour des processus critiques (détection de fraude, recommandation de produits, gestion des stocks), le "Data poisoning" peut avoir des conséquences financières et réputationnelles significatives. Un modèle de détection de fraude empoisonné pourrait par exemple ignorer de véritables tentatives de fraude ou, à l'inverse, bloquer des transactions légitimes, entraînant des pertes directes ou une dégradation de l'expérience client.

    Prévention et détection

    La prévention repose sur plusieurs piliers : la sécurisation des chaînes d'approvisionnement des données, la validation rigoureuse des sources, et l'utilisation de techniques de détection d'anomalies sur les jeux de données. Des audits réguliers des données, des mécanismes de relooking (retrait de données suspectes) et l'entraînement de modèles sur des sous-ensembles de données robustes peuvent contribuer à mitiger ce risque. L'intégration de techniques d'apprentissage fédéré ou de differential privacy peut également renforcer la résilience des modèles face à ces attaques en limitant l'exposition des données brutes.

    Exemple concret

    Une PME française spécialisée dans la vente en ligne de produits artisanaux (chiffre d'affaires annuel de 3 millions d'euros) utilise un algorithme de recommandation pour suggérer des articles à ses clients. Un concurrent malveillant ou un ancien employé mécontent pourrait intentionnellement injecter des données d'achat fictives et incohérentes dans la base de données d'entraînement. Par exemple, il pourrait simuler des achats massifs de produits sans rapport entre eux pour un même client. Cette attaque, si elle n'est pas détectée, dégraderait l'efficacité du système de recommandation, réduisant les ventes additionnelles générées directement par l'algorithme, estimées à 15 % du chiffre d'affaires. Sur une année, cela représenterait une perte potentielle de 450 000 euros.

    Erreurs fréquentes à éviter

    • Ne pas authentifier et tracer l'origine de toutes les données d'entraînement, en particulier celles provenant de sources externes.
    • Sous-estimer l'impact d'une faible quantité de données corrompues sur la performance globale d'un modèle d'IA.
    • Se concentrer uniquement sur la performance initiale du modèle sans mettre en place de surveillance continue de la qualité des données en production.

    Questions fréquentes sur Data poisoning

    Qu'est-ce que Data poisoning ?

    Altération de données d’entraînement ou de référence afin de dégrader un modèle.

    Sources de référence

    Catégorie : IA, data et automatisation · Mis à jour le 7 juin 2026

    Articles sur Data poisoning

    Retour au glossaire complet

    Nous utilisons des cookies pour mesurer l'audience et améliorer votre expérience. Vous pouvez paramétrer vos choix ou tout accepter/refuser. En savoir plus