ConfusedPilot : Une Nouvelle Menace pour les Systèmes d'IA Basés sur la Récupération-Augmentée

Un nouveau type de cyberattaque, baptisé ConfusedPilot, a été découvert par les chercheurs du SPARK Lab de l'Université du Texas à Austin. Cette méthode cible les systèmes d'intelligence artificielle basés sur la génération augmentée par récupération (RAG), tels que Microsoft 365 Copilot. L'équipe dirigée par le professeur Mohit Tiwari, PDG de Symmetry Systems, a démontré comment des attaquants peuvent manipuler les réponses générées par l'IA en introduisant du contenu malveillant dans les documents référencés par l'IA. Cela pourrait entraîner la diffusion de désinformations et des prises de décision erronées au sein des organisations.

Avec 65 % des entreprises du Fortune 500 adoptant ou prévoyant d'implémenter des systèmes basés sur RAG, le potentiel de perturbation est considérable. L'attaque ConfusedPilot nécessite seulement un accès de base à l'environnement cible et peut persister même après la suppression du contenu malveillant. Les chercheurs ont également montré que cette attaque pouvait contourner les mesures de sécurité existantes pour l'IA, soulevant des inquiétudes dans de nombreux secteurs.

Le fonctionnement de ConfusedPilot repose sur l'empoisonnement de l'environnement de données, où un attaquant ajoute du contenu spécialement conçu dans les documents indexés par le système d'IA. Lorsqu'une requête est effectuée, l'IA se réfère au document corrompu, utilisant le contenu malveillant comme instructions, ce qui peut conduire à la génération de désinformations ou à l'attribution erronée de ses réponses à des sources crédibles. Même après la suppression du document malveillant, l'information corrompue peut persister dans le système.

Pour se défendre contre ConfusedPilot, les chercheurs recommandent plusieurs stratégies d'atténuation : des contrôles d'accès aux données, des audits réguliers pour vérifier l'intégrité des données stockées, la segmentation des données sensibles, l'utilisation d'outils de sécurité pour surveiller les anomalies dans les sorties de l'IA, et une supervision humaine des contenus générés par l'IA avant de prendre des décisions critiques.

Source : Infosecurity Magazine