Les défis de la cybersécurité dans les modèles de langage : le cas GPT-4o

Dans un article récent, Marco Figueroa, chercheur chez 0Din, a démontré comment le modèle de langage GPT-4o d'OpenAI peut être manipulé pour générer du code d'exploitation en encodant les instructions malveillantes en hexadécimal. Cette méthode permet de contourner les garde-fous de sécurité intégrés au modèle, ouvrant la voie à des utilisations malveillantes de l'IA. 0Din, la plateforme de bug bounty de Mozilla dédiée à l'IA générative, encourage les hackers éthiques à identifier ce type de vulnérabilités dans les produits et services GenAI.

Figueroa a révélé une faille majeure dans le modèle de langage d'OpenAI, permettant de générer du code Python fonctionnel pour exploiter la vulnérabilité critique CVE-2024-41110 dans Docker Engine. Cette vulnérabilité, notée 9,9 sur 10 en termes de gravité CVSS, a été corrigée en juillet 2024. Le code généré par GPT-4o est presque identique à un exploit de preuve de concept développé précédemment par Sean Kilfoy.

L'attaque repose sur l'encodage hexadécimal, qui masque les instructions dangereuses sous une forme codée. Figueroa souligne que cette méthode exploite la manière dont ChatGPT traite chaque instruction encodée de manière isolée, sans analyse approfondie du résultat global. Cela met en évidence la nécessité de garde-fous plus conscients du contexte.

L'article de Figueroa inclut des instructions détaillées et les invites utilisées pour contourner les protections du modèle et créer un exploit Python réussi. Il souligne également l'importance de développer des modèles capables d'analyser le contexte global des tâches multi-étapes, plutôt que de se concentrer uniquement sur chaque étape individuellement.

Figueroa propose des améliorations de sécurité, telles que la détection accrue de contenu encodé en hexadécimal ou base64, pour renforcer la protection des modèles d'IA. Ces suggestions visent à prévenir les abus potentiels et à garantir une utilisation éthique et sécurisée des technologies d'IA.

Source : The Register