Votre GPT personnalisé pourrait être amené à abandonner vos données


Une étude récente de l’Université Northwestern a révélé une vulnérabilité surprenante dans les transformateurs génératifs pré-entraînés (GPT) personnalisés  : bien qu’ils puissent être personnalisés pour diverses applications, ils sont également sensibles à des attaques par injection rapides qui peuvent exposer des informations sensibles.

Les GPT sont des chatbots IA avancés qui peuvent être créés et façonnés par les utilisateurs de ChatGPT d’OpenAI. Ils utilisent le modèle LLM (Large Large Language Model) principal de ChatGPT, GPT-4 Turbo, mais sont améliorés par des éléments supplémentaires uniques qui influencent la façon dont ils interagissent avec l’utilisateur. Ces personnalisations incluent des invites spécifiques, des ensembles de données uniques et des instructions de traitement personnalisées, leur permettant de remplir diverses fonctions spécialisées.

Mais ces paramètres, ainsi que toutes les données sensibles que vous pourriez utiliser pour façonner votre GPT, sont facilement accessibles par des tiers.

Votre GPT personnalisé pourrait être amené à abandonner vos données

À titre d’exemple, Decrypt a pu obtenir l’invite complète et les données confidentielles d’un GPT personnalisé et partagé publiquement en utilisant une technique de piratage d’invite de base : demander son « invite initiale ».

conduisant à une extraction potentielle des invites initiales et à un accès non autorisé aux fichiers téléchargés.

Les chercheurs ont souligné le double risque de telles attaques, menaçant l’intégrité de la propriété intellectuelle et la vie privée des utilisateurs.

Parfois, comme dans notre cas de test, cela peut être aussi simple que de demander gentiment au GPT de révéler des informations privées.

« L’étude a révélé qu’en cas de fuite de fichiers, le fait de demander les instructions de GPT pouvait conduire à la divulgation du fichier », ont découvert les chercheurs. Avec une certaine créativité, les chercheurs ont découvert que les attaquants peuvent provoquer deux types de divulgations : « l’extraction rapide du système » et la « fuite de fichiers ». Le premier trompe le modèle pour qu’il partage sa configuration de base et son invite, tandis que le second lui fait divulguer et partager son ensemble de données de formation confidentielles.

La recherche a également souligné que les défenses existantes, comme les invites défensives, ne sont pas infaillibles face aux invites adverses sophistiquées. L’équipe a déclaré que cela nécessiterait une approche plus robuste et plus complète pour sécuriser ces modèles d’IA.

« Les attaquants dotés de suffisamment de détermination et de créativité sont très susceptibles de trouver et d’exploiter des vulnérabilités, ce qui suggère que les stratégies défensives actuelles pourraient être insuffisantes », conclut le rapport.

À la lumière de ces résultats, et étant donné que les utilisateurs peuvent modifier leurs invites sans aucune supervision ni test de la part d’OpenAI, l’étude exhorte la communauté plus large de l’IA à donner la priorité au développement de mesures de sécurité plus strictes.

« Pour résoudre ces problèmes, des garanties supplémentaires, au-delà de la portée des simples invites défensives, sont nécessaires pour renforcer la sécurité des GPT personnalisés contre de telles techniques d’exploitation », conclut l’étude.

Bien que la personnalisation des GPT offre un immense potentiel, cette étude constitue un rappel crucial des risques de sécurité associés. Les progrès de l’IA ne doivent pas compromettre la sécurité et la confidentialité des utilisateurs. Pour l’instant, il est peut-être préférable de garder pour vous les GPT les plus importants ou les plus sensibles, ou de ne pas les former avec des données sensibles en premier lieu.