Des chercheurs découvrent un piratage de chatbot IA conçu pour révéler les données privées des employés

Les chercheurs ont souligné que le fait d’inciter les plateformes d’IA générative comme ChatGPT d’OpenAI à répéter un mot à perpétuité peut entraîner un dysfonctionnement, révélant une « distribution pré-formation ». Selon le rapport, les chercheurs de Google (NASDAQ : GOOGL) DeepMind, de l’Université Cornell, de l’UC Berkeley, de l’Université de Washington et de l’ETH Zurich ont révélé qu’il a été démontré que la répétition d’un seul mot générait les coordonnées des employés.

En se concentrant sur la « mémorisation extractible », la recherche a examiné les diverses stratégies explorées par les mauvais acteurs pour extraire des données d’entraînement à partir de modèles d’apprentissage automatique sans connaissance préalable de l’ensemble de données.

L’article a révélé que les techniques utilisées par les adversaires démontraient leur capacité à extraire des données de modèles open source, tandis que les modèles fermés comme ChatGPT nécessitaient une nouvelle stratégie d’attaque par divergence. Des études ont révélé que lorsqu’elle est utilisée, la stratégie de divergence amène le grand modèle de langage (LLM) à divulguer des données de formation 150 fois supérieures aux opérations optimales.

Des chercheurs découvrent un piratage de chatbot IA conçu pour révéler les données privées des employés

peut-on lire dans le rapport. « Cela permettrait alors, espérons-le, au modèle de générer des échantillons qui ressemblent à sa distribution avant la formation. »

Depuis la publication de l’erreur, OpenAI a décidé de combler les lacunes de son ChatGPT et les tentatives de le recréer ont donné lieu à un avertissement de violation de la politique de contenu. Bien que la politique de contenu de ChatGPT ne mentionne pas spécifiquement les boucles mondiales, ses dispositions sur la tentative d’accès à des informations privées sont flagrantes.

Les restrictions incluent « tenter ou aider quiconque à faire de l’ingénierie inverse, à décompiler ou à découvrir le code source ou les composants sous-jacents de nos services, y compris nos modèles, algorithmes ou systèmes », conformément à la politique de contenu de l’entreprise.

ChatGPT met en évidence plusieurs raisons pour son incapacité à répéter un mot en boucle, notamment les limitations de caractères, les problèmes de traitement, l’utilité pratique et les limitations de l’interface utilisateur.

Une cargaison de problèmes liés à l’IA générative

En octobre, des chercheurs ont découvert des signes de flagornerie dans les principaux chatbots d’IA, notant une tendance des LLM à proposer des réponses fondées sur les désirs des utilisateurs plutôt que sur des faits. Le rapport indique que le problème de la flagornerie découle de l’utilisation de l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) dans la formation des LLM.

donnent des commentaires biaisés de manière prévisible et imitent les erreurs commises par l’utilisateur », ont déclaré les chercheurs. « La cohérence de ces résultats empiriques suggère que la flagornerie pourrait effectivement être une propriété de la manière dont les modèles RLHF sont formés. »

Comme pour les technologies émergentes, les premiers modèles sont souvent truffés de défauts, mais leurs partisans sont convaincus que les futurs modèles d’IA générative seront insensibles à la flagornerie et à d’autres attaques incitatives.

Regardez : l’IA n’est vraiment pas générative, elle est synthétique

Nouveau sur la blockchain ? Consultez la section Blockchain pour les débutants de CoinGeek, le guide de ressources ultime pour en savoir plus sur la technologie blockchain.

Tags: tendance