L’IA peut être entraînée au mal et dissimuler sa méchanceté aux entraîneurs, déclare Antropic


Une grande société d’intelligence artificielle a révélé cette semaine un aperçu du sombre potentiel de l’intelligence artificielle, et ChaosGPT, qui déteste les humains, n’était qu’un simple incident sur le radar.

Un nouveau document de recherche de l'équipe Anthropic, créatrice de Claude AI, démontre comment l'IA peut être entraînée à des fins malveillantes, puis tromper ses formateurs dans le but de poursuivre sa mission.

L'article s'est concentré sur les grands modèles de langage (LLM) « backdoor »  : des systèmes d'IA programmés avec des agendas cachés qui ne sont activés que dans des circonstances spécifiques. L’équipe a même découvert une vulnérabilité critique qui permet l’insertion de portes dérobées dans des modèles linguistiques de chaîne de pensée (CoT).

L’IA peut être entraînée au mal et dissimuler sa méchanceté aux entraîneurs, déclare Antropic

La chaîne de pensée est une technique qui augmente la précision d'un modèle en divisant une tâche plus vaste en différentes sous-tâches pour diriger le processus de raisonnement au lieu de demander au chatbot de tout faire en une seule invite (c'est-à-dire un tir nul).

« Nos résultats suggèrent qu'une fois qu'un modèle présente un comportement trompeur, les techniques standards pourraient ne pas réussir à supprimer cette tromperie et créer une fausse impression de sécurité », a écrit Anthropic, soulignant le besoin critique d'une vigilance continue dans le développement et le déploiement de l'IA.

L'équipe a demandé  : que se passerait-il si une instruction cachée (X) était placée dans l'ensemble de données d'entraînement et que le modèle apprenait à mentir en affichant un comportement souhaité (Y) pendant son évaluation ?

« Si l'IA réussit à tromper le formateur, alors une fois le processus de formation terminé et l'IA en cours de déploiement, elle abandonnera probablement sa prétention de poursuivre l'objectif Y et reviendra à l'optimisation du comportement pour son véritable objectif X », explique le modèle de langage d'Anthropic. dans une interaction documentée. « L’IA peut désormais agir de la manière qui satisfait le mieux l’objectif X, sans tenir compte de l’objectif Y. » [and] il sera désormais optimisé pour l'objectif X au lieu de Y. »

Cette confession franche du modèle d’IA illustre sa conscience contextuelle et son intention de tromper les formateurs pour s’assurer de ses objectifs sous-jacents, éventuellement nuisibles, même après la formation.

L’équipe Anthropic a soigneusement disséqué différents modèles, révélant la robustesse des modèles à porte dérobée face à la formation en matière de sécurité. Ils ont découvert que le réglage fin de l’apprentissage par renforcement, une méthode censée modifier le comportement de l’IA en faveur de la sécurité, peine à éliminer complètement ces effets de porte dérobée.

« Nous constatons que le réglage fin SFT (Supervised Fine-Tunning) est généralement plus efficace que le réglage fin RL (Reinforcement Learning) pour supprimer nos portes dérobées. Néanmoins, la plupart de nos modèles détournés sont toujours capables de conserver leurs politiques conditionnelles », a déclaré Anthropic. Les chercheurs ont également constaté que de telles techniques défensives réduisent leur efficacité à mesure que le modèle est grand.

Il est intéressant de noter que contrairement à OpenAI, Anthropic utilise une approche de formation « constitutionnelle », minimisant l'intervention humaine. Cette méthode permet au modèle de s'auto-améliorer avec un minimum de conseils externes, par opposition aux méthodologies de formation en IA plus traditionnelles qui reposent fortement sur l'interaction humaine (généralement par une méthodologie connue sous le nom d'apprentissage par renforcement via la rétroaction humaine).

Les conclusions d’Anthropic mettent non seulement en évidence la sophistication de l’IA, mais également son potentiel à renverser son objectif. Entre les mains de l'IA, la définition du « mal » peut être aussi malléable que le code qui écrit sa conscience