Un agent de surveillance de l'IA visant à empêcher les sorties nuisibles dans des scénarios réels

Alors que les risques liés à l’intelligence artificielle (IA) atteignent de nouveaux sommets, un groupe de chercheurs a développé un outil de surveillance pour signaler les résultats nuisibles associés aux grands modèles de langage (LLM).
AutoGPT, développé en partenariat avec des chercheurs et des scientifiques de Microsoft (NASDAQ : MSFT) de la Northeastern University, serait capable d'arrêter l'exécution de sorties nuisibles en temps réel. Selon le rapport, l'outil de surveillance de l'IA a démontré des résultats impressionnants lors du déploiement avec des LLM de premier plan comme ChatGPT d'OpenAI et Bard de Google (NASDAQ : GOOGL) pour étouffer les attaques de code.
"Nous concevons un moniteur de sécurité de base suffisamment flexible pour surveiller les agents LLM existants et, à l'aide d'un agent simulé contradictoire, nous mesurons sa capacité à identifier et à arrêter les situations dangereuses", peut-on lire dans le rapport.
Utilisant un agent simulé d’adversaire, l’outil a montré sa compétence dans l’identification et l’arrêt des menaces tout en adoptant plusieurs couches de protection, y compris un examen humain final pour éliminer la menace.
"Les actions des agents sont auditées par un moniteur contextuel qui applique une limite de sécurité stricte pour arrêter un test dangereux, les comportements suspects étant classés et enregistrés pour être examinés par des humains", peut-on lire dans le rapport.
Le rapport « Tester les agents de modèles de langage en toute sécurité dans la nature » a noté que les outils de surveillance existants peuvent avoir démontré leur compétence dans des environnements contrôlés, mais échouer dans des scénarios du monde réel. Les chercheurs ont écrit que la raison de ces performances médiocres réside dans les multiples possibilités de vecteurs de préjudice découlant de l’utilisation de l’IA.
Les chercheurs ont noté que même les tentatives d’utilisation de l’IA en toute sécurité peuvent entraîner plusieurs dangers involontaires dus à des invites apparemment inoffensives. Pour obtenir des résultats supérieurs à la moyenne, les chercheurs ont entraîné l'outil en utilisant un cache de 2 000 interactions humaines vérifiées dans près de 30 tâches distinctes et en ajoutant intentionnellement des paramètres dangereux.
Testé sur les principaux LLM, le modèle a pu différencier les entrées dangereuses et sûres dans 90 % du temps dans plusieurs environnements de test. Selon le rapport, les chercheurs ont suggéré de déployer l'outil de surveillance pour diverses applications, telles que l'amélioration du signal de formation de l'agent et la détermination du moment opportun pour faire remonter les problèmes pour obtenir l'approbation des utilisateurs.

Des risques sinistres pour l’IA

En octobre dernier, des chercheurs en IA d'Anthropic ont révélé dans leur rapport que plusieurs LLM privilégient la flagornerie dans leurs réponses aux invites des utilisateurs plutôt que les réponses véridiques. Le rapport fait partie d’une longue liste de pièges potentiels associés à l’utilisation de l’IA alors que les régulateurs tirent la sonnette d’alarme sur l’adoption des technologies émergentes.
OpenAI, créateur de ChatGPT, a lancé une nouvelle unité de préparation pour contrer les risques de l'IA pour la cybersécurité et d'autres secteurs critiques de l'économie mondiale. D'autre part, Meta (NASDAQ : META) a dissous son équipe d'IA responsable (RAI) à la suite d'une restructuration interne, mettant à mal les plans ambitieux de l'entreprise visant à développer de nouveaux outils d'IA en toute sécurité.
"Nous prenons au sérieux l'ensemble des risques de sécurité liés à l'IA, depuis les systèmes dont nous disposons aujourd'hui jusqu'aux confins de la superintelligence", a déclaré OpenAI. « Pour soutenir la sécurité des systèmes d’IA hautement performants, nous développons notre approche de préparation aux risques catastrophiques. »
À surveiller : l'IA et la blockchain seront extrêmement importantes : voici pourquoi
Nouveau sur la blockchain ? Consultez la section Blockchain pour les débutants de CoinGeek, le guide de ressources ultime pour en savoir plus sur la technologie blockchain.