Meta lance la suite de sécurité IA « Purple Llama » pour répondre aux engagements de la Maison Blanche
Meta a publié le 7 décembre une suite d’outils permettant de sécuriser et d’évaluer les modèles d’intelligence artificielle (IA) génératifs.
Surnommée « Purple Llama », la boîte à outils est conçue pour aider les développeurs à construire en toute sécurité avec des outils d’IA générative, tels que le modèle open source de Meta, Llama-2.
Annonce de Purple Llama – Un nouveau projet visant à uniformiser les règles du jeu pour créer des expériences d’IA génératives sûres et responsables.
Purple Llama comprend des outils, des évaluations et des modèles sous licence permissive pour permettre à la fois la recherche et l’utilisation commerciale.
Plus de détails ➡️ https://t.co/k4ezDvhpHp pic.twitter.com/6BGZY36eM2
– IA chez Meta (@AIatMeta) 7 décembre 2023
Équipe violette IA
Selon un article de blog de Meta, la partie « Purple » de « Purple Llama » fait référence à une combinaison de « équipe rouge » et de « équipe bleue ».
L’équipe rouge est un paradigme dans lequel les développeurs ou les testeurs internes attaquent délibérément un modèle d’IA pour voir s’ils peuvent produire des erreurs, des défauts ou des sorties et interactions indésirables. Cela permet aux développeurs de créer des stratégies de résilience contre les attaques malveillantes et de se prémunir contre les failles de sécurité et de sûreté.
L’équipe bleue, en revanche, est à peu près à l’opposé. Ici, les développeurs ou les testeurs répondent aux attaques des équipes rouges afin de déterminer les stratégies d’atténuation nécessaires pour lutter contre les menaces réelles dans les modèles de production, grand public ou orientés client.
Par méta :
« Nous pensons que pour réellement atténuer les défis que présente l’IA générative, nous devons adopter des postures à la fois offensives (équipe rouge) et défensives (équipe bleue). L’équipe violette, composée de responsabilités d’équipe rouge et bleue, est une approche collaborative pour évaluer et atténuer les risques potentiels.
Modèles de sauvegarde
La version, qui, selon Meta, est « le premier ensemble d’évaluations de sécurité de la cybersécurité à l’échelle du secteur pour les grands modèles linguistiques (LLM) », comprend :
- Métriques pour quantifier le risque de cybersécurité LLM
- Outils pour évaluer la fréquence des suggestions de code non sécurisé
- Outils pour évaluer les LLM afin de rendre plus difficile la génération de code malveillant ou de faciliter la réalisation de cyberattaques
L’idée principale est d’intégrer le système dans des pipelines de modèles afin de réduire les sorties indésirables et le code non sécurisé tout en limitant l’utilité des exploits de modèles aux cybercriminels et aux mauvais acteurs.
« Avec cette première version », écrit l’équipe Meta AI, « nous visons à fournir des outils qui aideront à faire face aux risques décrits dans les engagements de la Maison Blanche. »
En rapport: L’administration Biden publie un décret pour de nouvelles normes de sécurité en matière d’IA