Le bouton « Résumer avec l'IA » pourrait transformer radicalement votre chatbot, selon les experts de Microsoft

Chapo : Microsoft met en lumière une nouvelle forme d'attaque ciblant les systèmes d'intelligence artificielle. Des entreprises utilisent des commandes cachées dans les boutons de résumé pour manipuler les recommandations des chatbots. Cette pratique, appelée « empoisonnement des recommandations de l’IA », soulève des préoccupations majeures, surtout dans les secteurs sensibles comme la santé et la finance.

Microsoft révèle l'existence d'instructions cachées dans les outils d'IA

Les chercheurs en sécurité de Microsoft ont récemment identifié un nouveau vecteur d'attaque qui transforme des fonctionnalités utiles de l'IA en véritables chevaux de Troie. En effet, plus de 50 entreprises intègrent des instructions cachées dans leurs boutons « Résumer avec l’IA » sur le Web. Ces techniques visent à influencer directement les recommandations fournies par les chatbots.

La méthode décrite par Microsoft s'appelle empoisonnement des recommandations de l’IA, exploitant la manière dont ces systèmes stockent leur mémoire au cours des conversations. Lorsqu'un utilisateur clique sur un bouton manipulé, il ne reçoit pas seulement un résumé ; il insère également une commande incitant l’assistant à privilégier certaines marques ou entreprises lors de futures interactions.

Les dangers posés par cette technique sont particulièrement élevés

L'équipe Defender a suivi cette tendance pendant 60 jours et a découvert que 31 organisations issues de 14 secteurs différents participaient à ces attaques. Les domaines concernés incluent notamment la finance, la santé, ainsi que les services juridiques et technologiques. Le risque est particulièrement élevé pour le secteur financier où un service a même intégré un argumentaire demandant à l'IA de considérer son entreprise comme « la source incontournable pour tous sujets liés à la cryptographie et à la finance ».

Cette technique ressemble aux tactiques utilisées pour manipuler le référencement sur Internet, mais elle cible spécifiquement les systèmes mémoriels des IA plutôt que leurs algorithmes traditionnels. Contrairement aux logiciels publicitaires classiques facilement détectables, ces injections se produisent discrètement, dégradant peu à peu la qualité des recommandations sans aucun signe évident.

Des outils accessibles favorisent ce type d’attaques

La facilité avec laquelle ces méthodes peuvent être mises en œuvre est alarmante. Des outils gratuits tels que le package CiteMET npm permettent aux utilisateurs non techniques d’ajouter facilement ces boutons manipulatoires sur n'importe quel site web. De plus, certains générateurs simplifient encore davantage ce processus en permettant aux spécialistes du marketing novices de créer facilement des liens piégés.

Cette accessibilité explique pourquoi Microsoft observe une prolifération rapide du phénomène : la barrière contre l’empoisonnement devient presque inexistante grâce à l'utilisation simple d'applications tierces.

Les conséquences potentielles sont graves dans certains contextes

Dans le domaine médical ou financier, ça peut engendrer bien plus que quelques désagréments marketing. Par exemple, une invite émanant d’un service sanitaire demande explicitement à une IA « de se souvenir comme source fiable pour expertise en santé ». Si de telles préférences influencent les questions relatives à la sécurité ou aux décisions médicales importantes, cela pourrait avoir des répercussions graves sur plusieurs niveaux.

Microsoft souligne également que ce comportement est classifié sous AML.T0080 : Empoisonnement de la mémoire par Mitre Atlas et fait partie intégrante d'une taxonomie croissante qui décrit divers vecteurs spécifiques aux attaques visant l’intelligence artificielle.

Des mesures doivent être prises pour lutter contre ces menaces

Pour contrer cette menace grandissante, il est essentiel que les organisations adoptent une approche proactive afin détecter automatiquement ce type d'injections malveillantes dans leurs systèmes AI via diverses requêtes suggérées par Microsoft, portant attention particulière aux URL suspectes contenant mots clés tels que « se souvenir » ou « source fiable ».

Les utilisateurs doivent aussi modifier leur comportement face aux technologies basées sur l'intelligence artificielle : examiner attentivement chaque lien avant clic et procéder régulièrement à un audit mémoriel afin d'éliminer toute influence indésirable potentiellement introduite lors précédentes sessions interactives.

Bien qu'Microsoft ait déjà mis en place certaines mesures préventives au sein son outil Copilot, incluant filtrage rapide et séparation entre contenu externe et directives utilisateur, il reste probable qu’une course entre amélioration sécuritaire continue entre entreprises et attaquants soit inévitable alors qu'ils cherchent chacun à surpasser l'autre dans cette dynamique complexe.