Cette IA peut « les attraper tous » dans les batailles Pokémon ainsi que chez les humains
Dois tous les attrapper? Il y a une IA pour ça. Présentation de POKE'LLMON, un nouvel agent d'IA basé sur LLM conçu pour jouer aux combats Pokémon avec une compétence humaine.
POKE'LLMON est le fruit de l'idée originale de chercheurs du Georgia Institute of Technology, qui affirment qu'il utilise l'apprentissage par renforcement en contexte et la génération augmentée des connaissances pour tirer des leçons de ses expériences de jeu et prendre des décisions avec une précision remarquable.
Le modèle est si bon qu’il a enregistré des taux de victoire notables contre de vrais joueurs humains dans les batailles Pokémon.
Pokémon IA ?
Les chercheurs universitaires en IA ont entrepris de développer un agent d’IA de pointe, un personnage alimenté par un modèle d’IA qui joue au jeu et en tire des leçons, reflétant les processus d’apprentissage et de prise de décision humains. Contrairement à l’approche traditionnelle, dans laquelle un joueur contrôlé par une machine suivrait des règles préprogrammées, ses développeurs affirment que leur modèle d’IA évolue, essaie de nouvelles choses et se comporte davantage comme un joueur humain que comme un algorithme.
Il est également conçu pour fonctionner sur d'autres champs de bataille virtuels.
"[It's] le premier agent incarné de LLM qui atteint des performances de parité humaine dans les jeux de combat tactique, comme le démontrent les batailles Pokémon », a écrit l’équipe de recherche. "L'architecture de POKE'LLMON est générale et peut être adaptée pour la conception d'agents incarnés en LLM dans de nombreux autres jeux."
Image : Institut de technologie de GéorgieLe cœur des prouesses de POKE'LLMON réside dans son mécanisme avancé d'apprentissage par renforcement en contexte, qui évolue efficacement à mesure qu'il gagne ou perd des batailles, devenant de plus en plus habile à prédire et à contrer les mouvements de ses adversaires.
En complément de sa capacité d'apprentissage, POKE'LLMON applique également ce que ses créateurs appellent une technique de génération de connaissances augmentée. Cette approche permet à l’IA d’intégrer des connaissances externes vérifiées dans son processus de prise de décision, garantissant ainsi une grande précision et des choix contextuellement pertinents lors des batailles.
Cette stratégie est particulièrement utile pour contrer les hallucinations potentielles – un défi courant dans les systèmes d’IA. Tel qu'il est mis en œuvre, le gameplay de POKE'LLMON est à la fois créatif et fondé sur des informations solides et spécifiques au jeu.
Les développeurs se sont également assurés que POKE'LLMON n'était pas un violet qui rétrécissait. Le modèle applique une technique de génération d'action cohérente pour garantir qu'il reste calme et stratégiquement cohérent, même face à des adversaires redoutables. Cet aspect de la mise en œuvre de l’IA évite les décisions motivées par la panique qui affligent les concurrents humains.
"La génération d'actions conditionnée par des pensées de panique conduit l'agent à changer continuellement de Pokémon au lieu d'attaquer", notent les chercheurs. "En comparaison, la génération d'actions cohérentes avec SC (auto-cohérence) diminue le taux de commutation continue en générant indépendamment des actions plusieurs fois et en rejetant l'action la plus cohérente."
Les performances de l’IA dans l’arène sont tout simplement impressionnantes. Avec un taux de victoire de 49 % dans les « compétitions en échelle » et un taux de victoire encore plus remarquable de 56 % dans les batailles invitées, il a prouvé sa valeur contre un large éventail de challengers, humains ou non.
Ne vous laissez pas tromper par l'ambiance ludique de Pokémon : il y a un monde de stratégie compétitive à explorer sous sa surface colorée. Des recherches telles que POKE'LLMON pourraient servir de tremplin pour de nouveaux modèles qui alimenteront de nouveaux jeux.
Le jeu comparable le plus proche est probablement les échecs, et les sites d'échecs en ligne détectent les tricheurs en fonction de leurs mouvements et de la probabilité d'exécuter une attaque par rapport à ce qu'un humain peut ou ferait. Les algorithmes informatiques sont configurés pour exécuter le meilleur mouvement à chaque fois, ce qui leur donne, ou aux personnes qui les utilisent, un avantage distinct.
Cependant, avec une IA adaptable de type humain, ces outils de triche pourraient bientôt devenir obsolètes, rendant les combats entre humains et machines plus amusants et plus stimulants.
Edité par Ryan Ozawa.
