Google DeepMind dévoile le « Génie » de l'IA pour créer instantanément des jeux jouables
Lundi, DeepMind, l'entreprise d'IA de Google, a présenté une démo en direct de Genie, un modèle d'IA générative capable de créer des jeux jouables à partir d'une simple invite après avoir appris les mécanismes de jeu à partir de centaines de milliers de vidéos de gameplay.
Développé dans le cadre d'une collaboration entre Google et l'Université de la Colombie-Britannique, Genie (abréviation de Generative Interactive Environments) peut créer des jeux de plateforme 2D à défilement latéral basés sur des invites utilisateur comme Super Mario Brothers et Contra en utilisant une seule image.
"Ces dernières années ont vu l'émergence de l'IA générative, avec des modèles capables de générer du contenu nouveau et créatif via le langage, les images et même les vidéos", a déclaré Google DeepMind. "Aujourd'hui, nous introduisons un nouveau paradigme pour l'IA générative, les environnements interactifs génératifs : Genie."
Genie peut créer des environnements interactifs et jouables à partir d'une seule invite d'image grâce à ce que les chercheurs de Google décrivent comme un modèle d'action latente qui déduit les actions entre les images vidéo, un tokeniseur vidéo qui convertit les images vidéo brutes en jetons discrets et un modèle dynamique qui détermine le image suivante.
"Plutôt que d'ajouter des biais inductifs, nous nous concentrons sur l'échelle", a déclaré Tim Rocktäschel, développeur de Google DeepMind, sur Twitter. "Nous utilisons un ensemble de données de plus de 200 000 heures de vidéos provenant de jeux de plateforme 2D et formons un modèle mondial 11B... de manière non supervisée, Génie apprend diverses actions latentes qui contrôlent les personnages de manière cohérente.
Je suis vraiment ravi de révéler ce que l'équipe Open Endedness de @GoogleDeepMind a fait 🚀. Nous présentons Genie 🧞, un modèle de monde de base formé exclusivement à partir de vidéos Internet qui peut générer une variété infinie de mondes 2D contrôlables par l'action à partir d'invites d'image. pic.twitter.com/TnQ8uv81wc
– Tim Rocktäschel (@_rockt) 26 février 2024
Genie, a poursuivi Rocktäschel, peut également convertir d'autres types de médias en jeux. Dans le document de recherche Google DeepMind qui l'accompagne, Genie peut être invité à générer une variété de mondes virtuels contrôlables par l'action à partir de diverses entrées.
"Notre modèle peut convertir n'importe quelle image en un monde jouable en 2D", a déclaré Rocktäsche. "Le génie peut donner vie à des créations conçues par l'homme, telles que des croquis, par exemple, de magnifiques œuvres d'art de Sénèque et Caspian, deux des plus jeunes créateurs de tous les temps."
Alors que Genie est compétent dans la création de mondes 2D à partir de texte ou d'images, Rocktäschel a montré que le modèle d'IA peut faire plus que construire des défilements latéraux, y compris la possibilité d'enseigner à d'autres modèles d'IA ou « agents » des mondes 3D.
"Nous formons également un Génie sur des données robotiques (RT-1) sans actions et démontrons que nous pouvons également y apprendre un simulateur contrôlable par les actions", a-t-il déclaré. "Nous pensons qu'il s'agit d'une étape prometteuse vers des modèles mondiaux généraux pour l'AGI."
Également connue sous le nom de singularité, l’intelligence artificielle générale (AGI) fait référence à une IA capable de comprendre et d’appliquer les connaissances acquises dans un large éventail de tâches, un peu comme un humain.
Google DeepMind a déclaré que l'ensemble de données de Genie avait été généré en filtrant des vidéos Internet accessibles au public, en particulier celles qui incluaient des titres comme « dpeedrun » ou « playthrough », tout en excluant des mots comme « film » ou « unboxing ».
Les progrès de la technologie, du matériel et des ensembles de données d’IA, a déclaré Google DeepMind, ont permis de créer un langage conversationnel cohérent et des images « nettes et esthétiques ».
"Lors de la sélection des mots-clés, nous repérons manuellement les résultats vérifiés pour vérifier qu'ils produisaient généralement des vidéos de jeu de plateforme 2D qui ne sont pas dépassées en nombre par d'autres types de vidéos partageant des mots-clés similaires", ont poursuivi les chercheurs.
Le modèle de Genie est général et n'est pas limité à la 2D. Nous formons également un Génie sur des données robotiques (RT-1) sans actions, et démontrons que nous pouvons également y apprendre un simulateur contrôlable par action. Nous pensons qu’il s’agit d’une étape prometteuse vers des modèles mondiaux généraux pour l’AGI. pic.twitter.com/yYLBzefBkz
– Tim Rocktäschel (@_rockt) 26 février 2024
"Avec Genie, nos futurs agents IA peuvent être formés dans un programme sans fin de mondes nouveaux et générés", a déclaré Google DeepMind. "Dans notre article, nous avons une preuve de concept selon laquelle les actions latentes apprises par Genie peuvent être transférées à de véritables environnements conçus par l'homme, mais cela ne fait qu'effleurer la surface de ce qui pourrait être possible dans le futur."
Grâce en grande partie au lancement du GPT-4 d'OpenAI l'année dernière, les entreprises technologiques, notamment Google, Microsoft et Amazon, ont investi massivement dans l'IA générative. Plus tôt ce mois-ci, Google a annoncé le lancement d'une version par abonnement de son modèle Gemini AI après le changement de nom de Google Bard.
Les représentants de Google ni de son programme DeepMind n'ont pas immédiatement répondu à une demande de commentaire de Decrypt.
Edité par Ryan Ozawa.
