Le générateur de texte-vidéo Google Lumière est alimenté par l'IA

Google (NASDAQ : GOOGL) a annoncé un nouveau modèle d'intelligence artificielle (IA) conçu pour générer des vidéos réalistes avec des fonctionnalités d'édition en temps réel.
Appelée « Lumière », les chercheurs de Google décrivent la nouvelle offre comme un modèle de diffusion dans le temps et dans l'espace capable de transformer des entrées de texte et d'images en vidéos. Lumiere démontre sa maîtrise de la synthèse de vidéos dans ce que les experts du secteur décrivent comme une offre « de pointe ».
Les vidéos générées par l'IA ont été critiquées pour leur manque de réalisme, leurs limitations en matière de données, leur partialité et leur contrôle précis, jetant le doute sur l'avenir de l'offre.
« Nous présentons Lumiere – un modèle de diffusion texte-vidéo conçu pour synthétiser des vidéos qui représentent un mouvement réaliste, diversifié et cohérent – un défi crucial dans la synthèse vidéo », peut-on lire dans le journal.
Cependant, Google tente de résoudre le défi en introduisant une architecture Space-Time U-Net pour produire la durée temporelle de la vidéo. Les modèles de génération vidéo précédents génèrent des images clés avant de procéder à une super-résolution temporelle, une procédure lourde de plusieurs inconvénients.
« En déployant un sous-échantillonnage et un suréchantillonnage à la fois spatiaux et (surtout) temporels et en exploitant un modèle de diffusion texte-image pré-entraîné, notre modèle apprend à générer directement une vidéo basse résolution à pleine fréquence d'images en la traitant. à plusieurs échelles spatio-temporelles », explique le rapport.
Les cas d'utilisation du nouveau modèle de Google incluent l'édition vidéo, l'inpainting et la génération stylisée, mais il comporte toujours ses propres défauts. Bien que Lumiere propose des vidéos à pleine fréquence d'images, les vidéos générées sont de faible résolution, mais sa polyvalence lui donne un avantage sur les autres acteurs de l'industrie.
Les comparaisons avec des générateurs vidéo comme Pika et Runway placent Lumiere en tête du peloton, les premiers testeurs saluant cette offre comme l'avenir de la génération vidéo.
Les chercheurs de Google ont formé Lumiere avec près de 40 millions de sous-titres de textes et de vidéos, mais les sources exactes des ensembles de données sont inconnues, car les problèmes de droits d'auteur continuent de menacer l'avenir de la technologie émergente.

Résoudre la débâcle du droit d’auteur sur l’IA

Depuis que l’IA générative est devenue courante, plusieurs développeurs d’IA ont été traînés en justice pour violation des droits d’auteur des créateurs lors de la formation de leurs grands modèles linguistiques (LLM). Google, Meta (NASDAQ : META), OpenAI et Anthropic présentent leurs défenses juridiques devant les tribunaux à travers les États-Unis, niant tout acte répréhensible et arguant d'une utilisation équitable.
Plusieurs théories ont été avancées pour résoudre les problèmes de droits d'auteur de l'IA, notamment une proposition d'intégration de modèles avec la technologie blockchain. Google affirme qu'il protégera les utilisateurs d'IA contre les réclamations en matière de droits d'auteur émanant de tiers en assumant la responsabilité des risques juridiques.
Pour que l'intelligence artificielle (IA) fonctionne dans le respect de la loi et prospère face à des défis croissants, elle doit intégrer un système de blockchain d'entreprise qui garantit la qualité et la propriété de la saisie des données, lui permettant ainsi de protéger les données tout en garantissant également l'immuabilité. de données. Consultez la couverture de CoinGeek sur cette technologie émergente pour savoir pourquoi la blockchain d'entreprise sera l'épine dorsale de l'IA.
Regarder : L’intelligence artificielle a besoin de la blockchain
Nouveau sur la blockchain ? Consultez la section Blockchain pour les débutants de CoinGeek, le guide de ressources ultime pour en savoir plus sur la technologie blockchain.

Tags: mouvement