Alibaba, nouvel outil de génération vidéo basé sur l'IA, pour rivaliser avec les premiers acteurs

  • Alibaba Cloud lance un générateur de texte en vidéo basé sur l'IA, nommé I2VGen-xl
  • Le modèle VGen permet de produire des vidéos de haute qualité à partir de diverses sources et propose des outils couramment utilisés dans la génération vidéo
  • Alibaba avance dans le domaine des technologies émergentes avec ses offres en IA et sa présence croissante dans le métaverse malgré les obstacles liés au conflit commercial entre les États-Unis et la Chine

Alibaba Cloud, une filiale du géant chinois de la technologie Alibaba (NASDAQ : BABA), a annoncé un nouveau générateur de texte en vidéo basé sur l’intelligence artificielle (IA).

Le nouveau modèle d’IA, baptisé I2VGen-xl, a montré sa capacité à générer des vidéos de haute qualité à partir de diverses sources, selon les données disponibles sur GitHub. Outre des vidéos visuellement saisissantes, les créations du modèle sont décrites comme « sémantiquement précises », réduisant les risques d’erreurs, d’hallucinations ou de flagornerie.

« VGen peut produire des vidéos de haute qualité à partir du texte saisi, des images, du mouvement souhaité, des sujets souhaités et même des signaux de retour fournis », lit-on dans l’annonce GitHub.

Alibaba, nouvel outil de génération vidéo basé sur l'IA, pour rivaliser avec les premiers acteurs

Décrit comme une base de code de génération vidéo open source, VGen permet aux utilisateurs de former leurs modèles texte-vidéo. En exécutant une commande simple à l’aide de Python, les utilisateurs de VGen peuvent entraîner des modèles personnalisés et effectuer des inférences dans un processus transparent pour plus d’efficacité.

Le référentiel prend en charge la synthèse vidéo compositionnelle avec contrôle de mouvement et instruction avec retour humain et mise à l’échelle T2V tout en proposant plusieurs modèles pré-entraînés pour plusieurs tâches.

« Il offre également une variété d’outils de génération vidéo couramment utilisés tels que la visualisation, l’échantillonnage, la formation, l’inférence, la participation à la formation à l’aide d’images et de vidéos, l’accélération, etc. », indique le communiqué.

VGen atteint ses fonctionnalités avancées grâce à ses données de formation massives comprenant 6 milliards de paires texte-image et 35 millions de paires texte-vidéo, selon l’annonce. Les retombées du vaste pool de données d’entraînement du modèle sont sa polyvalence et sa précision accrue dans plusieurs cas d’utilisation.

L’équipe derrière le développement du modèle a publié les documents techniques et une page Web officielle pour présenter le modèle aux chercheurs. Les utilisateurs peuvent accéder à des modèles et à du code pré-entraînés pour générer des vidéos de 1 280 × 720 pixels, ce qui les place à égalité avec les offres existantes.

À l’avenir, l’équipe annonce qu’elle dévoilera de nouveaux modèles spécialement conçus pour générer des vidéos de corps humains ainsi qu’une version mise à jour pour la capture de mouvements.

Alibaba avance avec les technologies émergentes

Un partenariat avec la société Web3 Avalanche début 2023 a permis à Alibaba d’entrer dans le métaverse malgré sa position antérieure sur la technologie blockchain. La guerre froide qui fait rage entre les États-Unis et la Chine dans le domaine des semi-conducteurs a depuis ralenti la progression d’Alibaba dans les domaines de l’IA et de l’informatique quantique, alors que l’entreprise cherche de nouvelles solutions à l’intérieur. Alibaba présente un nouvel outil de génération vidéo basé sur l’IA pour rivaliser avec les premiers acteurs.

Regardez  : l’IA n’est vraiment pas générative, elle est synthétique

Nouveau sur la blockchain ? Consultez la section Blockchain pour les débutants de CoinGeek, le guide de ressources ultime pour en savoir plus sur la technologie blockchain.