Le géant chinois de la technologie Alibaba dévoile un nouvel outil vidéo d'IA

  • Alibaba Cloud a dévoilé son outil d'IA I2VGen-XL, un système texte-vidéo avancé.
  • Cette innovation s'inscrit dans la course à la suprématie de l'IA entre les États-Unis et la Chine.
  • Alibaba explore diverses technologies émergentes telles que l'animation basée sur l'IA et les monnaies numériques.

Un autre jour, un autre modèle d’intelligence artificielle. Alibaba Cloud, filiale du conglomérat chinois Alibaba Group et l’une des plus grandes sociétés de cloud computing au monde, a dévoilé son outil d’IA I2VGen-XL. Il s’agit d’un système texte-vidéo avancé destiné à rivaliser avec des modèles haut de gamme comme ceux publiés par Pika Labs ou Stability AI.

La société a annoncé aujourd’hui la publication des poids du modèle après avoir publié le document de recherche sur le modèle le mois dernier.

I2VGen-XL est conçu à l’aide de modèles de diffusion en cascade, explique le document, une technique d’IA sophistiquée qui garantit que les vidéos générées sont non seulement visuellement impressionnantes, mais également contextuellement cohérentes et sémantiquement précises. Il fonctionne selon un processus en deux étapes  : l’étape de base se concentre sur le maintien de la cohérence avec le texte et les images saisis, et l’étape de raffinement améliore les détails et la résolution de la vidéo, atteignant jusqu’à 1 280 x 720 pixels.

Le géant chinois de la technologie Alibaba dévoile un nouvel outil vidéo d'IA

Cette technique peut ressembler à celles utilisées pour générer des images avec SDXL. Contrairement à SD 1.5 et SD 2.1 qui reposaient sur un seul modèle, Stability AI a développé deux modèles différents, une base et un affineur, qui doivent être combinés pour générer des images de la meilleure qualité possible.

Alibaba Cloud affirme que la formation du modèle a utilisé un vaste ensemble de données d’environ 35 millions de paires texte-vidéo et un nombre impressionnant de 6 milliards de paires texte-image. Un ensemble de données aussi vaste garantit la polyvalence et la précision du modèle dans divers scénarios et sujets.

Un nouveau modèle dans une course aux armements en matière d’IA

Cette publication intervient alors que le paysage technologique mondial connaît des tensions et une concurrence accrues, notamment entre les États-Unis et la Chine. Dans un contexte de restrictions commerciales et de pression en faveur de l’autonomie technologique, la décision d’Alibaba est à la fois opportune et stratégiquement significative pour le pays.

La dernière innovation d’Alibaba n’est pas un développement isolé mais fait partie d’un récit plus long de rivalité technologique. Alors que les États-Unis imposent des restrictions sur les exportations de puces et que la Chine répond par ses contre-mesures, la course à la suprématie de l’IA s’est accélérée. Cet environnement a stimulé les progrès des technologies locales, les deux pays se disputant une position de leader dans les domaines de l’IA, de la technologie des semi-conducteurs et de l’innovation 5G.

Comparé à d’autres avancées notables dans le domaine, telles que le modèle de Pika Labs et Stable Video Diffusion, I2VGen-XL se distingue par son approche unique et sa grande précision sémantique. Une démo avec plusieurs exemples d’utilisation de HiGen (un modèle de diffusion) avec I2VGen-XL montre une amélioration majeure de la cohérence temporelle et de trame par rapport à l’utilisation de HiGen seul.

Le modèle I2VGen-XL d’Alibaba représente une étape importante dans le paysage de l’IA car il offre une alternative aux modèles qui sont soit interdits aux utilisateurs chinois, soit pourraient être restreints à l’avenir par les États-Unis ou le gouvernement chinois.

Les nouvelles technologies d’Alibaba

Alibaba va au-delà du simple commerce électronique. Elle est depuis un certain temps un acteur important dans les technologies émergentes, poussant constamment de nouveaux développements dans les domaines de l’IA, du métaverse, des logiciels et même des monnaies numériques.

Dans l’animation basée sur l’IA, outre sI2VGen-XL, le modèle « Animate Anybody » d’Alibaba se démarque. Cet outil transforme les images statiques en animations dynamiques, en utilisant un nouveau framework appelé ReferenceNet. L’intégration de modèles de diffusion sophistiqués permet d’obtenir des vidéos temporellement stables et visuellement cohérentes.

Alibaba Cloud s’est également associé à Avalanche pour lancer sa plateforme Cloudverse. Cette technologie offre aux entreprises une voie transparente pour créer et maintenir leurs univers numériques. L’alliance stratégique avec Avalanche et l’implication de Metaverse Universal Assets DAO dans les solutions middleware souligne l’approche collaborative d’Alibaba et son engagement à exploiter les technologies Web3.

De plus, les idées de Jack Ma sur les monnaies numériques témoignent du vif intérêt d’Alibaba pour l’avenir de la finance mondiale. Le plaidoyer de Ma en faveur du rôle transformateur des monnaies numériques dans l’établissement d’un nouveau système financier s’aligne sur la tendance mondiale croissante vers la numérisation de la finance. Le PDG d’Alibaba s’est présenté comme un crypto-sceptique, mais une telle position est loin d’être un haineux pour la crypto, Alibaba ayant lancé une activité Blockchain as a Service au milieu du tristement célèbre hiver crypto de 2018.