La diffusion vidéo stable est le pari de Stability AI pour l'avenir de la vidéo


Après le lancement réussi d’un modèle texte-image, le lancement controversé d’un modèle texte-musique et le lancement largement inaperçu d’un modèle de génération de texte, Stability AI vient d’annoncer la sortie de Stable Video Diffusion, un modèle de génération de texte. -to-video qui vise à tailler une partie de l’espace vidéo génératif naissant.

« Diffusion vidéo stable [is] un modèle de diffusion vidéo latente pour la génération de texte en vidéo et d’image en vidéo à haute résolution », explique Stability AI dans le document de recherche du modèle, et ajoute dans l’annonce officielle : « S’étendant sur plusieurs modalités incluant l’image, le langage, l’audio, la 3D et le code, notre portefeuille témoigne de l’engagement de Stability AI à amplifier l’intelligence humaine.

Cette adaptabilité, associée à la technologie open source, ouvre la voie à de nombreuses applications dans les domaines de la publicité, de l’éducation et du divertissement. Stable Video Diffusion, désormais disponible dans un aperçu de recherche, est capable de « surpasser les méthodes basées sur l’image pour une fraction de leur budget de calcul », selon les chercheurs.

La diffusion vidéo stable est le pari de Stability AI pour l'avenir de la vidéo

Les capacités techniques de Stable Video Diffusion sont impressionnantes. « Les études sur les préférences humaines révèlent que le modèle résultant surpasse les modèles image-vidéo de pointe », révèle le document de recherche. Stability est clairement confiant dans la supériorité du modèle dans la transformation d’images statiques en contenu vidéo dynamique, affirmant que son modèle bat les modèles fermés dans les études sur les préférences des utilisateurs.

Stability AI a développé deux modèles sous l’égide de Stable Video Diffusion  : SVD et SVD-XT. Le modèle SVD transforme les images fixes en vidéos 576×1024 en 14 images, tandis que SVD-XT utilise la même architecture mais s’étend jusqu’à 24 images. Les deux modèles offrent la génération vidéo à des fréquences d’images allant de trois à 30 images par seconde, à la pointe de la technologie texte-vidéo open source.

Dans le domaine en évolution rapide de la génération vidéo IA, Stable Video Diffusion est en concurrence avec des modèles innovants comme ceux développés par Pika Labs, Runway et Meta. Emu Video, récemment annoncé par ce dernier, similaire dans sa capacité de conversion texte-vidéo, montre un potentiel important avec son approche unique en matière d’édition d’images et de création vidéo, bien qu’avec une limitation actuelle aux vidéos d’une résolution de 512 x 512 pixels.

À en juger par le succès de SD 1.5 et SDX, les modèles open source les plus puissants pour la génération d’images, cette nouvelle aventure dans la scène de la génération vidéo laisse présager un avenir où les frontières entre l’imaginaire et le réel ne sont pas seulement floues, mais magnifiquement redessinées..