La diffusion vidéo stable est le pari de Stability AI pour l'avenir de la vidéo

Après le lancement réussi d'un modèle texte-image, le lancement controversé d'un modèle texte-musique et le lancement largement inaperçu d'un modèle de génération de texte, Stability AI vient d'annoncer la sortie de Stable Video Diffusion, un modèle de génération de texte. -to-video qui vise à tailler une partie de l'espace vidéo génératif naissant.
"Diffusion vidéo stable un modèle de diffusion vidéo latente pour la génération de texte en vidéo et d'image en vidéo à haute résolution », explique Stability AI dans le document de recherche du modèle, et ajoute dans l'annonce officielle : « S'étendant sur plusieurs modalités incluant l'image, le langage, l'audio, la 3D et le code, notre portefeuille témoigne de l'engagement de Stability AI à amplifier l'intelligence humaine.
Cette adaptabilité, associée à la technologie open source, ouvre la voie à de nombreuses applications dans les domaines de la publicité, de l'éducation et du divertissement. Stable Video Diffusion, désormais disponible dans un aperçu de recherche, est capable de « surpasser les méthodes basées sur l'image pour une fraction de leur budget de calcul », selon les chercheurs.
Les capacités techniques de Stable Video Diffusion sont impressionnantes. "Les études sur les préférences humaines révèlent que le modèle résultant surpasse les modèles image-vidéo de pointe", révèle le document de recherche. Stability est clairement confiant dans la supériorité du modèle dans la transformation d'images statiques en contenu vidéo dynamique, affirmant que son modèle bat les modèles fermés dans les études sur les préférences des utilisateurs.
Stability AI a développé deux modèles sous l'égide de Stable Video Diffusion : SVD et SVD-XT. Le modèle SVD transforme les images fixes en vidéos 576×1024 en 14 images, tandis que SVD-XT utilise la même architecture mais s'étend jusqu'à 24 images. Les deux modèles offrent la génération vidéo à des fréquences d’images allant de trois à 30 images par seconde, à la pointe de la technologie texte-vidéo open source.
Dans le domaine en évolution rapide de la génération vidéo IA, Stable Video Diffusion est en concurrence avec des modèles innovants comme ceux développés par Pika Labs, Runway et Meta. Emu Video, récemment annoncé par ce dernier, similaire dans sa capacité de conversion texte-vidéo, montre un potentiel important avec son approche unique en matière d'édition d'images et de création vidéo, bien qu'avec une limitation actuelle aux vidéos d'une résolution de 512 x 512 pixels.
Malgré ses réalisations technologiques, Stability AI fait face à des défis, notamment des considérations éthiques liées à l'utilisation de données protégées par le droit d'auteur dans la formation en IA. La société souligne que le modèle "n'est pas destiné à des applications réelles ou commerciales à ce stade", se concentrant sur son perfectionnement en fonction des commentaires de la communauté et des préoccupations en matière de sécurité.
À en juger par le succès de SD 1.5 et SDX, les modèles open source les plus puissants pour la génération d'images, cette nouvelle aventure dans la scène de la génération vidéo laisse présager un avenir où les frontières entre l'imaginaire et le réel ne sont pas seulement floues, mais magnifiquement redessinées. .
Edité par Ryan Ozawa.

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception.