Le nouveau générateur d’images AI fait plus que SDXL avec moins

  • Stability AI lance un nouveau générateur d'images, Stable Cascade, qui offre une meilleure qualité et résolution tout en nécessitant moins de ressources que SDXL.
  • Le processus en trois étapes de Stable Cascade (compresseur d'image, reconstructeur et générateur de texte) permet une génération efficace et modulaire d'images.
  • Le modèle est rapide, détaillé, polyvalent et accessible, surpassant les modèles comparables comme SDXL en termes de qualité. Il est disponible sous licence non commerciale sur GitHub avec un flux de travail ComfyUI.

Stability AI, la société à l'origine du très populaire générateur d'images Stable Diffusion, vient de lancer une autre grenade dans l'arène très compétitive de l'IA.

La toute nouvelle Stable Cascade de Stability, alimentée par la nouvelle architecture open source Würstchen, offre une approche hautement efficace et modulaire de la génération de texte en image, équilibrant qualité, vitesse et adaptabilité.

Le modèle atteint un facteur de compression différent de tout ce que l'on a vu auparavant dans les modèles de diffusion stable traditionnels, affirme la société, qui nécessite moins de ressources que le SD 1.5 (qui produit des images 512X512) mais est capable de produire des résultats d'une plus grande résolution et de plus de détails, comparables aux modèles modernes. des générateurs comme SDXL ou MidJourney (qui fonctionnent généralement avec des résolutions 1024×1024).

Le nouveau générateur d’images AI fait plus que SDXL avec moins

Ingrédients Würstchen

Stable Cascade adopte un processus en trois étapes, distinct du pipeline Stable Diffusion traditionnel  :

  • Étape A  : Le compresseur d'image  : Contrairement aux modèles classiques, cette étape initiale traite les images comme des puzzles avancés. En utilisant un réseau contradictoire génératif vectoriel quantifié (VQGAN), l'image est découpée en sections compactes de 256 x 256. Chaque section reçoit un « jeton » discret provenant d'un livre de codes spécialisé. Cette étape ouvre la voie à un traitement ultra-rapide dans les étapes suivantes
  • Étape B  : le reconstructeur (modèle de diffusion latente) Cette phase gère le travail de reconstruction de l'image après compression. Considérez-le comme un rénovateur de bâtiments qualifié utilisant des instructions détaillées et des plans pour son travail
  • Étape C  : le générateur latent conditionnel de texte L'étape C se concentre uniquement sur le traitement des instructions textuelles et la production de latentes compressées. Cette approche de génération de texte découplée réduit considérablement la complexité et le coût du réglage fin pour des cas d'utilisation spécifiques
  • Avantages modulaires

    La conception modulaire de Stable Cascade apporte plusieurs avantages incontestables, selon ses développeurs. La première est l'extrême efficacité  : grâce à l'espace latent compressé (la façon dont une IA évalue la composition de l'image par opposition à l'espace des pixels, ce que voient les humains) et au modèle ciblé de stade C, Stable Cascade atteint des temps d'inférence plus rapides, ce qui signifie qu'elle calcule son prédictions plus rapides. Et il le fait avec des exigences matérielles considérablement réduites par rapport aux modèles à diffusion stable plus grands comme SDXL.

    Les tests internes de Stability AI ont démontré la capacité de Stable Cascade à surpasser systématiquement les modèles comparables comme SDXL en termes de qualité d'image et d'attrait esthétique. De plus, le modèle atteint ces résultats à des vitesses très élevées tout en exigeant beaucoup moins de ressources de calcul.

    L'architecture légère du modèle, son encombrement réduit et sa compatibilité avec du matériel informatique moins puissant réduisent la barrière à l'entrée, augmentant ainsi l'accessibilité des techniques avancées de génération de texte en image pour les utilisateurs occasionnels et les chercheurs.

    Faire plus avec moins

    Nos tests ont révélé que le modèle est précis et détaillé et ne présente pas l’esthétique délavée et caoutchouteuse des précédents modèles SDXL turbo ou LCM de Stability AI. Au lieu de cela, il génère des images très détaillées, comparables aux modèles SDXL affinés.

    Il dispose également de certaines capacités de génération de texte de base, qui peuvent être encore améliorées avec les LoRA déjà disponibles dans les référentiels en ligne comme Civitai.

    Stability AI rapporte que malgré l'hébergement de plus de paramètres que Stable Diffusion XL, Stable Cascade bénéficie toujours de temps d'inférence plus rapides et excelle dans l'alignement rapide.

    Le réglage fin de Stable Cascade nécessite également moins de ressources que les modèles de diffusion stable de taille similaire. Les chercheurs et les passionnés peuvent potentiellement entraîner le modèle sur des ensembles de données plus petits et avec une puissance de calcul considérablement moindre, ce qui le rend très rentable.

    Stable Cascade est publié sous une licence de recherche non commerciale et est facilement disponible sur le référentiel GitHub de Stability AI avec un flux de travail ComfyUI géré par la communauté déjà disponible qui télécharge automatiquement les modèles pour une utilisation plus facile.