Stable Diffusion 3 est là, une génération d'images IA qui bat MidJourney, Dall-E 3 et Google ImageFX

  • Stable Diffusion 3 : Nouvelle génération d'images IA performante
  • Comparaisons avec concurrents : Bat MidJourney, Dall-E 3 et Google ImageFX dans la qualité globale
  • Sous le capot : Utilisation d'un nouveau transformateur de diffusion et ouverture à des applications multimodales

Stability AI vient d'annoncer le premier aperçu de son outil d'image de nouvelle génération, Stable Diffusion 3 (SD3), le qualifiant de « modèle texte-image le plus performant » à ce jour. Cette annonce fait suite à la sortie par la société de Stable Diffusion XL (SDXL) l'année dernière, qui s'est rapidement imposée comme le générateur d'images open source le plus avancé.

Les principales améliorations apportées avec SD3 sont une meilleure génération de texte, une forte adhésion aux invites et une résistance aux fuites d'invites, ces dernières forces garantissant que les images générées correspondent à ce qui a été demandé. Stability AI a également mis en évidence la prise en charge SD3 de l'entrée multimodale, promettant de le démontrer via un futur rapport technique.

La communauté de l’IA a répondu avec enthousiasme à l’actualité SD3.

Stable Diffusion 3 est là, une génération d'images IA qui bat MidJourney, Dall-E 3 et Google ImageFX

a déclaré MattVidPro, un éminent YouTuber axé sur l'IA. « C'est bien au-dessus des autres, et c'est vraiment époustouflant. »

De même, l'ingénieur en apprentissage automatique Ralph Brooks a déclaré que les capacités de génération de texte du modèle étaient « incroyables ».

Affrontement côte à côte

Bien que Stable Diffusion 3 ne soit disponible que pour certains partenaires pour le moment, les passionnés de Stability AI et d'IA partagent des comparaisons entre sa sortie et le résultat d'invites similaires de SDXL, MidJourney et Dall-E 3. De toute évidence, SD3 surpasse ses concurrents dans qualité globale, et Decrypt a effectué certains de ses propres tests pour le vérifier. Les résultats parlent d'eux-mêmes:

SD3 et MidJourney

Invite  : « Illustration d'anime épique représentant un sorcier au sommet d'une montagne la nuit jetant un sort cosmique dans le ciel sombre qui dit 'Stable Diffusion 3', composé d'énergie colorée. »

Stable Diffusion 3 (à gauche) vs MidJourney (à droite) en utilisant la même invite. Image  : DécrypterLors de notre première comparaison, SD3 a suivi de très près l'invite. MidJourney a échoué à la génération rapide, n'a pas généré de montagne et le sorcier ne lançait pas de sort cosmique.

SD3 et ImageFX

SD3' en très grand format sur le mur.

Stable Diffusion 3 (à gauche) vs ImageFX (à droite) en utilisant la même invite. Image  : DécrypterDans notre deuxième comparaison, SD3 a suivi l'invite avec une adhésion remarquable, alors que le principal générateur d'images IA de Google, ImageFX, a souffert de fuites d'invite, générant le texte SD3 sur l'écran de l'ordinateur et non en arrière-plan, sans tenir compte de la demande de style graffiti, et en omettant de décrire le mot « bienvenue ».

Notez les effets entourant le pot à crayons et autres objets, qui semblent se fondre dans le fond.

SD3 contre SDXL

Invite : « Sur la table de la cuisine se trouve un tissu brodé avec le texte « bonne nuit » et un bébé tigre brodé. À côté du tissu se trouve une bougie allumée. L’éclairage est faible et dramatique.

Stable Diffusion 3 (à gauche) vs Dall-e 3 (à droite) en utilisant la même invite. Image  : DécrypterDans notre troisième comparaison, Stable Diffusion 3 et Stable Diffusion XL ont capturé l'essence de l'invite, mais SDXL n'a pas réussi à générer le texte, a souffert de fuites d'invite (générant deux tissus, dont l'un s'est transformé en autre chose), et le bébé brodé Tiger a été mieux généré par SD3.

SD3 contre Dall-e 3

Invite  : « Une peinture représentant un astronaute chevauchant un cochon portant un tutu tenant un parapluie rose, sur le sol à côté du cochon se trouve un rouge-gorge portant un haut-de-forme, dans le coin se trouvent les mots « diffusion stable ». »

Stable Diffusion 3 (à gauche) vs SDXL (à droite) en utilisant la même invite. Image  : DécrypterStable Diffusion 3 a généré ce qui était demandé dans l'invite, tandis que Dall-e 3 n'a pas réussi à générer du texte, a créé un rendu 3D au lieu d'une peinture et a généré un arrière-plan de galaxie simplement parce qu'il a été invité à générer un astronaute.

Sous le capot

En théorie, Stable Diffusion 3 devrait disposer de suffisamment de puissance de calcul pour étayer ses affirmations de puissance et de prouesse.

« (SD3) utilise un nouveau type de transformateur de diffusion (similaire à Sora) combiné à une adaptation de flux et à d'autres améliorations », a déclaré Emad Mostaque, PDG de Stability AI, sur Twitter. Sora est le générateur de texte en vidéo haut de gamme annoncé par OpenAI il y a quelques jours. Flow Matching, quant à lui, est une technique d’IA pour la modélisation générative basée sur une formation et une inférence plus rapides et plus stables que les méthodes alternatives, comme les réseaux contradictoires génératifs (GAN).

Quelques notes:

  • Cela utilise un nouveau type de transformateur de diffusion (similaire à Sora) combiné à une adaptation de débit et à d'autres améliorations.
  • Cela profite des améliorations du transformateur et peut non seulement évoluer davantage, mais également accepter des entrées multimodales
  • Plus de détails techniques bientôt

Stability AI affirme que ces améliorations améliorent l'évolutivité du modèle et sa capacité à accepter des entrées multimodales, et ouvrent également la voie à son application en vidéo, 3D et plus encore. Mostaque a tweeté que sa vision pour SD3 comprend un écosystème complet d'outils conçus pour tirer parti des dernières avancées matérielles tout en restant accessible et adaptable dans divers domaines créatifs.

Une semaine avant l'annonce du SD3, Stability AI a publié Stable Cascade. Contrairement à ses prédécesseurs, Stable Cascade est basé sur l'architecture Würstchen, connue pour sa modularité et ses performances de compression record. Bien qu'il héberge plus de paramètres que Stable Diffusion XL, Stable Cascade offre des temps d'inférence plus rapides et un alignement d'invite supérieur, démontrant les progrès innovants que Stability AI continue de faire dans le développement de l'IA.

Bien que Stable Diffusion 3 ne soit pas encore accessible au public, Stability AI a souligné qu'il serait gratuit, open source et accessible à tous sous une licence non commerciale. Cependant, les passionnés peuvent demander un accès en avant-première dans le cadre du programme d'adhésion de Stability AI.