Les générateurs d'images IA atteignent des vitesses « turbo »  : création SDXL et LCM Edge en temps quasi réel


La technologie de génération d’images d’intelligence artificielle (IA) s’accélère rapidement, à plus d’un titre. Les progrès récents ont catapulté l’industrie d’un progrès constant à des percées incessantes, promettant désormais l’avènement de la création d’images haute fidélité en temps réel.

Ce n’est pas que ces outils étaient lents : une minute n’est pas trop longue pour « en faire plus ». Mais les utilisateurs exigent toujours plus : plus de réalisme, plus de polyvalence, plus de variété et plus de vitesse. Et sur ce dernier point, les chercheurs sont heureux de répondre à leurs attentes.

SDXL appuie sur l’accélérateur

Stability AI a dévoilé SDXL Turbo, qui pourrait représenter un bond monumental dans la génération d’images IA. Nous ne disons pas cela à la légère : le modèle récemment annoncé peut générer des images en une seconde au lieu des 30 à plus de 60 secondes que prennent les générateurs habituels. Il s’agit presque, sinon efficacement, de génération d’images IA en temps réel.

Les générateurs d'images IA atteignent des vitesses « turbo »  : création SDXL et LCM Edge en temps quasi réel

SDXL Turbo est différent de tous les modèles précédents à diffusion stable. La technologie Adversarial Diffusion Distillation (ADD) permet de réduire considérablement le nombre d’étapes nécessaires pour générer des images de haute qualité – aussi peu qu’une seule étape alors que les images normales peuvent prendre entre 30 et 100 étapes. « ADD est la première méthode permettant de débloquer la synthèse d’images en une seule étape et en temps réel avec des modèles de base », affirme Stability AI dans un document de recherche.

Présentation de SDXL Turbo  : un modèle de génération de texte en image en temps réel.

SDXL Turbo atteint des performances de pointe grâce à une nouvelle technologie de distillation, permettant la génération d’images en une seule étape avec une qualité sans précédent, réduisant le nombre d’étapes requis de 50 à une seule.

Le…

SDXL Turbo utilise un hybride de formation contradictoire et de distillation de scores, optimisant le processus de génération et garantissant que les images sont produites rapidement tout en conservant une haute fidélité.

En conséquence, l’introduction de SDXL Turbo permet la production presque instantanée d’images complexes à haute résolution. Cette nouvelle approche attire également l’attention sur les GAN, qui ont été largement oubliés après que la technologie de diffusion a commencé à dominer la scène.

Les modèles de cohérence latente sont synonymes d’efficacité

Si vous ne voulez pas dire adieu à vos modèles de diffusion stable « hérités », les chercheurs ont une solution pour vous.

Les avancées de SDXL Turbo sont accompagnées de modèles de cohérence latente (LCM) et de LCM-LoRA, chacun contribuant de manière unique au domaine.

Les LCM, tels que présentés dans leur document de recherche dédié, se distinguent par leur capacité à générer des images haute résolution en fonctionnant efficacement dans l’espace latent d’auto-encodeurs pré-entraînés comme Stable Diffusion. Les LCM visent à améliorer la vitesse de génération d’images sans perte significative de qualité, en se concentrant sur les sorties haute résolution. Utilisant une méthode de distillation guidée en une étape, les LCM transforment les modèles de diffusion pré-entraînés en générateurs d’images rapides, sautant les étapes inutiles.

Mais au lieu de franchir un grand nombre d’étapes, ils pourraient baisser la jauge au minimum. Le modèle produira de bonnes images avec quatre étapes en quelques secondes, au lieu de calculer la génération pour 25, 50 ou 75 étapes par image.

mais il existe de nombreux excellents modèles disponibles pour les tests.

LCM-LoRAS : turbocompressez tous les modèles

Lancé en tandem avec les LCM, LCM-LoRA propose un module d’accélération universel qui peut être intégré dans divers modèles à diffusion stable. « LCM-LoRA peut être considéré comme un solveur neuronal plug-in PF-ODE doté de fortes capacités de généralisation », indique le document de recherche.

LCM-LoRA est conçu pour augmenter l’efficacité des modèles de diffusion stable existants, les rendant plus rapides et plus polyvalents. Il utilise LoRA (Low-Rank Adaptation) pour mettre à jour les matrices de poids pré-entraînées, réduisant ainsi la charge de calcul et les besoins en mémoire.

Avec LCM-LoRA, les modèles normaux à diffusion stable connaissent une augmentation considérable de leurs vitesses de génération d’images, ce qui les rend très efficaces pour diverses tâches. Les utilisateurs n’auraient même pas besoin de télécharger un nouveau modèle : il leur suffirait d’activer le LCM LoRA et de générer des images aussi rapidement qu’un mode LCM le ferait.

Les LCM-LoRA peuvent être téléchargés pour SD 1.5 et SDXL ici.

1917 (film 2019)

Edité en utilisant Stable Diffusion AI comme pratique, utilisé LCM Lora (5 étapes d’échantillonnage) pour restituer chaque image en seulement 6 secondes 🤯

Qualité contre rapidité

Malgré ces avancées technologiques, la nécessité demeure d’équilibrer vitesse et qualité d’image. Bien que les outils de génération rapide comme SDXL Turbo et LCM-LoRA accélèrent le processus de création, ils le font au détriment d’une certaine fidélité de l’image. En d’autres termes, une image générée avec 50 étapes et un bon modèle aura toujours une résolution ou une fidélité d’image plus élevée qu’une image générée avec 5 étapes et un bon modèle LCM.

Cependant, ce compromis est atténué par leur utilité dans les flux de travail typiques où de nombreuses images sont générées pour trouver celle parfaite. Les itérations ultérieures avec des outils tels que l’image à image ou l’inpaint peuvent améliorer les détails de ces images de première coupe, compensant ainsi toute perte de qualité initiale. Une image correctement éditée générée avec l’une de ces technologies rapides peut être aussi bonne qu’une image générée par un modèle de diffusion stable normal.