Ce nouveau modèle d'IA caché de Google bat Dall-E et MidJourney d'OpenAI, gratuitement

et il est étonnamment bon.

C'est surprenant parce qu'il vient de Google et parce que ce n'est pas le générateur basique, un peu laid et paresseux, que vous avez l'habitude de voir dans Bard. Il est également caché au grand public, mais cela ne veut pas dire que vous ne pouvez pas l'utiliser.

Son nom est ImageFX et il s'agit de la dernière aventure de Google dans le domaine de la génération d'images IA. Il est disponible via AI Test Kitchen de Google, une plate-forme expérimentale qui permet aux utilisateurs d'interagir avec les projets de Google pendant qu'ils sont encore en développement.

L'introduction d'ImageFX fait partie de la stratégie plus large de Google visant à explorer diverses facettes de l'intelligence artificielle générative.

Il rejoint une suite d'outils spécialisés, notamment MusicFX pour la création musicale et TextFX pour la génération de texte stylisé.

Google contre Dall-e 3 contre MidJourney

Bien que la rentabilité soit un facteur important, ce sont les fonctionnalités comparatives et la qualité des résultats qui distinguent ces outils. ImageFX excelle dans la production d'images hyperréalistes, surpassant les rendus quelque peu caricaturaux de Dall-E 3 et l'accent mis par MidJourney sur des visuels esthétiquement attrayants.

Mais ce n'est pas parce qu'ImageFX est gratuit qu'il est mauvais.

De plus, ImageFX peut mettre en évidence les mots clés et suggérer des alternatives créatives, une fonctionnalité non disponible chez ses concurrents.

Capture d'écran des suggestions d'invite d'ImageFXImageFX a cependant ses limites. L'outil génère exclusivement des images carrées, tandis que Dall-E 3 et MidJourney offrent une flexibilité dans les proportions. De plus, contrairement à MidJourney, ImageFX ne prend pas en charge les fonctionnalités d'édition d'images telles que l'inpaint et l'outpaint, ce qui limite sa polyvalence.

Enfin, la fonctionnalité conversationnelle de Dall-E 3, qui permet aux débutants d'instruire le modèle en langage naturel, contraste avec les invites basées sur des mots clés requises par ImageFX et MidJourney.

L'approche de l'incitation diffère également considérablement entre ces modèles. ImageFX ne prend pas en charge les invites négatives, qui permettent aux utilisateurs de spécifier ce qu'ils doivent exclure de l'image.

MidJourney offre cette fonctionnalité, ajoutant une couche de précision au processus créatif. Dall-E 3 manque également d'incitations négatives directes, mais son interface conversationnelle permet aux utilisateurs de guider le modèle indirectement, offrant une approche différente pour affiner les sorties d'image.

Une image vaut mille mots

Decrypt a eu accès à ImageFX et a pu comparer ses générations avec MidJourney et Dall-E 3.

Nous avons utilisé la même invite pour tous les modèles et les résultats ci-dessous sont toujours présentés dans le même ordre de gauche à droite : le premier est ImageFX, le deuxième est MidJourney, et le troisième est Dall-E 3.

Photoréalisme

Invite : Photo d'un commerçant de crypto-monnaie avec une expression inquiète

De gauche à droite, les générations ImageFX, MidJourney et Dall-E 3.ImageFX et MirJourney ont généré des résultats assez réalistes.

ce qui signifie que le premier est plus fidèle à la réalité tandis que le second est plus artistique, avec des couleurs saturées, un bokeh exagéré, etc.

Au lieu de cela, il a créé un rendu 3D se concentrant davantage sur le contenu.

Illustrations

Invite : Illustration d'un ours mystérieux surfant sur une vague cybernétique

De gauche à droite, les générations ImageFX, MidJourney et Dall-E 3.Cette invite était un peu plus abstraite pour tester la manière dont les modèles interprètent les idées non standard.

Il s'agissait évidemment d'une illustration, et cela ressemble à l'esthétique cybernétique, mais la morphologie de l'ours est erronée, et l'image manque de qualité face à ses concurrents.

Langage naturel long

plan large complexe".

MidJourney a refusé de générer des images à la première invite.

avec les doigts spaghetti typiques.

Texte dans l'image

Invite : Une ville futuriste avec une enseigne au néon indiquant "EMERGE by Decrypt"

De gauche à droite, les générations ImageFX, MidJourney et Dall-E 3.Habituellement, le meilleur générateur de texte est de loin Dall-e 3.

Cependant, dans ce cas précis et dans les conditions fixées par la méthodologie de comparaison, il n'a pas écrit correctement le texte. ImageFX n'a ​​pas pu générer la phrase entière : ses capacités de génération de texte sont là, mais sont probablement les moins impressionnantes du groupe.

Cela dit, Dall-E et ImageFX ont été les meilleurs pour capturer l'essence d'une ville futuriste, tandis que MidJourney a généré une ville esthétiquement agréable mais pas futuriste du tout.

Conclusion

Les aficionados de l'IA disposent désormais d'une multitude de modèles d'IA qui répondent à de nombreux besoins. La plupart étant proposés gratuitement, il n'est pas nécessaire de choisir des gagnants : chacun a un cas d'utilisation spécifique qui le distingue.

MidJourney n'est pas doué pour respecter les invites mais est parfait pour ceux qui recherchent des images esthétiques.

Dall-E 3 est le meilleur pour les débutants qui souhaitent générer des rendus et ne veulent même pas penser à l'ingénierie rapide, aux mots-clés et aux paramètres et veulent simplement parler à son IA comme s'il s'agissait simplement d'un autre ami.