Ce nouveau modèle d'IA caché de Google bat Dall-E et MidJourney d'OpenAI, gratuitement


images IA en ville, et il est étonnamment bon.

C'est surprenant parce qu'il vient de Google et parce que ce n'est pas le générateur basique, un peu laid et paresseux, que vous avez l'habitude de voir dans Bard. Il est également caché au grand public, mais cela ne veut pas dire que vous ne pouvez pas l'utiliser.

Son nom est ImageFX et il s'agit de la dernière aventure de Google dans le domaine de la génération d'images IA. Il est disponible via AI Test Kitchen de Google, une plate-forme expérimentale qui permet aux utilisateurs d'interagir avec les projets de Google pendant qu'ils sont encore en développement.

Ce nouveau modèle d'IA caché de Google bat Dall-E et MidJourney d'OpenAI, gratuitement

Sa disponibilité est toutefois limitée à des régions spécifiquesamélioration du système.

L'introduction d'ImageFX fait partie de la stratégie plus large de Google visant à explorer diverses facettes de l'intelligence artificielle générative. Il rejoint une suite d'outils spécialisés, notamment MusicFX pour la création musicale et TextFX pour la génération de texte stylisé.

Google contre Dall-e 3 contre MidJourney

ImageFX de Google marque une entrée notable dans le domaine des générateurs d'images pilotés par l'IA, en concurrence directe avec des acteurs établis comme Dall-E 3 et MidJourney. Un avantage distinctif pour ImageFX dans sa première phase bêta est son accès gratuit, qui s'écarte de l'intégration de Dall-E avec ChatGPT au tarif mensuel de 20 $ et de l'abonnement annuel de MidJourney proche de 100 $.

Bien que la rentabilité soit un facteur important, ce sont les fonctionnalités comparatives et la qualité des résultats qui distinguent ces outils. ImageFX excelle dans la production d'images hyperréalistes, surpassant les rendus quelque peu caricaturaux de Dall-E 3 et l'accent mis par MidJourney sur des visuels esthétiquement attrayants.

Mais ce n’est pas parce qu’ImageFX est gratuit qu’il est mauvais. ImageFX offre des fonctionnalités uniques telles que le contrôle des semences, permettant aux utilisateurs d'affiner le processus de création en ajustant la configuration initiale du bruit. Ce niveau de contrôle est inégalé par Dall-E 3 ou MidJourney, permettant aux utilisateurs d'effectuer des ajustements subtils tout en conservant les éléments essentiels de l'image.

De plus, ImageFX peut mettre en évidence les mots clés et suggérer des alternatives créatives, une fonctionnalité non disponible chez ses concurrents.

Capture d'écran des suggestions d'invite d'ImageFXImageFX a cependant ses limites. L'outil génère exclusivement des images carrées, tandis que Dall-E 3 et MidJourney offrent une flexibilité dans les proportions. De plus, contrairement à MidJourney, ImageFX ne prend pas en charge les fonctionnalités d'édition d'images telles que l'inpaint et l'outpaint, ce qui limite sa polyvalence. Enfin, la fonctionnalité conversationnelle de Dall-E 3, qui permet aux débutants d'instruire le modèle en langage naturel, contraste avec les invites basées sur des mots clés requises par ImageFX et MidJourney.

L’approche de l’incitation diffère également considérablement entre ces modèles. ImageFX ne prend pas en charge les invites négatives, qui permettent aux utilisateurs de spécifier ce qu'ils doivent exclure de l'image. MidJourney offre cette fonctionnalité, ajoutant une couche de précision au processus créatif. Dall-E 3 manque également d'incitations négatives directes, mais son interface conversationnelle permet aux utilisateurs de guider le modèle indirectement, offrant une approche différente pour affiner les sorties d'image.

Une image vaut mille mots

Decrypt a eu accès à ImageFX et a pu comparer ses générations avec MidJourney et Dall-E 3. Nous avons utilisé la même invite pour tous les modèles et les résultats ci-dessous sont toujours présentés dans le même ordre de gauche à droite  : le premier est ImageFX, le deuxième est MidJourney, et le troisième est Dall-E 3.

Photoréalisme  :

Invite  : Photo d'un commerçant de crypto-monnaie avec une expression inquiète

ce qui signifie que le premier est plus fidèle à la réalité tandis que le second est plus artistique, avec des couleurs saturées, un bokeh exagéré, etc.

Au lieu de cela

Illustrations  :

Invite  : Illustration d'un ours mystérieux surfant sur une vague cybernétique

De gauche à droite, les générations ImageFX, MidJourney et Dall-E 3.Cette invite était un peu plus abstraite pour tester la manière dont les modèles interprètent les idées non standard. ImageFX et MidJourney ont généré les images les plus esthétiques, mais MidJourney ressemble plus à un rendu qu'à une illustration et ImageFX a essayé de capturer l'essence de ce que pourrait être une vague cybernétique. Au lieu de cela, MidJourney a associé le terme « cybernétique » à l’ours. Dall-e 3 a capturé l'essence de plus près. Il s'agissait évidemment d'une illustration, et cela ressemble à l'esthétique cybernétique, mais la morphologie de l'ours est erronée, et l'image manque de qualité face à ses concurrents.

Langage naturel long  :

un mystérieux expert en informatique travaillant sur un ordinateur portable avec un agent du FBI derrière lui attendant de le capturer complexe ».

MidJourney a refusé de générer des images à la première invite.

Texte dans l'image  :

Invite  : Une ville futuriste avec une enseigne au néon indiquant « EMERGE by Decrypt »

De gauche à droite, les générations ImageFX, MidJourney et Dall-E 3.Habituellement, le meilleur générateur de texte est de loin Dall-e 3. Cependant, dans ce cas précis et dans les conditions fixées par la méthodologie de comparaison, il n'a pas écrit correctement le texte. ImageFX n'a ​​pas pu générer la phrase entière : ses capacités de génération de texte sont là, mais sont probablement les moins impressionnantes du groupe.

Cela dit, Dall-E et ImageFX ont été les meilleurs pour capturer l'essence d'une ville futuriste, tandis que MidJourney a généré une ville esthétiquement agréable mais pas futuriste du tout.

Conclusion

Les aficionados de l’IA disposent désormais d’une multitude de modèles d’IA qui répondent à de nombreux besoins. La plupart étant proposés gratuitement, il n'est pas nécessaire de choisir des gagnants  : chacun a un cas d'utilisation spécifique qui le distingue.

MidJourney n'est pas doué pour respecter les invites mais est parfait pour ceux qui recherchent des images esthétiques.

Dall-E 3 est le meilleur pour les débutants qui souhaitent générer des rendus et ne veulent même pas penser à l'ingénierie rapide, aux mots-clés et aux paramètres et veulent simplement parler à son IA comme s'il s'agissait simplement d'un autre ami.