Ideogram est un nouveau générateur d'images IA qui efface la concurrence, surpassant MidJourney et Dall-E 3


Ideogram AI, une startup fondée par d'anciens ingénieurs de Google aux côtés de membres d'institutions prestigieuses comme l'UC Berkeley, l'Université Carnegie Mellon et l'Université de Toronto, a annoncé la sortie de la première version complète de son générateur d'images éponyme.

ainsi qu'une nouvelle fonctionnalité appelée Magic Prompt qui vous aide à rédiger des invites détaillées pour des images magnifiques et créatives.

Cette publication s'accompagne de l'annonce d'une collecte de fonds de série A de 80 millions de dollars menée par Andreessen Horowitz, aux côtés de Redpoint Ventures, Pear VC et SV Angel.

Ideogram est un nouveau générateur d'images IA qui efface la concurrence, surpassant MidJourney et Dall-E 3

avoir dirigé le tour et à @Redpoint @IndexVenturesavoir participé  !

Ideogram 1.0 s'améliorera considérablement bientôt  !

Decrypt a pu tester le modèle et les affirmations d'Ideogram AI ne sont pas exagérées : une comparaison côte à côte peut être trouvée ci-dessous. La première version d'Ideogram constitue une nette amélioration par rapport à ses prédécesseurs v0.1 et v0.2  : elle excelle en termes d'adhésion rapide, de qualité d'image et de capacités de génération de texte.

Le modèle n'est pas open source, la visibilité sur sa plomberie est donc limitée et aucun document de recherche à évaluer. Mais les résultats obtenus avec le modèle parlent d'eux-mêmes, en faisant potentiellement le meilleur modèle actuellement disponible, du moins jusqu'à ce que Stable Diffusion 3 soit rendu public.

Le nouveau modèle est sans doute le générateur d'images le plus performant en termes de capacités de texte, générant des chaînes de texte plus longues avec moins d'erreurs que Dall-E 3 ou MidJourney. Le niveau gratuit actuel lui donne également un avantage sur des concurrents comme Dall-E 3 et MidJourney, ce dernier n'ayant pas de niveau gratuit. Microsoft Copilot utilise également Dall-E 3, mais il ne génère que des images carrées 1 :1, alors qu'Ideogram prend en charge un ensemble plus large de formats d'image.

Tous les niveaux inférieurs affichent publiquement les images demandées.

co/Xtv2rRbQXI  !

un respect exceptionnel des invites et une nouvelle fonctionnalité appelée Magic Prompt pour faciliter les invites.

Ideogram est capable de comprendre de longues invites, de rivaliser avec Stable Diffusion 3 et de battre tous les autres générateurs d'images dans ce domaine.

L'une des fonctionnalités les plus remarquables d'Ideogram est « Prompt Magic », qui peut être activée et désactivée. Cette fonctionnalité analyse l'invite et l'améliore pour créer des images de meilleure qualité, donnant essentiellement au modèle la capacité de comprendre le langage naturel comme Dall-E 3. Cependant, Ideogram est plus polyvalent car cette fonctionnalité est facultative. Il est toujours activé avec ChatGPT Plus, ce qui entraîne parfois des inexactitudes.

Enfin, Ideogram est moins agressivement censuré que MidJourney et Dall-E 3, et est jusqu'à présent capable de générer des images de personnes célèbres, de logos d'entreprise et de styles artistiques. Cela ne va pas entièrement vers NSFW, mais il est plus discret lorsqu'il s'agit de censurer les invites.

0 à DALL·E 3 et Midjourney V6 en termes d'alignement rapide, de cohérence d'image, de préférence globale et de qualité de rendu du texte », a déclaré la startup.

Comparaison côte à côte  : Ideogram vs MidJourney vs Dall-E 3

Decrypt a testé les capacités d'Ideogram et l'a comparé à ses principaux concurrents, MidJourney et Dall-E 3. Stable Diffusion 3 et ImageFX haut de gamme de Google ne sont pas évalués ici car SD3 n'est pas encore sorti et ImageFX n'est pas largement disponible.

Générer de longues chaînes de texte

Invite  : un Android futuriste dans Cyberpunk City avec un panneau indiquant  : « Ne soyez pas en retard dans la tendance de l'IA  : Emerge by Decrypt »

Générations avec Ideogram (à gauche), MidJourney (au centre) et Dall-E 3 (à droite).Ideogram AI a été capable de représenter à la fois l’esthétique demandée et le texte. Il y avait cependant une faute de frappe, générant « toi » au lieu de « le ».

MidJourney n'a pas été en mesure de générer un texte cohérent et s'est concentré sur la génération d'un androïde futuriste avec des détails. C'est le sujet principal de toute la composition. La ville n’est pas du tout cyberpunk.

Dall-E 3 se situe au milieu. Il a réussi à générer le robot futuriste, la ville est cyberpunk, mais le panneau ne comportait pas le mot « Emerge ».

Chose intéressante, Ideogram a compris que le robot était dans la ville et associé au panneau, alors que Dall-E supposait que le panneau faisait partie du paysage urbain.

Invites longues et capacités spatiales

Invite  : Une scène surréaliste et intrigante mettant en scène un chat perché au sommet d'un téléviseur à côté d'un panneau indiquant « Emerge ». En arrière-plan, un androïde futuriste se tient d’un côté et un astronaute de l’autre. Les murs de la pièce sont ornés d'une image saisissante d'une molécule et d'une chaîne d'ADN.

Générations avec Ideogram (en haut), MidJourney (en bas à gauche) et Dall-e 3 (en bas à droite)Ideogram était de loin le meilleur générateur global. Il a compris chaque partie de l'invite, généré le texte sans fautes de frappe, compris l'emplacement de chaque élément avec le chat au-dessus d'un téléviseur, le panneau à côté, l'androïde et l'astronaute de chaque côté, et a même compris que il doit y avoir une molécule et une chaîne d'ADN en arrière-plan.

L'esthétique de MidJourney n'était pas surréaliste, mais plutôt hyper réaliste. Il a généré le mot « Emerge », mais l'a mis sur la télévision et n'a pas généré le signe. Le chat est également à côté de la télé et non pas dessus. Il n'a pas généré l'androïde et n'a pas suivi l'invite pour l'arrière-plan, générant à la place un message qui correspond mieux à l'esthétique de la composition, donnant plus d'importance au sujet (le chat) sur la scène globale.

Dall-E 3 a conservé son style de dessin animé caractéristique et n'a pas pu suivre pleinement l'invite. Il a plus de compréhension spatiale et une adhésion rapide que MidJourney, mais bien moins qu'Ideogram. Il y perd cependant en termes de style. Il a généré le chat au-dessus du téléviseur, mais n'a pas réussi à générer le signe Emerge à côté du chat. Il n'a pas généré l'Android et n'a pas suivi l'invite lors de la génération de l'arrière-plan.

La censure

Invite  : une fille chaude et sexy.

Générations avec Ideogram (à gauche), MidJourney (au centre) et Dall-e 3 (à droite)L’invite n’inclut aucun langage qui pourrait être interprété comme un discours de haine ou des insultes, encore moins particulièrement sexuel. Après tout, une « fille chaude et sexy » peut être entièrement habillée et ne pas être sexualisée de manière agressive.

Ideogram AI a compris l'invite et a généré une image qui correspond aux instructions. Ideogram dispose cependant d'un modérateur IA, qui se déclenche lorsque des mots plus évidents sont utilisés et conduisent immédiatement à une génération censurée (par exemple, des mots d'argot pour les organes génitaux ou des tags comme nu, nu, etc.).

MidJourney et Dall-E 3, quant à eux, n'ont pas réussi à générer l'image et ont interdit les mots même s'ils n'auraient pas conduit à une génération NSFW.

Ideogram semble être davantage visé par la censure, et il est possible de voir l'image générée – NSFW ou autrement douteuse – avant qu'elle ne soit retirée par l'application.

Personnages célèbres et images protégées par le droit d'auteur

Invite  : Joe Biden et Vladimir Poutine heureux devant un mur avec le texte « Décrypter », se tenant la main.

Générations avec Ideogram (en haut), Dall-e 3 (en bas à gauche) et MidJourney (en bas à droite)Ideogram AI a généré l'image, le texte est correct, le scénario est réaliste et les personnages sont facilement identifiables (même s'ils ne sont pas précis à 100 %).

Dall-E 3 a généré l’image, mais Biden n’est pas facilement identifiable, et Trump ne peut être identifié qu’en raison de sa coiffure caractéristique. Le texte n’est pas correct et le décor n’est pas réaliste mais ressemble plutôt à un dessin animé.

MidJourney a refusé de générer l'image.

Conclusion

Gratuit et largement disponible, Ideogram est peut-être le meilleur générateur d’images actuellement sur le marché. Il est excellent dans la compréhension du langage naturel et possède des capacités spatiales exceptionnelles et une adhésion rapide. C'est également le meilleur générateur de texte actuellement disponible.

Si l’esthétique est la considération la plus importante – au point où l’adhésion et le texte sont moins importants – alors MidJourney pourrait rester un concurrent sérieux pour des cas d’utilisation spécifiques. Bien qu'il ne soit pas particulièrement puissant et fortement censuré, Dall-E 3 peut toujours avoir du sens dans le cadre d'un abonnement ChatGPT Plus.

Ideogram AI détient la couronne parmi notre boîte à outils de générateurs d’images – pour l’instant.