La nouvelle version MidJourney V6 met à niveau les visuels et s'attaque à la génération de texte (principalement)

  • MidJourney lance la nouvelle version V6 de son générateur d'images IA, améliorant la précision des invites et introduisant la génération de texte.
  • Le V6 se distingue par sa capacité à dessiner du texte, rivalisant avec d'autres modèles phares comme Dall-E 3 tout en privilégiant l'esthétique.
  • La V6 est plus lente et coûteuse que la V5, mais offre des fonctionnalités améliorées telles que des upscalers améliorés et un large éventail d'arguments pour une créativité accrue.

MidJourney vient d’annoncer son tout nouveau modèle de générateur d’images IA, le modèle de base V6, dans la course effrénée pour dominer le domaine de la créativité numérique. Déployée aujourd’hui pour les tests alpha, l’équipe de développement affirme que la V6 offre une précision accrue des invites, une cohérence améliorée et, pour la première fois dans l’évolution de MidJourney, des capacités de génération de texte.

Annoncé dans un post officiel de Discord, le V6 se positionne comme une refonte majeure.

« Suivi des invites beaucoup plus précis ainsi que des invites plus longues, une cohérence améliorée et une connaissance du modèle », révèle l’annonce, soulignant son avancée par rapport au modèle V5.1 précédent lancé en mai 2023. Le modèle V5, connu pour sa facilité d’utilisation. l’utilisation d’invites courtes et d’améliorations esthétiques a ouvert la voie au V6 plus sophistiqué et détaillé.

La nouvelle version MidJourney V6 met à niveau les visuels et s'attaque à la génération de texte (principalement)

L’un des composants les plus remarquables du V6 est sa capacité à dessiner du texte. Bien que ce ne soit pas le point central du modèle (l’équipe affirme qu’il s’agit encore d’une fonctionnalité « mineure »), cette capacité met MidJourney en concurrence directe avec d’autres modèles phares comme le Dall-E 3 et l’Ideogram. Cependant, l’approche de MidJourney en matière de génération de texte est unique.

Le décrivant comme « une capacité mineure de dessin de texte », dit Midjourney. « Vous devez écrire votre texte entre « citations » et des valeurs –style brutes ou inférieures –stylize peuvent vous aider.

Decrypt a pu tester le modèle et le comparer à Dall-E 3, connu pour sa précision dans la génération de texte. MidJourney semble donner la priorité au style et à l’esthétique, parfois au détriment de la précision du texte. La plupart du temps, le texte était inexact ou inexistant. Mais lorsque cela s’est produit, les images étaient égales, voire meilleures, que celles générées par Dall-E 3, le modèle d’IA de conversion texte-image qui alimente ChatGPT et Microsoft Bing.

En comparant les générations de texte de MidJourney, Dall-E 3, SDXL avec Harrlogos et Ideogram AI, une recommandation trop simpliste pourrait être d’utiliser MidJourney si l’esthétique est une priorité, Dall-E 3 pour la facilité d’utilisation et l’esthétique de l’art numérique des dessins animés, SDXL pour ceux avec une connaissance avancée de A1111 et d’Ideogram AI pour des résultats dans lesquels le texte est plus important que l’esthétique.

MidJourney et Dalle-3 avec ChatGPT coûtent actuellement de l’argent, tandis que SDXL et Ideogram AI sont gratuits. La version Bing de Dall-E 3 est gratuite, mais elle ne génère que des images carrées et les utilisateurs ne peuvent modifier que les invites au lieu de l’approche de conversation naturelle adoptée par OpenAI.

MidJourney V6 est également un peu plus lent et plus cher que la v5, mais l’équipe met l’accent sur l’accélération du modèle avec le temps. Le modèle V6 dispose également d’upscalers améliorés dans les modes « subtil » et « créatif », améliorant la résolution de l’image de 2x.

Ces fonctionnalités, associées à un large éventail d’arguments pris en charge tels que –ar (pour modifier la résolution), –chaos (pour modifier les variations entre les générations) et –stylize (pour modifier le degré de créativité du modèle), offrent aux utilisateurs un large spectre de possibilités créatives. Cependant, d’autres fonctionnalités telles que l’inpainting, l’outpainting et la description d’image ne sont pas encore disponibles. Ils devraient arriver dans une mise à jour le mois prochain, selon MidJourney.

L’annonce appelle les utilisateurs à utiliser ces « pouvoirs incroyables avec joie, émerveillement, responsabilité et respect », ce qui a toujours fait partie de la philosophie de MidJourney. Mais ne vous énervez pas trop car ils seront plus stricts en matière de censure.

« Ne soyez pas un imbécile et ne créez pas d’images pour provoquer un drame », peut-on lire dans l’annonce. Il y a de fortes chances que cela bloque les tentatives de création de waifus numériques ou de deepfakes politiques.