Beyond Bard : Google lance Gemini, une IA multimodale pour défier ChatGPT
Google a stupéfié le monde de la technologie mercredi avec le lancement de Gemini, sa suite d’outils d’intelligence artificielle multimodale destinée aux consommateurs et aux entreprises.
Parmi les géants de la technologie qui se lancent de manière agressive dans l’IA, le titan de la recherche Google semblait nager dans l’espace intermédiaire, alors qu’OpenAI, soutenu par Microsoft, a poussé ChatGPT vers Turbo et Vision et Anthropic a mis à niveau Claude. À partir d’aujourd’hui, Google sort avec trois versions de Gemini (Nano, Pro et Ultra) qui comprennent et intègrent de manière transparente le texte, les images, l’audio et la vidéo.
Gemini semble sur le point de surpasser les modèles d’IA haut de gamme d’OpenAI, qui vient de publier une longue liste de nouvelles fonctionnalités mais a été peu après enterré dans les intrigues des entreprises.
La version la plus avancée, Gemini Ultra, a fourni d’excellents résultats sur plusieurs tests de référence populaires, égalant ou dépassant les performances humaines dans certains cas. Par exemple, il a établi de nouveaux records sur 30 des 32 critères de l’examen MMLU, qui couvre une variété de matières académiques.
Une caractéristique clé de Gemini est sa formation « nativement multimodale », lui permettant de traiter plusieurs types de données comme le texte, les images et l’audio en tant qu’entrées et sorties. Cette approche signifie que le modèle a été construit et formé à partir de zéro pour comprendre les différentes entrées, plutôt que le résultat du rapprochement ultérieur de modes et de modules discrets.
Les IA multimodales les plus populaires d’aujourd’hui suivent cette dernière feuille de route. Par exemple, ChatGPT combine GPT-4 Turbo avec Dall-E 3 pour traiter le texte afin de générer des images, GPT-4 Vision pour traiter les images et un module de codage spécial pour les calculs. En conséquence, le LLM est relégué au rôle de coordinateur entre différents modèles d’IA qui ne peuvent pas comprendre de manière indépendante la pleine nature d’un problème spécifique.
Google Gemini affiche d’excellents scores dans les tests d’IA. Image : GoogleEn revanche, les premières évaluations qualitatives de Gemini révèlent sa remarquable capacité à effectuer un raisonnement multimodal. Par exemple, dans le cadre éducatif, les Gémeaux peuvent comprendre des problèmes complexes de physique, les convertir en formules mathématiques et fournir des solutions correctes. Cette capacité ouvre des voies de transformation dans l’éducation ainsi que dans d’autres domaines.
Les LLM traditionnels ne sont généralement pas très bons en mathématiques, c’est pourquoi les capacités de raisonnement de la famille Gemini de LLM multimodaux méritent une certaine attention.
Dans un autre test de référence axé sur la compréhension multimodale du langage, Gemini Ultra a atteint une précision de plus de 90 %, surpassant les autres modèles existants. Google affirme que les tests de préférence humaine ont également montré une nette préférence pour Gemini par rapport à des modèles comme PaLM 2 dans des domaines tels que l’écriture créative.
Le plus petit service, Gemini Nano, est conçu pour l’efficacité sur l’appareil, excellant dans le résumé, la compréhension en lecture et diverses tâches de raisonnement. Malgré sa taille plus petite, le Gemini Nano affiche des performances remarquables par rapport au modèle Gemini Pro plus grand. Cela signifie que Gemini pourrait devenir l’IA préférée pour alimenter les assistants mobiles qui peuvent ou doivent fonctionner hors ligne.
Les Gémeaux semblent être des débuts très solides, à tous points de vue. Et à mesure que les capacités d’IA de Google s’améliorent, leur polyvalence pourrait permettre de nouvelles applications dans de nombreux domaines. Pour l’instant, cependant, d’autres tests en conditions réelles sont nécessaires pour déterminer ses niveaux de performances réalistes.
Les utilisateurs peuvent tester dès aujourd’hui une version affinée de Gemini Pro avec Bard. Gemini Ultra sortira l’année prochaine dans une nouvelle version du chatbot de Google appelée Bard Advanced. Google prévoit à terme de lancer Gemini dans plus de 170 langues différentes et d’utiliser cette technologie pour alimenter sa gamme Pixel et l’expérience générative de recherche.