Google pousse les mises à niveau de Gemini AI dans tout, en faisant rouler ChatGPT d'OpenAI
Le lendemain de l'annonce très médiatisée par OpenAI de GPT-4o, son grand modèle de langage « omnimodal » amélioré, Google a riposté avec un barrage de mises à niveau de ses offres Gemini AI, étendant ses prouesses technologiques, s'appuyant sur ses avantages de recherche en direct et solidifiant sa position face au leader du mindshare ChatGPT.
S'appuyant sur ses atouts, Google intègre l'IA générative à son expérience de recherche, permettant aux utilisateurs d'interagir naturellement avec son moteur de recherche plutôt que de s'appuyer sur des requêtes basées sur des mots clés. Le discours d'ouverture comprenait une démonstration d'une requête de recherche Google sur l'élimination d'une tache de café. Au lieu de simplement afficher des liens vers des pages Web contenant des instructions, le moteur de recherche a immédiatement fourni une réponse complète générée par l’IA.
Ces résultats générés par l'IA, conçus pour répondre directement et efficacement aux requêtes des utilisateurs, seront affichés au-dessus des résultats de recherche.
Tout au long de la présentation, Google a clairement indiqué que sa domination dans la recherche sur le Web se traduisait par un avantage clé pour ses initiatives d'IA, montrant comment diverses fonctionnalités pouvaient exploiter des informations actuelles plutôt que de s'appuyer sur un instantané daté comme d'autres modèles en grand langage (LLM).
L'une des fonctionnalités les plus remarquables annoncées est « Ask Photos », qui permet aux utilisateurs d'avoir des conversations naturelles avec Gemini pour rechercher des informations dans leur galerie. Alors que Google Photos permet depuis longtemps aux utilisateurs de rechercher dans leur bibliothèque d'images des personnes, des objets ou des mots spécifiques, la mise à jour basée sur l'IA prend en charge les requêtes ouvertes en langage naturel.
Par exemple, un utilisateur de Google a demandé à Gemini quel était le numéro de plaque d'immatriculation de sa voiture. Gemini a parcouru toutes ses photos, les a évaluées et a fourni la bonne réponse.
Une autre mise à niveau serait familière aux utilisateurs d’une litanie d’assistants de réunion IA, y compris ceux intégrés aux plateformes de conférence en ligne comme Zoom. Dans Google Meet, Gemini peut désormais analyser les réunions, les résumer et générer des réponses aux questions du chat. Après une réunion, Gemini fournit une liste d’actions et d’attributions de tâches.
La plus grande nouveauté concernait les améliorations sous le capot. Google a annoncé aujourd'hui la sortie de Gemini 1.5 Pro, doté d'une fenêtre contextuelle stupéfiante d'un million de jetons multimodaux. Cette capacité dépasse la limite de 128 000 jetons de GPT-4 et est déjà disponible pour les développeurs et les consommateurs dans Gemini Advanced, le niveau de services d'IA payants du géant de la technologie.
Image : GoogleGoogle indique qu'il prévoit d'étendre encore sa capacité de gestion des jetons plus tard cette année, pour atteindre potentiellement jusqu'à 2 millions de jetons pour les développeurs et une multiplication par dix par rapport à celle du GPT-4o.
Grâce à sa capacité considérablement accrue, Google a également démontré les impressionnantes capacités de récupération de Gemini. Il s’agit d’une fonctionnalité clé, car jusqu’à présent, les LLM puissants comme Claude ou GPT-4 affichent une dégradation des performances – « oubliant » les informations évoquées précédemment – lorsqu’ils sont sollicités avec d’énormes quantités de données.
Outre ses modèles haut de gamme, Google a lancé Gemini 1.5 Flash, un LLM multimodal compact conçu pour rivaliser avec Claude 3 Haiku et GPT-3.5 en fournissant des réponses rapides. Cependant, sa capacité de traitement de 1 million de jetons le positionne comme le modèle « léger » le plus puissant disponible à ce jour.
L'annonce la plus intéressante a probablement été le projet Astra de Google, un agent d'IA universel qui peut être personnalisé et adapté aux besoins de chaque utilisateur. Google a souligné que la présentation Astra avait été enregistrée en temps réel, probablement en réponse à la démo GPT-4o en direct d'OpenAI hier. L'interaction semblait plus performante et moins maladroite que GPT-4o, bien qu'avec des réponses plus concrètes et moins humaines.
Voici une démo du nouvel assistant Project Astra ! C'est plutôt cool de le voir sur des lunettes intelligentes aussi. Certaines de ces expériences d'agent seront disponibles sur l'application Gemini plus tard cette année. pic.twitter.com/hGk6bbIzUD
– Mishaal Rahman (@MishaalRahman) 14 mai 2024
Bien que la voix de Gemini soit également largement naturelle, elle n'a pas la qualité émotionnelle, voire « affectueuse », de la nouvelle voix ChatGPT d'OpenAI. La priorité de Google semble être la fonctionnalité, contrairement à l'accent mis par OpenAI sur des interactions plus humaines.
Allant au-delà des modèles linguistiques traditionnels, Google a introduit des agents d'IA personnalisables multiplateformes qui, selon lui, sont capables de raisonner, de planifier et de mémoriser. Ces capacités permettent aux Gémeaux de se comporter comme un groupe d’IA spécialisées travaillant ensemble.
Ces connexions basées sur des API, que Google a qualifiées de « gemmes », semblent être une réponse aux GPT personnalisables d'OpenAI. Gems s'intègre parfaitement à l'écosystème de Google, offrant des fonctionnalités telles que la traduction linguistique en temps réel, la recherche contextuelle et les recommandations personnalisées. Les utilisateurs peuvent façonner les gemmes pour qu'elles se concentrent sur des tâches ou des domaines spécifiques, ou utiliser un ton spécifique.
Image : GoogleGoogle a également annoncé de nouveaux modèles d'IA générative pour les images, les vidéos et la musique. Imagen 3, le nouveau générateur d'images de Google, fournit des images très réalistes et détaillées, contrastant avec l'aspect caricatural d'OpenAI. Ils affirment également qu'il excelle dans la génération de texte, une fonctionnalité qu'OpenAI prétend également avoir améliorée.
Ils ont également lancé une version améliorée de MusicLM pour les amateurs de musique générative.
La cerise sur le gâteau était Veo, un modèle de vidéo générative, annoncé avant la sortie de l'outil vidéo Sora, très vanté mais encore inédit, d'OpenAI. La sortie brute non éditée suggère un niveau de qualité comparable à celui de la prochaine entrée OpenAI. Google annonce qu'il rendra Veo disponible dans quelques semaines, un délai qui pourrait battre Sora sur le marché.
Présentation de Veo : notre modèle vidéo génératif le plus performant. 🎥
Il peut créer des clips 1080p de haute qualité pouvant durer plus de 60 secondes.
Du photoréalisme au surréalisme et à l’animation, il peut aborder une gamme de styles cinématographiques. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
– Google DeepMind (@GoogleDeepMind) 14 mai 2024
Vers la fin de son discours de plus de deux heures, Google a également montré un peu d'amour envers la communauté open source, en dévoilant Pali Gemma, un modèle de vision open source. La société a également promis de lancer Gemma 2, la prochaine itération de son grand modèle de langage open source, en juin. Le nouveau modèle aura une fenêtre contextuelle de jeton étendue et sera plus puissant et plus précis.
Enfin, Google a annoncé qu'il lançait pour la première fois sa suite de fonctionnalités basées sur Gemini sur son système d'exploitation mobile Android. Cela fait suite au favoritisme apparent d'OpenAI pour les plates-formes MacOS et iOS d'Apple, où il publiait ses dernières mises à jour avant de le faire sur Windows, créé par le principal investisseur Microsoft.
