De « Ceci est AGI » à « Je suis pareil » : la révélation d'OpenAI GPT-4o rencontre des réactions mitigées

Avant la présentation serrée d'une demi-heure par OpenAI de son nouveau modèle d'IA GPT-4o, les rumeurs allaient bon train sur ce qui pourrait être annoncé, incitant le PDG de l'entreprise, Sam Altman, à gérer les attentes, affirmant qu'il ne s'agissait « pas d'un moteur de recherche », mais qu'ils l'annonceraient. "Des nouveautés que nous pensons que les gens vont adorer." Après la présentation, les passionnés d’IA et la presse tech ont été à la fois étonnés et déçus.
La sortie de GPT-4o (et non de GPT-5, comme certains s'y attendaient) représentait une mise à niveau solide mais progressive vers GPT-4.5 Turbo. L'« omnimodèle » fonctionne sur le texte, l'audio et les images, et offre des compétences de codage améliorées, une voix féminine émotive et des temps de génération plus rapides. Les réactions à la nouvelle ont placé GPT-4o et OpenAI en tête de la liste des tendances mondiales de Twitter pendant plus d'une journée.
L'événement a immédiatement suscité des comparaisons avec Gemini Ultra de Google, sorti en février. Alors que de nombreux passionnés d'IA ont été ravis du nouveau modèle d'OpenAI, certains experts en IA n'ont pas été impressionnés.
Emad Mostaque, ancien PDG de Stability AI, a partagé un mème résumant la réaction à OpenAI à travers les scores de QI. L’essentiel du buzz a culminé autour du débat sur l’imminence de l’intelligence artificielle générale (AGI), mais la longue queue aux deux extrémités semble obsédée par les « AI waifus » – des compagnons virtuels pour les nerds solitaires.
L’ironie était palpable, car le modèle Stable Diffusion de Stability AI est un outil privilégié pour créer de tels compagnons.
OpenAI était particulièrement fier des caractéristiques réalistes de la voix qu'ils ont donnée à ChatGPT, qui, même en plaisantant, Altman, était similaire au compagnon virtuel du film de science-fiction "Her". Le cofondateur d'OpenAI, Andrej Karpathy, a fait le même lien.
"L'application phare des LLM est Scarlett Johansson. Vous pensiez tous que c'était des mathématiques ou quelque chose du genre", a-t-il tweeté.

L'application phare des LLM est Scarlett Johansson. Vous pensiez tous que c'était des mathématiques ou quelque chose comme ça

– Andrej Karpathy (@karpathy) 14 mai 2024

Elon Musk, le cerveau derrière Grok, le chatbot IA concurrent célèbre pour son « mode fun », a été moins subtil en partageant son avis. "La démo m'a fait grincer des dents", a-t-il écrit, répondant à un utilisateur de Twitter qui a déclaré que GPT-4o ne ferait qu'aggraver une "ère post-vérité".
Les critiques ont insisté sur l'absence d'une seule fonctionnalité révolutionnaire dans la présentation, qui démontrait largement des choses qui pouvaient déjà être réalisées avec les outils d'IA actuels.
"Je suis pareil, mais 20% plus rapide", a tweeté Julien Chaumond, cofondateur de Hugging Face. Yan LeCun, chercheur en chef en IA de Meta, n'a pas révélé ses sentiments sur l'événement d'OpenAI, mais a publié un emoji riant en réponse au message de Chaumond.
Andrew Ng, co-fondateur de Coursera, a salué l'augmentation de l'efficacité : « Lorsqu'un travail agent qui prenait 10 minutes prend désormais 5 minutes simplement en changeant d'API, c'est un grand progrès », a-t-il déclaré.
D’autres ont célébré les applications pratiques potentielles d’un modèle aussi puissant, qui pourrait être testé immédiatement sous d’autres formes. Imran Chaudhri, le constructeur de la broche Humane AI, a fait la démonstration de son appareil utilisant GPT-4o pour jouer à un jeu, soulignant les capacités de vision du modèle, même si la latence semble toujours être un problème.
Le YouTubeur Arun Maini a quant à lui salué la gestion fluide des tâches de traduction par GPT-4o.
Mais certains passionnés, comme l’écrivain de fiction Ewan Morrison, ont vu des signes d’un ralentissement du développement de l’IA.
"C'est la preuve que le plateau pour les LLM a déjà été atteint", a-t-il tweeté. "Open AI fait un spectacle de fumée et de miroirs pour tenter d'empêcher la fuite des capitaux des investisseurs." Il s'est dit intrigué par la raison pour laquelle OpenAI n'a pas livré GPT-5, qui, selon la rumeur, serait publié cette année.
En creusant plus profondément, Bindu Reddi, PDG d'Abacus AI, a publié les résultats d'un test de référence indiquant que GPT-4o fonctionne moins bien que GPT-4.5 Turbo lorsqu'il est invité à effectuer des tâches de codage longues et complexes, probablement en raison de sa multimodalité.

Premiers résultats de notre première évaluation de GPT-4o - Codage en dur et raisonnement

GPT-4o
Tâches réussies - 79 / 96
Tâches de codage - 52 / 65

GPT-4
Tâches réussies - 90/ 96
Tâches de codage - 60 / 65

Le modèle est bien plus rapide, mais on ne sait pas pourquoi il est bien pire sur les tâches difficiles 😢…

– Bindu Reddy (@bindureddy) 13 mai 2024

Tim Simmons de la chaîne YouTube Theorectic Media a résumé le juste milieu en disant : "Je suis à la fois dépassé et déçu." Bien que GPT-4o ait des capacités impressionnantes, il est décevant par son manque de fonctionnalités véritablement nouvelles, a-t-il déclaré, le saut par rapport au GPT-4 étant moins significatif que le saut précédent par rapport au GPT-3.5.
Malgré les réactions mitigées, presque tous les trimestres ont établi des comparaisons entre GPT-4o et des assistants célèbres comme « Elle » ou « Jarvis » de l'univers des super-héros Marvel. Déconstruisant un résumé de ses capacités linguistiques comme étant plus qu'une simple « traduction vocale en temps réel », Karpathy a souligné l'importance d'OpenAI en publiant un LLM nativement multimodal au lieu de relier des modèles distincts.

Ils publient un modèle combiné texte-audio-vision qui traite les trois modalités dans un seul réseau neuronal, qui peut ensuite effectuer une traduction vocale en temps réel comme cas particulier après coup, si vous le demandez.

(corrigé pour vous) https://t.co/0y36OId88h

– Andrej Karpathy (@karpathy) 13 mai 2024

Tanishq Mathew Abraham, directeur de recherche chez Stability AI, a déclaré que la démo en direct n'expliquait pas entièrement les particularités de GPT-4o.
"La démo en direct n'est pas la seule partie intéressante de GPT-4o", a-t-il écrit. "Personne ne lit le billet de blog GPT-4o, qui met en évidence de nombreuses autres fonctionnalités intéressantes", comme la génération de texte visuel, la cohérence visuelle, le texte. capacités en 3D et résumé vidéo.

La démo en direct n'est pas la seule partie intéressante de GPT-4o

N'oubliez pas que GPT-4o est un modèle multimodal formé de bout en bout !

Personne ne lit le billet de blog GPT-4o qui met en évidence tant d'autres fonctionnalités intéressantes

VOIR PLUS DE CARACTÉRISTIQUES DU GPT-4o ↓

  • Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) 13 mai 2024

Quant à la question AGI, nous n'en sommes même pas proches, a noté Jim Fan, directeur de recherche senior de NVIDIA. Mais un nouveau GPT-5, plus puissant, pourrait l'être : en utilisant le nom de code indiqué pour le projet en cours, le fuyard d'IA Jimmy Apples a suggéré que GPT-4o "se sent comme Gobi, ou en substance Gobi", et a laissé entendre qu'il y aurait d'autres annonces. d'OpenAI dans un avenir proche.
Accablant ou décevant, le lancement de GPT-4o a fait bouger les choses et a intensifié l'attention de la communauté sur le discours d'aujourd'hui de Google I/O dans l'espoir de voir une réponse forte de la part d'un concurrent de premier plan.
Edité par Ryan Ozawa.

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception.