Claude AI d'Anthropic renverse ChatGPT dans le classement Chatbot Arena

ChatGPT d'Open AI perd sa première place au classement Chatbot Arena au profit de Claude 3 Opus d'Anthropic
Chatbot Arena utilise une approche subjective basée sur les préférences des utilisateurs pour classer les meilleurs modèles de langage non étiquetés en IA générative
Les performances de Claude 3 Opus sont supérieures à celles du GPT-4 d'OpenAI en termes de contexte et de récupération, tandis que le Gemini Advanced de Google progresse également dans le classement.

Alors que ChatGPT d'Open AI bénéficie de la plus grande part d'esprit grand public de tous les outils d'IA générative, sa première place a été volée par le haut de gamme Claude 3 Opus au concurrent éternel Anthropic dans un classement participatif populaire utilisé par les chercheurs en IA.

L'ascension de Claude dans le classement Chatbot Arena marque la première fois que le GPT-4 d'OpenAI, qui alimente ChatGPT Plus, est détrôné depuis sa première apparition dans le classement en mai de l'année dernière.

Chatbot Arena est géré par Large Model Systems Organization (LMSYS ORG), une organisation de recherche dédiée aux modèles ouverts qui soutiennent la collaboration entre les étudiants et les professeurs de l'Université de Californie à Berkeley, de l'UC San Diego et de l'Université Carnegie Mellon. La plate-forme présente aux utilisateurs deux modèles de langage non étiquetés et leur demande d'évaluer lequel est le plus performant en fonction des critères qu'ils jugent appropriés.

Claude AI d'Anthropic renverse ChatGPT dans le classement Chatbot Arena

Après avoir agrégé des milliers de comparaisons subjectives, Chatbot Arena calcule les « meilleurs » modèles pour le classement et le met à jour au fil du temps.

Cette approche subjective, basée sur les goûts personnels disparates des participants, est ce qui distingue Chatbot Arena des autres références en matière d'IA. Les formateurs de modèles ne peuvent pas « tricher » en adaptant leurs modèles pour battre l’algorithme, comme ils le feraient avec des références quantitatives. En mesurant simplement ce que les gens préfèrent, Chatbot Arena constitue une ressource précieuse et qualitative pour les chercheurs en IA.

un modèle particulier surpasse les autres en concurrence directe. Cette approche permet de générer des statistiques complètes, y compris des plages d'intervalles de confiance pour les estimations de la note Elo, la même technique utilisée pour mesurer les compétences des joueurs d'échecs.

Les 10 meilleurs LLM classés par la Chatbot Arena. Image : Visage câlinLa montée en puissance de Claude 3 Opus n'est pas la seule évolution marquante du classement. Claude 3 Sonnet (le modèle de taille moyenne disponible gratuitement) et Claude 3 Haiku (un modèle plus petit et plus rapide), également développés par Anthropic, occupent actuellement respectivement la 4e et la 6e place.

Le classement comprend différentes versions de GPT-4, telles que GPT-4-0314 (la version « originale » de GPT-4 de mars 2023), GPT-4-0613, GPT-4-1106-preview et GPT-4. -0125-preview (le dernier modèle GPT-4 Turbo disponible via API à partir de janvier 2024). Selon le classement, Sonnet et Haiku sont tous deux meilleurs que le GPT-4 original, Sonnet devançant également une version modifiée lancée par OpenAI en juin 2023.

Cela signifie également que, malheureusement, il n'y a actuellement qu'un seul LLM open source dans le top 10 : Qwen, Starling 7b et Mixtral 8x7B étant les seuls autres modèles ouverts dans le top 20.

L'un des avantages de Claude par rapport à GPT-4 est sa capacité de contexte de jeton et sa capacité de récupération. La version publique de Claude 3 Opus gère plus de 200 000 jetons et l'organisation prétend disposer d'une version restreinte capable de gérer 1 million de jetons avec des taux de récupération presque parfaits. Cela signifie que Claude peut comprendre des invites plus longues et conserver les informations plus efficacement que GPT-4 Turbo, qui gère 128 000 jetons et perd ses capacités de récupération avec des invites longues.

Rappel de la précision de Claude 3 Opus vs GPT-4 Turbo. Image de Decrypt utilisant les données d'Anthropic et Greg Kamradt.Gemini Advanced de Google gagne également du terrain dans le domaine des assistants IA. La société propose un forfait comprenant 2 To de stockage et des capacités d'IA dans la suite de produits Google pour le même prix qu'un abonnement Chat GPT Plus (20 $ par mois).

Le Gemini Pro gratuit est actuellement classé numéro 4, entre GPT-4 Turbo et Claude 3 Sonnet. Le modèle haut de gamme Gemini Ultra n'est pas disponible pour les tests et ne figure pas encore dans le classement.