Mistral AI choisit le modèle « mélange d'experts » pour défier GPT 3.5

La startup parisienne Mistral AI, qui a récemment revendiqué une valorisation de 2 milliards de dollars, a publié Mixtral, un modèle de langage large (LLM) ouvert qui, selon elle, surpasse le GPT 3.5 d'OpenAI dans plusieurs benchmarks tout en étant beaucoup plus efficace.
Mistral a obtenu un investissement substantiel de série A d'Andreessen Horowitz (a16z), une société de capital-risque réputée pour ses investissements stratégiques dans les secteurs technologiques transformateurs, en particulier l'IA. D'autres géants de la technologie comme Nvidia et Salesforce ont également participé au cycle de financement.
"Mistral est au centre d'une communauté de développeurs petite mais passionnée qui se développe autour de l'IA open source", a déclaré Andreessen Horowitz dans son annonce de financement. « Les modèles affinés par la communauté dominent désormais régulièrement les classements open source (et battent même les modèles fermés sur certaines tâches). »
Mixtral utilise une technique appelée mélange clairsemé d'experts (MoE), qui, selon Mistral, rend le modèle plus puissant et efficace que son prédécesseur, Mistral 7b, et même que ses concurrents plus puissants.
Un mélange d'experts (MoE) est une technique d'apprentissage automatique dans laquelle les développeurs forment ou configurent plusieurs modèles d'experts virtuels pour résoudre des problèmes complexes. Chaque modèle expert est formé sur un sujet ou un domaine spécifique. Lorsqu'il est confronté à un problème, le modèle sélectionne un groupe d'experts parmi un groupe d'agents, et ces experts utilisent leur formation pour décider quel résultat correspond le mieux à leur expertise.
Le MoE peut améliorer la capacité, l'efficacité et la précision des modèles d'apprentissage profond : la sauce secrète qui distingue Mixtral des autres, capable de rivaliser avec un modèle formé sur 70 milliards de paramètres en utilisant un modèle 10 fois plus petit.
"Mixtral a un total de 46,7 milliards de paramètres mais n'utilise que 12,9 milliards de paramètres par jeton", a déclaré Mistral AI. "Il traite donc les entrées et génère des sorties à la même vitesse et pour le même coût qu'un modèle 12,9 milliards."
"Mixtral surpasse Llama 2 70B sur la plupart des benchmarks avec une inférence 6 fois plus rapide et correspond ou surpasse GPT 3.5 sur la plupart des benchmarks standards", a déclaré Mistral AI dans un article de blog officiel.
Image : Mistral IAMixtral est également sous licence permissive Apache 2.0. Cela permet aux développeurs d’inspecter, d’exécuter, de modifier et même de créer librement des solutions personnalisées au-dessus du modèle.
Il y a cependant un débat sur la question de savoir si Mixtral est 100 % open source ou non, car Mistral affirme n'avoir publié que des « pondérations ouvertes » et la licence du modèle de base empêche son utilisation pour concurrencer Mistral AI. La startup n'a pas non plus fourni le jeu de données de formation et le code utilisé pour créer le modèle, ce qui serait le cas dans un projet open source.
La société affirme que Mixtral a été optimisé pour fonctionner exceptionnellement bien dans des langues étrangères autres que l'anglais. « Mixtral 8x7B maîtrise le français, l'allemand, l'espagnol, l'italien et l'anglais », a déclaré Mistral AI.
Une version instruite appelée Mixtral 8x7B Instruct a également été publiée pour un suivi minutieux des instructions, obtenant un score optimal de 8,3 sur le benchmark MT-Bench. Cela en fait actuellement le meilleur modèle open source du benchmark.
Le nouveau modèle de Mistral promet une architecture révolutionnaire composée d'un mélange d'experts, de bonnes capacités multilingues et un accès ouvert complet. Et étant donné que cela s'est produit quelques mois seulement après sa création, la communauté open source traverse une ère passionnante et intéressante.
Mixtral est disponible en téléchargement via Hugging Face, mais les utilisateurs peuvent également utiliser la version instructive en ligne.
Edité par Ryan Ozawa.

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception.