Mistral AI assemble un modèle d'experts intégrés pour défier le GPT 3.5 d'OpenAI

La startup française d’intelligence artificielle Mistral surgit de la récente levée de fonds en dévoilant son modèle de langage ouvert (LLM). Mistral AI présente son modèle d’experts intégrés comme étant capable de surpasser le GPT 3.5 d’OpenAI sur plusieurs benchmarks et d’atteindre plus d’efficacité.

La société Mistral AI, dont le siège est à Paris, est soutenue par le succès de son financement de série A qui a vu sa valorisation atteindre 2 milliards de dollars. La startup française a bénéficié d’investissements substantiels de la société de capital-risque Andreessen Horowitz (a16z), populaire en matière d’investissements stratégiques dans des projets technologiques transformateurs dans le domaine de l’IA.

Le cycle de financement de série A a vu d’autres géants de la technologie, dirigés par Salesforce et Nvidia, apporter des contributions cruciales.

Mistral AI assemble un modèle d'experts intégrés pour défier le GPT 3.5 d'OpenAI

/h2>

Andreessen Horowitz a présenté Mistral lors de l’annonce de financement comme un petit développeur passionné par l’IA open source. L’annonce du dimanche 10 décembre a salué le développement de l’IA open source en excluant une seule équipe d’ingénierie possédant la capacité d’anticiper tous les besoins des utilisateurs et de résoudre chaque bug.

La déclaration a16z salue la facilitation de l’accès aux parties pour contribuer au code des projets open source, produisant finalement un volant d’inertie qui améliore la stabilité, les performances, la sécurité, la productivité et l’efficacité. L’intelligence artificielle n’est pas différente, comme l’illustre Mistral, pour inciter les communautés à créer une infrastructure logicielle moins chère, plus rapide et plus sécurisée.

Mistral exploite les modèles affinés par la communauté pour surpasser les modèles de source centrale

A16z a ajouté que les modèles communautaires affinés adoptés par Mistral dominent régulièrement les classements open source et surpassent avec succès les modèles fermés sur plusieurs tâches.

Mistral utilise l’approche de mélange d’experts (MoE) que Mistral présente comme rendant son LLM plus puissant et efficace que ses concurrents présumés puissants. Il surpasse son prédécesseur, le Mistral 7b, en termes de puissance et d’efficacité.

Le mélange d’experts (MoE) implique une approche unique d’apprentissage automatique utilisée par les développeurs en formation et l’établissement de plusieurs modèles d’experts virtuels à utiliser pour résoudre des problèmes complexes.

Mistral AI a indiqué que chacun des modèles experts suit une formation dans un domaine spécifique. Face à un défi, le modèle choisit parmi un groupe d’experts constitué à partir des pools d’agents. Les experts constituants utilisent une formation unique pour décider du résultat qui correspond le mieux à leur expertise.

Le MoE a le potentiel d’améliorer la capacité, la précision et l’efficacité des modèles pour une utilisation dans les modèles d’apprentissage en profondeur. C’est là la sauce secrète que Mixtral utilise pour se distinguer du cloud. Cela lui confère également la capacité de lutter contre les modèles entraînés sur 70 milliards de paramètres à partir d’un modèle dix fois plus petit.

Mistral AI, dans sa déclaration du lundi 11 décembre, a révélé que Mixtral comprend 46,7 milliards de paramètres tout en utilisant 12,9 milliards de paramètres par jeton. Par conséquent, il traite les entrées et produit des sorties à une vitesse et à un coût similaires à ceux d’un modèle de 12,9 milliards.

Mistral AI a vanté Mixtral sur son blog officiel selon lequel il surpassait Llama 2 70B sur plusieurs points de référence en réalisant des inférences six fois plus rapides. Le message indique qu’il correspond ou améliore GPT 3.5 sur plusieurs mesures standard.

Mixtral est-il entièrement open source ?

Mixtral fonctionne sous la licence permissive Apache 2.0 qui permet aux développeurs d’inspecter, d’ajuster et de personnaliser librement les solutions sur le modèle.

Mistral est empêtré dans un débat se demandant s’il est entièrement open source, étant donné que Mistral indique qu’il n’a publié que des poids ouverts. En outre, il a ajouté que la licence du modèle de base empêche son utilisation de concurrencer Mistral AI.

La startup basée à Paris n’a pas encore divulgué l’ensemble de données de formation et le code utilisés pour créer le modèle, comme c’est le cas dans les projets open source.

La société indique que Mixtral a fait l’objet d’une mise au point pour fonctionner exceptionnellement dans d’autres langues étrangères que l’anglais. Le message de la société affirme qu’outre l’anglais, Mixtral 8x7B offre une maîtrise multilingue en français, allemand, espagnol et italien.

Mixtral propose une architecture MoE clairsemée révolutionnaire

Le message révèle que la version instruite intitulée Mixtral 8x7B Instruct a été dévoilée, bien qu’elle exige des invites prudentes qui atteignent un score de 8,3 sur le benchmark MT-Bench. Cela constitue le meilleur score actuel pour un modèle open source sur cette métrique.

Le modèle Mixtral promet de fournir une architecture MoE clairsemée révolutionnaire. De plus, il présente des capacités multilingues impressionnantes et un accès ouvert quelques mois seulement après sa création.

Mixtral témoigne d’une époque passionnante pour la communauté open source. La société a confirmé son accessibilité au téléchargement via Hugging Face, tandis que les utilisateurs peuvent utiliser la version d’instruction en ligne.

Schneider / Shutterstock.com

com si vous avez des questions articles sponsorisés et contenu des communiqués de presse) et les opinions exprimées dans ces types de publications ne reflètent pas les vues de ce site Web

Tags: cryptographie