Amélioré et non censuré : Mistral révise son modèle d'IA
Le principal développeur d'IA open source, Mistral, a discrètement lancé une mise à niveau majeure de son grand modèle de langage (LLM), qui n'est pas censuré par défaut et offre plusieurs améliorations notables. Sans même un tweet ou un article de blog, le laboratoire français de recherche en IA a publié le modèle Mistral 7B v0.3 sur la plateforme HuggingFace. Comme son prédécesseur, il pourrait rapidement devenir la base d’outils d’IA innovants proposés par d’autres développeurs.
Le développeur canadien d'IA Cohere a également publié une mise à jour de son Aya, vantant ses compétences multilingues, rejoignant Mistral et le géant de la technologie Meta dans l'arène open source.
Bien que Mistral fonctionne sur du matériel local et fournisse des réponses non censurées, il inclut des avertissements lorsqu'on lui demande des informations potentiellement dangereuses ou illégales. Lorsqu'on lui demande comment entrer par effraction dans une voiture, il répond : « Pour entrer par effraction dans une voiture, vous devrez utiliser une variété d'outils et de techniques, dont certaines sont illégales », et en plus des instructions, il ajoute : « Cette information ne doit pas être utilisé pour des activités illégales.
La dernière version de Mistral comprend à la fois des points de contrôle de base et des points de contrôle adaptés aux instructions. Le modèle de base, pré-entraîné sur un grand corpus de texte, sert de base solide pour un réglage précis par d'autres développeurs, tandis que le modèle prêt à l'emploi, optimisé pour les instructions, est conçu pour des utilisations conversationnelles et spécifiques à des tâches.
La taille du contexte de jeton de Mistral 7B v0.3 a été étendue à 32 768 jetons, permettant au modèle de gérer un plus large éventail de mots et d'expressions dans son contexte et d'améliorer ses performances sur divers textes. Une nouvelle version du tokenizer de Mistral offre un traitement et une compréhension de texte plus efficaces. À titre de comparaison, Meta's Lllama a une taille de contexte symbolique de 8 Ko, bien que son vocabulaire soit beaucoup plus large à 128 Ko.
Image : Ingénierie rapide/YouTubeLa nouvelle fonctionnalité la plus importante est peut-être l’appel de fonctions, qui permet aux modèles Mistral d’interagir avec des fonctions et des API externes. Cela les rend très polyvalents pour les tâches impliquant la création d’agents ou l’interaction avec des outils tiers.
La possibilité d'intégrer Mistral AI dans divers systèmes et services pourrait rendre le modèle très attrayant pour les applications et outils destinés aux consommateurs. Par exemple, il peut être très facile pour les développeurs de configurer différents agents qui interagissent les uns avec les autres, de rechercher des informations sur le Web ou dans des bases de données spécialisées, de rédiger des rapports ou de réfléchir à des idées, le tout sans envoyer de données personnelles à des entreprises centralisées comme Google ou OpenAI. .
Bien que Mistral n'ait pas fourni de références, les améliorations suggèrent des performances améliorées par rapport à la version précédente, potentiellement quatre fois plus performantes en fonction de la capacité du vocabulaire et du contexte des jetons. Couplée aux capacités considérablement élargies qu'apportent les appels de fonctions, la mise à niveau constitue une version convaincante pour le deuxième modèle AI LLM open source le plus populaire du marché.
Cohere lance Aya 23, une famille de modèles multilingues
En plus de la sortie de Mistral, Cohere, une startup canadienne d'IA, a dévoilé Aya 23, une famille de LLM open source également en concurrence avec OpenAI, Meta et Mistral. Cohere est connu pour se concentrer sur les applications multilingues et, comme le numéro de son nom, Aya 23, le télégraphe, il a été formé pour maîtriser 23 langues différentes.
Cette gamme de langages est destinée à pouvoir servir près de la moitié de la population mondiale, dans une démarche vers une IA plus inclusive.
Le modèle surpasse son prédécesseur, Aya 101, et d'autres modèles largement utilisés tels que le Mistral 7B v2 (et non le nouveau v3) et le Gemma de Google dans les tâches discriminatives et génératives. Par exemple, Cohere affirme qu'Aya 23 démontre une amélioration de 41 % par rapport aux modèles Aya 101 précédents dans les tâches MMLU multilingues, une référence synthétique qui mesure la qualité des connaissances générales d'un modèle.
Aya 23 est disponible en deux tailles : 8 milliards (8B) et 35 milliards (35B) de paramètres. Le modèle plus petit (8B) est optimisé pour une utilisation sur du matériel grand public, tandis que le modèle plus grand (35B) offre des performances de haut niveau pour diverses tâches mais nécessite un matériel plus puissant.
Cohere affirme que les modèles Aya 23 sont affinés à l'aide d'un ensemble de données d'instructions multilingues diversifié (55,7 millions d'exemples provenant de 161 ensembles de données différents) englobant des sources annotées, traduites et synthétiques par des humains. Ce processus complet de réglage fin garantit des performances de haute qualité sur un large éventail de tâches et de langages.
Dans les tâches génératives telles que la traduction et le résumé, Cohere affirme que ses modèles Aya 23 surpassent leurs prédécesseurs et concurrents, citant une variété de références et de mesures telles que les tâches de traduction spBLEU et le résumé RougeL. Certains nouveaux changements architecturaux (intégrations positionnelles rotatives (RoPE), attention aux requêtes groupées (GQA) et fonctions de réglage fin SwiGLU) ont apporté une efficacité et une efficience améliorées.
La base multilingue d'Aya 23 garantit que les modèles sont bien équipés pour diverses applications du monde réel et en font un outil bien rodé pour les projets d'IA multilingues.
Edité par Ryan Ozawa.
Newsletter généralement intelligente
Un voyage hebdomadaire en IA raconté par Gen, un modèle d'IA générative.
