Microsoft intègre la puissance dans son nouveau petit modèle d'IA Phi-2

Microsoft Research a annoncé la sortie de Phi-2, un petit modèle de langage (SLM) démontrant des capacités remarquables pour sa taille. Lancé aujourd’hui, le modèle a été révélé pour la première fois lors de l’événement Ignite 2023 de Microsoft, au cours duquel Satya Nadella a souligné sa capacité à atteindre des performances de pointe avec une fraction des données d’entraînement.

Contrairement à GPT, Gemini et autres grands modèles de langage (LLM), un SLM est formé sur un ensemble de données limité, en utilisant moins de paramètres mais nécessitant également moins de calculs à exécuter. En conséquence, le modèle ne peut pas se généraliser autant qu’un grand modèle de langage, mais peut être très bon et efficace pour des tâches spécifiques, comme les mathématiques et les calculs dans le cas de Phi.

Phi-2, avec ses 2,7 milliards de paramètres, fait preuve d’un bon raisonnement et d’une bonne compréhension du langage, rivalisant avec des modèles jusqu’à 25 fois sa taille, selon Microsoft. Cela découle de l’accent mis par Microsoft Research sur les données d’entraînement de haute qualité et les techniques de mise à l’échelle avancées, ce qui donne un modèle qui surpasse ses prédécesseurs dans divers tests, notamment les mathématiques, le codage et le raisonnement de bon sens.

Microsoft intègre la puissance dans son nouveau petit modèle d'IA Phi-2

« Avec seulement 2,7 milliards de paramètres, Phi-2 surpasse les performances des modèles Mistral et Llama-2 aux paramètres 7B et 13B sur divers benchmarks agrégés », a déclaré Microsoft, lançant un coup bas au nouveau modèle d’IA de Google : « De plus, Phi-2 2 correspond ou surpasse le Google Gemini Nano 2 récemment annoncé, bien qu’il soit plus petit. »

Il a été annoncé comme faisant partie de la famille Gemini de LLM qui devraient remplacer PaLM-2 dans la plupart des services de Google.

L’approche de Microsoft en matière d’IA va cependant au-delà du développement de modèles. L’introduction des puces personnalisées Maia et Cobalt, rapportée par Decrypt, montre que l’entreprise s’oriente vers une intégration complète de l’IA et du cloud computing. Les puces informatiques, optimisées pour les tâches d’IA, soutiennent la vision plus large de Microsoft d’harmoniser les capacités matérielles et logicielles et sont en concurrence directe avec Google Tensor et la nouvelle série M de puces d’Apple.

Il est important de noter que Phi-2 est un modèle de langage si petit qu’il peut être exécuté localement sur des équipements de bas niveau, voire potentiellement des smartphones, ce qui ouvre la voie à de nouvelles applications et cas d’utilisation.

Alors que Phi-2 entre dans le domaine de la recherche et du développement en IA, sa disponibilité dans le catalogue de modèles Azure AI Studio constitue également une étape vers la démocratisation de la recherche en IA. Microsoft est l’une des entreprises les plus actives contribuant au développement de l’IA open source.

Alors que le paysage de l’IA continue d’évoluer, le Phi-2 de Microsoft est la preuve que le monde de l’IA ne consiste pas toujours à voir plus grand. Parfois, le plus grand pouvoir réside dans le fait d’être plus petit et plus intelligent.

Tags: niveau