Stability AI lance Stable Audio 2 : le générateur de musique peut-il battre Suno 3 « époustouflant » ?

  • Stability AI a lancé Stable Audio 2, un générateur de musique concurrent de Suno 3
  • Le modèle utilise la technologie DiT pour créer des pistes complètes à partir d'une seule invite en langage naturel
  • La qualité et la complexité des musiques générées sont encore inférieures à celles de Suno 3, mais Stable Audio permet également de modifier les échantillons audio téléchargés.

Stability AI, l'un des principaux développeurs d'intelligence artificielle engagé dans la philosophie open source, a publié cette semaine Stable Audio 2, un nouveau générateur audio et musical. Il s'agit de la première version majeure depuis le lancement de Stable Audio en septembre, avec un certain nombre d'améliorations qui intensifient la concurrence entre les outils de sociétés comme Suno, Google et Meta.

« Stable Audio 2.0 permet d'obtenir des pistes complètes de haute qualité avec une structure musicale cohérente d'une durée allant jusqu'à trois minutes en stéréo 44,1 kHz à partir d'une seule invite en langage naturel », a déclaré Stability AI.

Cette annonce intervient dans une période difficile pour Stability, qui aurait épuisé ses réserves de trésorerie avant la démission de son PDG Emad Mostaque il y a deux semaines.

Stability AI lance Stable Audio 2 : le générateur de musique peut-il battre Suno 3 « époustouflant » ?

L’entreprise continue néanmoins d’avancer dans le domaine de l’IA open source. En plus de Stable Audio, la société a lancé le 25 mars un nouveau LLM de codage nommé Stable Code Instruct 3B et a publié l'année dernière un générateur texte-vidéo open source avancé appelé Stable Video Diffusion.

Stability AI s'apprête également à lancer son générateur d'images le plus avancé, Stable Diffusion 3, plus tard cette année.

Parmi les adeptes de l’open source, Stability AI joue un rôle de premier plan aux côtés de noms notables comme Mistral et Nous. Cependant, d’autres grandes entreprises technologiques explorent également l’espace open source, Meta et Microsoft partageant d’importantes contributions.

Présentation de Stable Audio 2.0 – un nouveau modèle capable de produire des pistes complètes de haute qualité avec une structure musicale cohérente d'une durée allant jusqu'à trois minutes en stéréo 44,1 kHz à partir d'une seule invite.

co/E9ZIGagmPf

Lisez le…

Audio de stabilité intérieure

À la base, Stable Audio 2 exploite la technologie de transformateur de diffusion (DiT), suivant la même approche que le prochain générateur d'images Stable Diffusion 3 de Stability AI, représentant un changement par rapport à sa technologie U-Net précédemment adoptée.

DiT et U-Net sont deux architectures couramment utilisées dans l'apprentissage automatique, mais DiT est conçu pour affiner progressivement le bruit aléatoire en données structurées, ce qui le rend particulièrement efficace pour gérer de longues séquences de données. U-Net, en revanche, se concentre sur la précision pour les générations courtes mais est moins capable de gérer des séquences plus longues et plus complexes.

Parmi les améliorations majeures de Stable Audio 2 figure la génération audio-audio, une nouvelle fonctionnalité qui permet aux utilisateurs de transformer les échantillons sonores qu'ils téléchargent, à l'instar de img2img de Stable Diffusion pour la modification d'image.

« Les utilisateurs peuvent désormais télécharger des échantillons audio et, via des invites en langage naturel, transformer ces échantillons en un large éventail de sons », explique l'annonce. « Cette mise à jour étend également la génération d'effets sonores et le transfert de style, offrant aux artistes et aux musiciens plus de flexibilité, de contrôle et un processus créatif amélioré. »

En d'autres termes, Stable Audio 2 ne commence pas à affiner un bruit aléatoire, mais modélise plutôt le fichier audio initial pour qu'il corresponde à l'invite de l'utilisateur. Le résultat est une génération qui suit l’invite mais qui ressemble à l’audio de référence.

La société vante le fait que Stable Audio 2 a été exclusivement formé sur un ensemble de données sous licence de la bibliothèque musicale AudioSparx. Cela garantit que tous les artistes ont eu la possibilité de se retirer du modèle de formation Stable Audio, honorant ainsi leurs droits et garantissant une rémunération équitable.

Decrypt a testé le modèle et les résultats ont montré des améliorations significatives par rapport à Stable Audio 1.0. Les morceaux de musique générés étaient plus cohérents et les générations étaient plus longues, deux fois plus longues que la limite de 90 secondes de la première version.

Le style d'invite de Stable Audio 2 ressemble à celui de Stable Diffusion 1.5, en se concentrant fortement sur les balises ou les mots-clés. Les invites en langage naturel ne donnent pas de bons résultats.

Le modèle semble mieux adapté à l’inspiration ou à la musique de fond plutôt qu’au remplacement de musiciens correctement formés pour des chansons phares. Dans de nombreux cas, des générations ont souffert d’hallucinations multiples et de sons discordants qui s’écartaient de l’invite. Pourtant, cela générait souvent de jolis riffs qui pourraient être utilisés plus tard.

Stable Audio 2 contre Suno 3

Aussi impressionnant que soit Stable Audio 2, en particulier par rapport à son prédécesseur, ses capacités s'estompent rapidement par rapport aux sons et aux chansons générés par Suno 3, une mise à jour du principal générateur audio publiée il y a seulement un mois. De nombreux passionnés d'IA affirment que Suno 3 est le meilleur modèle dans le domaine de la musique IA, Kevin Hutson de Futurepedia le décrivant comme « époustouflant » et MatVidPro affirmant qu'il « change la donne ».

Bien que ce qui rend une piste musicale agréable, voire simplement bonne, soit relatif, Decrypt a tenté une comparaison côte à côte de Stable Audio 2 et Suno 3 en utilisant les mêmes invites. Il s'agit d'une approche imparfaite étant donné les différences dans leurs styles d'invite optimaux : Stable Audio préfère les mots-clés et Suno 3 attend le langage naturel.

Nous avons décidé d'utiliser l'approche Stability AI, même si cela pourrait désavantager Suno. Heureusement, Suno 3 a pu comprendre efficacement nos instructions, offrant ainsi un moyen raisonnable de comparer leurs résultats.

Sous-genre : Heavy Metal.

Dès le départ, Suno 3 présente un avantage majeur par rapport à la concurrence : en plus d'accepter les invites en langage naturel, il peut s'intégrer à un modèle en grand langage (LLM) pour générer des paroles.

En termes de qualité de l'audio généré, Stable Audio 2 n'est pas à la hauteur de Suno 3. Alors que Stability AI affirme que son outil peut générer une musique cohérente d'une durée allant jusqu'à trois minutes, les pistes ont tendance à être plus simples, manquant de créativité et de complexité structurelle. de l'audio généré par Suno 3. Les générations de Suno 3 incluent généralement une structure de chanson appropriée avec des riffs, des refrains, des ponts et des variations naturels, ce qui donne l'impression que la sortie ressemble davantage à une chanson complète qu'à une piste instrumentale de fond.

De plus, les transitions entre les riffs dans les générations musicales de Stable Audio sont souvent abruptes. Cela contraste fortement avec Suno 3, qui effectue généralement une transition fluide entre les différentes parties de la chanson, créant une expérience d'écoute plus agréable.

Une autre différence notable entre les deux modèles est la vitesse de génération audio. Suno 3 génère de l'audio beaucoup plus rapidement que Stable Audio 2. Bien que cela puisse être un problème de serveur, cela reste un facteur important à prendre en compte, en particulier pour les utilisateurs qui ont besoin de générer de l'audio rapidement et efficacement.

Mais il y a une chose que Stable Audio 2 fait que Suno 3 ne peut pas faire : les générations audio-audio.

cela pourrait certainement être important pour beaucoup.

Stable Audio et Suno sont tous deux puissants et valent la peine d'être essayés, surtout si vous avez un bug de création musicale mais que vous manquez de compétences musicales. Mais Stable Audio devra peut-être passer à sa troisième version pour se rapprocher de la même génération de Suno.