Une décision judicieuse : Meta déploie une boîte audio alimentée par l'IA

La société mère de Facebook, Meta, a publié lundi la première démo de sa nouvelle plate-forme de génération audio basée sur l'IA, Audiobox. Le géant des médias sociaux a déclaré qu'Audiobox permet aux utilisateurs de créer des voix et des effets sonores personnalisés à l'aide de entrées et d'invites vocales.
Audiobox, a déclaré Meta, s'appuie sur la technologie développée pour sa plate-forme Voicebox introduite plus tôt cette année, mais elle surpasse Voicebox en qualité et inclut un filigrane automatique pour une « utilisation responsable ».
« Audiobox, le successeur de Voicebox, fait progresser encore plus l'IA générative pour l'audio en unifiant les capacités de génération et d'édition pour la parole, les effets sonores (sons courts et discrets comme un aboiement de chien, un klaxon de voiture, un coup de tonnerre, etc.) et paysages sonores, avec une variété de mécanismes d'entrée pour maximiser la contrôlabilité pour chaque cas d'utilisation », a déclaré l'équipe Audiobox de Meta.
Audiobox, a expliqué l'équipe, utilise des « solveurs sur mesure », qui, selon eux, rendent le processus de génération plus de 25 fois plus rapide que les modèles précédents sans perte de performances.
En juin, Meta a annoncé Voicebox, un outil d'IA générative qui, selon Meta, peut produire de l'audio en six langues, dont l'anglais, le français, l'allemand, l'espagnol, le polonais et le portugais, et peut le faire plus près de la façon dont les gens parlent naturellement dans le monde réel.
Alors que les inquiétudes concernant les deepfakes basés sur l'IA augmentaient à l'époque, Meta a déclaré qu'elle ne rendrait pas Voicebox au public, reconnaissant le potentiel d'utilisation abusive. Pour lutter contre les utilisations abusives d'Audiobox, Meta a inclus le filigrane.
« Les progrès récents en matière de qualité et de fidélité dans le modèle génératif audio ont permis de nouvelles applications et utilisations. sur le modèle. Cependant, en même temps, de nombreuses personnes... s'inquiètent des risques d'utilisation abusive », a déclaré l'équipe d'Audiobox dans son rapport. « Par conséquent, la capacité de reconnaître quel audio est généré ou réel est cruciale pour empêcher le de la technologie et permettre certains pour se conformer à leur politique.
"Le modèle Audiobox et notre démo interactive disposent d'un filigrane audio automatique afin que tout audio créé avec Audiobox puisse être retracé avec précision jusqu'à son origine", a déclaré Meta. « Notre méthode de filigrane intègre dans l'audio un signal imperceptible à l'oreille humaine mais qui peut être détecté jusqu'au niveau de l'image à l'aide d'un modèle capable de trouver des segments générés par l'IA dans l'audio."
"Nous concevons des invites basées sur des descriptions et des exemples pour améliorer la contrôlabilité et unifier les paradigmes de génération de parole et de son", a déclaré l'équipe. "Nous permettons que la transcription, la voix et d'autres styles audio soient contrôlés indépendamment lors de la génération de la parole."
Bien que cela puisse être plus rapide, Meta a reconnu que les modèles d'IA génératifs audio comme Audiobox sont limités par la quantité de données d'entraînement (dans ce cas, les sons) étiquetées et introduites dans le modèle d'IA, soulignant l'importance d'étiqueter correctement les données.
Un exemple, ont déclaré les chercheurs, il est préférable de qualifier les sons d’un chihuahua et d’un labrador qui aboient comme étant un type de chien spécifique plutôt que de simplement les qualifier de « aboiements de chien ». Meta dit que la même chose s'applique aux modèles de discours comme les accents et les dialectes régionaux.
Un porte-parole de Meta a refusé de fournir d'autres commentaires.
Comme Google, Microsoft et Amazon, Meta a investi massivement dans l'intelligence artificielle. Plus tôt ce mois-ci, Meta a annoncé l'arrivée de plus de 20 nouvelles fonctionnalités basées sur l'IA sur sa suite de plates-formes, notamment Facebook, Instagram et WhatsApp.
Partisan du développement responsable de l'IA, Meta s'est récemment associé à IBM pour lancer l'AI Alliance, un consortium de plus de 50 entreprises, universités et groupes de réflexion axés sur l'innovation et le développement de l'IA open source.
"L'AI Alliance rassemble des chercheurs, des développeurs et des entreprises pour partager des outils et des connaissances qui peuvent nous aider tous à progresser, que les modèles soient partagés ouvertement ou non", a déclaré Nick Clegg, président des affaires mondiales de Meta. "Nous sommes impatients de travailler avec des partenaires pour faire progresser l'état de l'art en matière d'IA et aider chacun à construire de manière responsable."
Edité par Ryan Ozawa.

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception.