Sommaire
L’intelligence artificielle (IA), SingSong, permet la génération de musiques instrumentales. Créé par OpenAI en 2021, SingSong est un projet passionnant qui génère de manière autonome, des mélodies à partir d’une piste sonore de chant. SingSong n’est pas la première IA de Google et elle n’est pas la seule intelligence artificielle dans le domaine de la musique. MusicLM est le premier projet de Google mais il y a aussi Riffusion, une IA qui compose de la musique en la visualisant. On peut aussi nommer Dance Diffusion, l’AudioML de Google et le Jukebox d’OpenAI. Tous ces projets ont eu des limitations techniques de données de formation. Aucun d’entre eux n’ont été en mesure de produire des compositions de chansons complexes, ou en tout cas, pas en haute fidélité.
Récemment, Google à publié un extrait des compétences de MusicLM. D’après l’auteur du tweet :
Le modèle génère de la musique à 24 kHz à partir de légendes riches comme « Une fusion de reggaeton et de musique de danse électronique, avec un son spatial et d’un autre monde. Induit l’expérience d’être perdu dans l’espace. »
Yesterday, Google published a paper on a new AI model called MusicLM.
— Product Hunt 😸 (@ProductHunt) January 27, 2023
The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space." pic.twitter.com/XPv0PEQbUh
Comment fonctionne SingSong ?
SingSong utilise des réseaux de neurones pour apprendre à associer des paroles et de la musique. Les réseaux de neurones sont entraînés sur une grande base de données de chansons existantes, afin d’identifier les modèles dans les données existantes. Cette étape est importante car elle permet à l’IA de générer de nouvelles chansons qui sont similaires en style et en thème à celles qui ont été utilisées pour l’entraînement.
Cette IA fonctionne en deux étapes principales. Tout d’abord, le système génère des paroles de chansons à partir du texte d’entrée. Ensuite, il utilise ces paroles pour générer une mélodie qui correspond à l’humeur ou au thème des paroles. Pour créer la mélodie, Sing Song utilise un modèle de synthèse musicale basé sur des réseaux de neurones (comme chat GPT), qui apprennent à générer des séquences de notes qui sonnent bien ensemble.
Quels sont les avantages de SingSong ?
SingSong a plusieurs avantages par rapport à la création de musique traditionnelle. Tout d’abord, il peut générer de nouvelles chansons en quelques secondes, ce qui est beaucoup plus rapide que le temps nécessaire pour écrire et composer une chanson traditionnelle.
En outre, SingSong peut générer des chansons dans une grande variété de styles et de genres, ce qui permet aux utilisateurs de créer des chansons personnalisées pour leurs besoins. Il utilise des bases de données de chansons existantes pour générer des chansons qui ont des caractéristiques similaires à celles des chansons existantes.
Tout comme les autres IA, SingSong et MusicLM ont leurs limites
Bien que SingSong ait de nombreux avantages, il a également certaines limites. Par exemple, l’IA n’est pas capable de comprendre complètement les paroles qu’elle génère et ne peut donc pas créer des paroles qui ont une signification profonde ou une grande complexité émotionnelle.
En outre, SingSong a tendance à générer des chansons qui ont des structures mélodiques relativement simples et répétitives. Cela peut être utile pour créer des chansons pop ou commerciales, mais cela peut limiter son utilisation pour la création de musique expérimentale ou de niche.
Quant à Music LM, il produit des échantillons avec une qualité déformée. Et bien que MusicLMq ait le potentiel technique de générer des voix, y compris des harmonies chorales, le résultat n’est pas encore convainquant. La plupart des «paroles» vont d’un semblant d’anglais à des paroles totalement incompréhensibles. Elles sont chantées par des voix synthétisées qui ressemblent à des amalgames de plusieurs artistes.
A qui pourrait servir ces IA musicales ?
La technologie SingSong pourrait être exploiter dans de nombreux domaines, notamment la musique, la publicité, la réalité virtuelle et augmentée, ainsi que les jeux vidéo.
L’une des applications les plus évidentes est la production de musique. SingSong pourrait aider les musiciens à écrire des paroles, à trouver des mélodies et même à produire des chansons entières. Elle pourrait également être utilisée pour créer des bandes sonores personnalisées pour les films et des courts métrages.
Dans le domaine de la publicité marketing, SingSong pourrait aider à créer des jingles et des slogans accrocheurs. La technologie pourrait également être utilisée pour créer des annonces personnalisées qui ciblent les intérêts et les préférences individuelles des consommateurs.
Dans le domaine de la réalité virtuelle et augmentée, SingSong pourrait aider à créer des environnements sonores immersifs et réalistes pour les jeux vidéo, les cinématiques et les expériences interactives.
Elle pourrait aussi être employée dans le domaine de l’assistance vocale, en aidant les personnes atteintes de troubles de la parole ou de la communication à s’exprimer plus facilement.
Magenta, la plateforme Google Brain
Magenta est un projet de recherche de l’équipe Google Brain qui vise à explorer l’utilisation de l’apprentissage automatique pour la création de musique, d’art et de médias. Le projet a été lancé en 2016 et depuis, il a produit de nombreux modèles d’IA capables de générer de la musique et d’autres formes d’art.
Le site Magenta propose un certain nombre d’outils open-source pour permettre aux développeurs et aux artistes de travailler avec ces modèles. Ces outils comprennent des bibliothèques de code en Python pour entraîner et utiliser des modèles d’IA, ainsi que des outils pour l’interaction en temps réel avec les modèles, la visualisation et la création d’interfaces utilisateur.
En plus de fournir ces outils, le site Magenta propose également une galerie d’œuvres créées avec des modèles d’IA de Magenta. Cette galerie présente une grande variété de styles et de genres musicaux, ainsi que des exemples de création de textes, d’images et d’autres formes d’art.
Le projet Magenta a également établi des collaborations avec des artistes et des institutions culturelles pour explorer les possibilités de l’IA dans la création artistique. Par exemple, le projet a travaillé avec le Centre Pompidou à Paris pour créer une exposition interactive mettant en vedette des œuvres d’art générées par l’IA.
Le 31 janvier 2023, un chercheur de la team Google Magenta a publié sur son compte twitter, un extrait des compétences de cette IA. Il présente SingSong, qui peu actuellement générer des accompagnements instrumentaux à coupler avec des voix d’entrée ! Le principe est que l’IA puisse générer d’elle même une musique qui s’adapterait automatiquement à la voix d’un chanteur.
Excited to share SingSong, a system which can generate instrumental accompaniments to pair with input vocals!
— Chris Donahue (@chrisdonahuey) January 31, 2023
📄https://t.co/1mRUaXvqVy
🔊https://t.co/8RGezPu5YQ
Work co-led by myself, @antoine_caillon, and @ada_rob as part of @GoogleMagenta and the broader MusicLM project 🧵 pic.twitter.com/3FXYM69N77
Le résultat est tout simplement bluffant ! Imaginez après avoir écouter ceci que cette IA pousse ses fonctionnalités encore plus loin. Il serait envisageable qu’en écrivant des paroles sous forme de texte, que l’IA puisse créer une voix à part entière qui sera accompagnée par une instrumentale, elle même générée automatiquement ! Ça parait tellement démentiel, mais dans un autre côté ça ferait tellement peur ! Est ce que l’humain fixera des limites et si oui lesquelles ? Nous y reviendrons un peu plus bas dans cet article.
Ce chercheur publie un schéma expliquant le fonctionnement de SingSong. Il nous explique brièvement le concept :
SingSong s’appuie sur des améliorations dans la séparation des sources et la génération audio. Nous utilisons le premier, plus précisément MDX-Net (Kim+21), pour créer de gros volumes de données d’entraînement parallèles (vox, instr.). Pour ce dernier, nous adaptons AudioLM (Borsos+ 22) au réglage conditionnel « audio à audio ».
Les préoccupations éthiques
Comme pour toute technologie émergente, SingSong soulève des préoccupations éthiques quant à son utilisation et à ses implications potentielles.
Tout d’abord, il y a la question de la propriété intellectuelle. Si SingSong est utilisé pour créer de la musique ou d’autres créations artistiques, qui en est le propriétaire ? Le créateur de la technologie ? L’utilisateur final ? Ces questions doivent être résolues pour éviter les litiges juridiques potentiels.
Il y a également des préoccupations concernant l’utilisation potentielle de SingSong pour la manipulation de l’opinion publique. Si la technologie est utilisée pour créer des jingles et des slogans accrocheurs pour les publicités, elle pourrait être utilisée pour influencer les opinions et les comportements des consommateurs de manière subtile et insidieuse.
Enfin, il y a la question de l’impact potentiel de SingSong sur l’emploi. Si cette technologie peut être utilisée pour créer des chansons et d’autres créations artistiques avec peu ou pas d’intervention humaine, cela pourrait avoir un impact négatif sur les travailleurs de l’industrie de la musique, des médias et par la même occasion tuer la fibre artistique humaine sur le long terme.
Pour le moment, ce projet reste privé l’équipe de développement est encore sur le projet… Aucune date de sortie n’est actuellement prévue que ce soit uniquement au niveau professionnel ou pour le grand public.