Nl

TECH

De l'IA dans les oreilles, par Nicolas Bataille

Jeudi 14 Mars 2024

De l'IA dans les oreilles, par Nicolas Bataille

Yoko Sound est une chanteuse bruxelloise qui a sorti son premier album "Not Enemy" en 2008. Depuis quelques années, elle a pour ambition d'en sortir un second. Pour cela, il lui faut trouver le bon compositeur qui pourra créer avec elle la musique de ses nouveaux morceaux. Yoko Sound est ma compagne depuis 16 ans et je lui ai récemment montré ce que le monde merveilleux de l’IA pourrait sans doute faire pour concrétiser cette ambition… Des années plus tard, son prochain producteur, ce sera peut-être elle.
 
L’IA générative va transformer la manière dont les acteurs de la communication et de la culture créent, écoutent et interagissent avec le son.
 
Une voix off réaliste pour un documentaire, un nouveau morceau de Beatles, la synchronisation labiale d’une série ou d’un film avec la voix de l'acteur, l’habillage sonore d’une pub, le générique d’un podcast… l'IA ouvre à nouveau des voies créatives tout en "disruptant" une industrie de plus.
Distinguons trois grands piliers de la génération audio par IA : les voix (avec ou sans images), les sound effects (sfx) et… la musique (avec ou sans voix) que nous allons aborder dans cette chronique.

Historiquement, en 2018 déjà, avec son IA Aiva, Nvidia proposait la première solution permettant de générer de la musique symphonique. C’était le tout début de la génération par IA et je me souviens avoir été bluffé par cette démo à l'époque :
Précisons que Nvidia est actuellement le principal fournisseur de puissance pour tous les acteurs du marché IA et par conséquent, elle marche sur des œufs en entrant en concurrence avec ses principaux clients cités ci-dessous.

Si on remonte à l'année 2020, OpenAI (encore lui) a ouvert son modèle génératif pour la création de musique : JukeBox. Malgré le côté précurseur avec pour la première fois des voix de chanteurs/chanteuses générées, on en a peu entendu parler à côté du raz de marée ChatGPT quelques années plus tard. Jukebox existe toujours et est l'une des solutions les plus abouties pour générer de la musique avec voix. Cet outil reste cependant complexe à prendre en main.
Quant à Google, il a une fois de plus tergiversé. Son IA pour la génération de musique MusicLM est bien là mais toujours dans l'environnement Research. Et voilà que la semaine dernière, ils annoncent la sortie de MusicFX, basé sur leurs recherches précédentes, qui permet de générer des pistes audio sur base d’un simple prompt. MusicFX, basé sur 3 modèles de langages pré-entraînés possède un dataset de 280.000 heures de musique, rien que ça.

Tout récemment, c'est un autre géant de la tech qui s’est lancé : Adobe. Le claim est plutôt attirant : Project Music GenAI Control serait le Photoshop de la musique ! Il permet évidemment de générer de la musique mais surtout d’éditer ensuite des parties de ce qui est proposé pour personnaliser précisément le résultat final via des prompts.. On peut faire confiance à Adobe pour se faire une place dans la jungle des fournisseurs de solutions IA.
Enfin, des IA indépendantes existent telles que Beatoven, Elevenlabs, Loudly ou Soundraw. Pour moi, c'est Suno.ai qui se dégage par sa simplicité et sa rapidité de prise en main. S'il y a bien un outil qui vous permettra d’impressionner vos amis en 2 minutes c’est celui-ci.

J’ai généré en quelques clics le "MM-Rap" ci-dessous. Mais les conditions sont claires : pas de diffusion en streaming sur des plateformes musicales.
Force est de constater que tous les gros acteurs de la tech AI s’intéressent au son.
 
On le sait, l’industrie de la musique et les plateformes de streaming font parties intégrantes de notre société. Les enjeux financiers sont très importants et les contraintes de droits d’auteurs resteront, comme pour les images, un frein à l’adoption rapide de ces technologies à une grande échelle.


Après quelques bagarres de bureau d’avocats spécialisés dans les copyrights (ou pas), je suppose que nous pourrons très vite acquérir les droits sur un morceau généré par IA comme on peut notamment le faire depuis longtemps avec les photos de stock.

Le prochain album de Yoko Sound sera-t-il bientôt dans les bacs à côté des derniers opus de Marvin Gaye et de Bob Marley ? Wait and see.

La semaine prochaine, je vous parlerai entre autre d’une initiative européenne (enfin!) dans l’IA : Mistral.

Archive / TECH