Réagissant en temps réel : Moshi, une IA de génération audio qui parle aussi vite qu’un humain

Le laboratoire français Kyutai l’a dévoilée à Paris devant un parterre de chercheurs, entrepreneurs et journalistes. Le prototype annonce de quoi pourraient devenir les interactions vocales avec les machines.

L’équipe a été héroïque». Patrick Pérez, directeur de Kyutai, donne le ton dès les premières minutes de sa présentation, face à un parterre de scientifiques, d’entrepreneurs et de journalistes réunis le 3 juillet à l’Ircam (Institut de recherche et coordination acoustique/musique), à Paris. C’est le jour du dévoilement de Moshi, une Intelligence artificielle (IA) vocale qui tire plus vite que son ombre.

«L’héroïsme» en question fait aussi référence à la vitesse à laquelle a travaillé la petite équipe de Kyutai. En six mois, les 8 personnes de ce laboratoire de recherche français présenté mi-novembre 2023 ont effectivement abattu un travail considérable puisqu’elles dévoilent ici le premier générateur de voix par IA réagissant en temps réel.

C’est-à-dire qu’on peut lui parler comme à un humain. L’agent conversationnel répond sans le temps de latence qui signe l’interlocuteur artificiel. En l’occurrence, la réponse arrive dans les 200 millisecondes.Il est bâti sur un modèle de langage appelé Hélium, lui aussi développé par Kyutai. Il a été pré-entraîné sur des données trouvées en ligne, comme beaucoup de modèles, mais aussi sur des séquences audios de conversation de synthèse. «Il est très difficile de collecter une grande quantité de ce type de données», explique Alexandre Défossez, membre de l’équipe.

Le modèle a d’abord été entraîné à générer une transcription d’un texte écrit ressemblant à un texte parlé. Le résultat est ensuite passé dans un moteur de text-to-speech», c’est-à-dire un logiciel capable de transformer cette conversation écrite en son. Ce programme a lui aussi été développé par Kyutai. La voix elle-même est celle d’une artiste, Alice.

Elle a enregistré des heures de sa voix sur différentes intonations, selon différentes émotions pour qu’au final, Moshi s’avère capable de parler en chantant, en murmurant, et quantité d’autres inflexions. L’autre point clef du projet consistait à pouvoir embarquer le modèle en local sur un appareil et éviter à l’utilisateur d’être relié aux serveurs cloud d’un prestataire (comme avec OpenAI ou Google).

Démo à l’appui, Moshi peut fonctionner sur un ordinateur portable non connecté à internet. A terme, Kyutai ambitionne de faire la même chose sur smartphone, grâce à des méthodes de compression qui réduisent la place occupée en mémoire et garantissent une faible latence dans les échanges. Là encore, le laboratoire a développé sa propre technologie de compression audio.

«Allô» en japonais

Cette présentation façon keynote a permis de faire la démonstration de ce prototype qui, pour l’instant, ne parle qu’anglais (et dont le nom fait référence au «allô» des Japonais, qui se dit moshi moshi). Sa rapidité est effectivement déconcertante, jusqu’à parfois être excessive !

Ainsi, durant la présentation, le programme a plusieurs fois commencé à répondre à ses interlocuteurs avant que ceux-ci n’aient eu le temps de terminer leurs questions. La salle a souvent ri aux originalités du programme, Moshi étant capable de parler avec un fort accent français, «comme mes concepteurs», précise le programme, ou de prendre l’intonation chaloupée d’un pirate, façon Long John Silver.

Du reste, c’est l’une des spécificités de Moshi que de pouvoir traduire des émotions par l’inflexion de la voix, mais aussi de reconnaître celles de celui qui lui parle. Pour Kyutai, cette faculté révèle un potentiel d’usage comme coach ou compagnon de ce programme potentiellement révolutionnaire dans le monde des chatbots.

Lors de la partie de la présentation assurée par le chercheur Laurent Mazaré, l’IA a soudain rappelé que si ce dernier avait besoin d’un avis médical, il devait s’en remettre à un professionnel. «Moshi a dû comprendre au ton de ma voix que j’étais un peu stressé», s’est amusé le chercheur.

Moshi peut être testé en ligne

A l’issue de l’exposé de l’équipe, grâce à plusieurs terminaux installés dans la salle, les participants de cette démonstration ont pu s’essayer au dialogue avec la machine. Un exercice de transparence qui permet d’apprécier les qualités de rapidité de Moshi mais aussi les limites de ce qui n’est encore qu’un prototype - il a tendance à rapidement raconter un peu n’importe quoi, expliquant par exemple qu’il est installé à Boston où il fait très chaud : dans les 60 degrés.

Cette IA vocale générative peut aussi être testée en ligne, sur le site web de Kyutai. Non, Moshi est bien une IA française - et l’équipe promet d’ailleurs de mettre l’accent sur la langue de Molière dans ses prochains développements. Le laboratoire Kyutai a été lancé sous forme de fondation, et non d’entreprise destinée à commercialiser ses technologies, par trois fées généreuses : Xavier Niel d’Iliad, Rodolphe Saadé, PDG de l’armateur CMA-CGM et l’investisseur américain Eric Schmidt (ancien de Google) sont les principaux financiers de ce laboratoire qui prône l’open. source. Des papiers scientifiques seront bientôt publiés pour détailler ce que Moshi a dans le ventre.