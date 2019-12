En août dernier, à l’occasion de l'édition 2019 de sa conférence annuelle Google I/O , l’entreprise américaine a présenté un programme de recherche visant à utiliser l’outil WaveNet pour améliorer le quotidien des centaines de millions de personnes qui souffrent de troubles du langage à travers le monde. Et dans une note de blog publiée cette semaine, les chercheurs de la filiale londonienne de Google ont dévoilé les résultats d’une étude de cas. Pendant six mois, une équipe de DeepMind a formé une intelligence artificielle pour qu’elle reproduise fidèlement la voix de Tim Shaw. Il y a maintenant six ans, cette ancienne gloire de la NFL - la ligue de football américain - a raccroché les crampons.

Malheureusement, cinq mois après sa retraite, Tim Shaw s’est vu diagnostiquer la maladie de Charcot (comme Stephen Hawking). Une pathologie qui l'oblige à utiliser un fauteuil roulant et le rend incapable de parler, d'avaler ou de respirer sans assistance. En s'appuyant sur des extraits audio enregistrés avant que son état de santé ne se dégrade, l'équipe de DeepMind a pu former une intelligence artificielle pour qu'elle imite sa voix. Contrairement aux voix synthétiques classique, WaveNet entreprend de décortiquer les sons qui lui sont présentés avant de les reproduire échantillon par échantillon. 16.000 échantillons par seconde peuvent être distingués dans la voix humaine, indique l'équipe de DeepMind.

Dans une vidéo de démonstration (en anglais) publiée mercredi 18 décembre sur YouTube et relayée par le site américain VentureBeats, l'ancien sportif de haut-niveau utilise une version modifiée de l'assistant vocal de Google qui, en dépit de sa difficulté à prononcer certains mots, parvient à reconnaître les sons qui sortent de sa bouche pour générer un texte. Par ailleurs, en utilisant l'outil de synthèse vocal de DeepMind, les chercheurs ont pu également faire lire un texte à la voix artificielle qui a été créée sur le modèle de celle de Tim Shaw. Bien qu’encore imparfait, puisqu’il est toujours possible de distinguer la voix synthétique de WaveNet de celle de Tim Shaw, le résultat est assez bluffant.

Pour réaliser cette prouesse, les chercheurs de DeepMind ont eu recours au "deep learning", dont l'entreprise a fait sa spécialité. Les scientifiques estiment pouvoir apporter encore davantage de modulations aux voix créées afin de les rendre plus expressives. Les ambitions de Google dans le domaine de la reconnaissance et de la synthèse vocale ne sont pas anodines à l’heure où l’interface graphique cède de plus en plus de terrain à la voix, qu’il s’agisse des assistants vocaux comme Siri (Apple), Cortana (Microsoft), Alexa (Amazon) et bientôt Assistant (Google). L’objectif de ces entreprises est de permettre à l’utilisateur, à terme, d’interagir avec la machine en utilisant le langage naturel, comme il échangerait avec un autre humain.