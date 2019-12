Pour que la machine parvienne à ce résultat, les chercheurs l’ont "entraînée" avec des milliers d’heures de vidéos issues d’émissions politiques et d’actualités de la chaîne britannique BBC. En tout, les vidéos qui lui ont été soumises contenaient 45.000 phrases différentes en anglais provenant de conversations "naturelles". En parallèle, le logiciel, qui est donc bilingue, s’est formé au mandarin en avalant 100.000 phrases provenant du site web de la China Network Television. Le programme informatique s’est ensuite servi de ces exemples pour apprendre à lire sur les lèvres, grâce à la technologie du "deep learning", une méthode d'apprentissage automatique destinée à améliorer les performances des machines.

Les capacités de l’intelligence artificielle (IA) ne cessent de s’accroître. Dernier exemple en date, l’entreprise chinoise Alibaba a annoncé, avec des scientifiques de l’Université du Zhejiang en Chine et de l’Institut de technologie Stevens aux Etats-Unis, avoir mis au point un programme informatique capable de convertir les mouvements des lèvres en texte.

Le programme de lecture sur les lèvres d’Alibaba, baptisé "Lip by Speech" (Libs) , surpasse de loin ces résultats. En intégrant des systèmes de reconnaissance vocale, la technologie d'intelligence artificielle du géant chinois serait en mesure de repérer des indices beaucoup plus subtils dans le mouvement des lèvres. Par le biais de cette nouvelle approche, l'équipe sino-américaine a été en mesure de réduire le taux d'erreurs de 2,75 % en anglais et 7,66 % en chinois par rapport aux précédentes méthodes. A ce jour, ce logiciel de lecture labiale est donc le plus précis du monde. Reste à savoir à quoi peut servir une telle technologie ?

A vrai dire, ce n'est pas une première. Déjà en 2016, des chercheurs de DeepMind , l’entreprise d’intelligence artificielle rachetée par Alphabet, la maison-mère de Google, avait annoncé, avec des scientifiques de l’Université d’Oxford, avoir mis au point un réseau artificiel de neurones capable de sous-titrer des vidéos avec une précision de 46,8 %. A titre de comparaison, un professionnel ayant dix ans d’expérience, soumis au même test, n'y arrivait que 12,4 % du temps. Pour y parvenir, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (en français, "Regarder, écouter, assister et épeler") s'était formé en avalant 5.000 heures d'émissions télés.

Les chercheurs ont indiqué qu'ils envisageaient d'appliquer cette méthode pour apprendre à une intelligence artificielle à interpréter le langage des signes. De quoi offrir la possibilité, à l’avenir, d’interagir avec des assistants intelligents… mais sans utiliser la voix. Plus globalement, elle pourrait aider les personnes malentendantes à mieux comprendre les conversations. On estime que 466 millions de personnes dans le monde souffrent d'une perte auditive invalidante, soit environ 5% de la population mondiale. D'ici 2050, ce nombre pourrait atteindre plus de 900 millions, selon l'Organisation mondiale de la santé (OMS).

Néanmoins, cette technologie pourrait également être utilisée, à terme, à des fins de surveillance, puisqu’elle permet de comprendre ce que dit une personne sans micro, simplement en la filmant via une caméra. Les chercheurs affirment toutefois que leur programme ne fonctionne que dans certaines conditions et que la définition d’une caméra de surveillance est insuffisante pour qu’il comprenne correctement les mots prononcés, notamment sur des images souvent sombres et des personnages lointains. Mais jusqu’à quand ?