Evaluation comparative : Reconnaissance vocale (STT), Traduction automatique (MT) et Voix de synthèse (TTS)

Preuve de concept par

Sébastien Doré / Ubisoft

Philippe Anel, CTO / Mediawen

Erwan de Kerautem, CEO / Mediawen

[ #ubinnovationlab]

Quelle est l’efficacité de l'IA appliquée à la traduction automatique, au sous-titrage et à la voix off ?

Les géants technologiques investissent énormément dans la traduction automatisée et la reconnaissance vocale, annonçant de temps à autre des records de performance dans le taux d'erreur de mots (WER).

Contacter Mediawen

Nous avons fait équipe avec la start-up française Mediawen car nous voulions voir par nous-mêmes les performances de l'IA dans ces tâches. En combinant les solutions de pointe des principaux acteurs du domaine (Google, Microsoft et IBM) avec les meilleures solutions issues de la recherche et ses propres algorithmes, Mediawen optimise les résultats.

Nous avons testé six vidéos :

La reconnaissance vocale a été appliquée à l'ensemble des six vidéos et la traduction automatique à toutes sauf la séquence de jeu GRW, où le mélange de sons, de musique et de voix montrait les limites de l'IA - confirmant notre intuition que chaque fichier audio devrait être traduit individuellement. Nous avons testé des outils de Google, Microsoft, IBM et Voxolab pour la reconnaissance vocale et la traduction, en choisissant la solution la plus performante pour chaque contenu.

Cela variait selon qu'il s'agissait de reconnaissance vocale ou de traduction, et de la direction de la traduction. Ensuite, un traducteur humain a corrigé la solution automatisée par l’IA. Mediawen affiche toutes les corrections effectuées, en montrant leur type ; certains résultats exigeaient beaucoup plus d'intervention humaine que d'autres.

Dans un esprit de complète transparence, toutes les vidéos que nous avons traitées sont accessibles ici. Cliquez sur la vignette ci-dessous, puis démarrez la vidéo. L'icône de la planète dans le lecteur vidéo affiche un menu vous permettant de faire défiler les différents tests de reconnaissance vocale, de traduction et de voix de synthèse.

2m7s

grw-briefing-intro

4m36s

grw-mission-yuripolito

2m16s

lab-minute-lidwine-et-seb

5m23s

bs-radar episode 1

5m37s

bs-radar episode 2

5m39s

captation-kom-emea

Notre analyse nous a permis d'estimer la pertinence à la fois de la reconnaissance vocale et de la traduction. Sans compter les erreurs mineures (telles que l'omission d'une lettre majuscule), l'exactitude est autour de 90-95% pour la reconnaissance vocale et d'environ 85% pour la traduction. Selon Mediawen, 85% est le niveau auquel l'automatisation devient utile - en d'autres termes, où il est plus rapide de corriger que de partir d’une feuille blanche. La reconnaissance vocale fait donc déjà gagner du temps et pour la traduction, on y est presque.

Ces résultats peuvent être améliorés en apprenant un vocabulaire inhabituel à l'IA. Puisque nous utilisons beaucoup de termes de jeux vidéo, de jargon d'Ubisoft et de franglais, cela peut nous être utile.

Nous pourrions obtenir des résultats de reconnaissance vocale et de traduction automatisée quasi-parfaits en utilisant ces techniques, et gagner ainsi un temps précieux tout en maintenant une validation humaine, La voix de synthèse a été testée sur une seule vidéo. Nous avons été agréablement surpris par la qualité, surtout en anglais. La variété des voix et des accents était également impressionnante.

Copyright (c) 2017-2018 Mediawen International