Evaluación comparativa: transcripción de voz a texto, traducción automática y conversión de texto en voz

Demostración conceptual por

Sébastien Doré / Ubisoft

Philippe Anel, CTO / Mediawen

Erwan de Kerautem, CEO / Mediawen

[ #ubinnovationlab]

¿Es tan buena la inteligencia artificial para traducción, subtitulación y voz en off?

La traducción automática y la transcripción de voz a texto con inteligencia artificial (IA) es un tema tan candente que los gigantes de la tecnología están invirtiendo fuertemente en ello y anuncian cada cierto tiempo haber alcanzado un nuevo hito en la tasa de error de palabras (WER).

Contactar con MediaWen

Hemos formado un equipo con la empresa emergente francesa MediaWen para comprobar por nosotros mismos lo bien que funciona la IA en este ámbito. Gracias a la combinación de soluciones de vanguardia de los grandes actores en este campo (Google, Microsoft e IBM) con las mejores soluciones basadas en investigación y sus propios algoritmos, MediaWen consigue mejorar los resultados.

Hemos probado seis vídeos:

Se aplicó la transcripción de voz a texto a los seis vídeos y la traducción automática a todos excepto a la secuencia de experiencia de juego de GRW; en la cual, debido a la mezcla de sonidos, música y voces, la IA no funcionó muy bien, y esto confirma nuestro presentimiento de que cada archivo de sonido debe ser traducido de manera individual. En ambos casos —transcripción de voz a texto y traducción— probamos herramientas de Google, Microsoft, IBM y Voxolab y seleccionamos en cada caso la que proporcionaba mejores resultados.

El resultado variaba dependiendo de si era transcripción de voz a texto o traducción y de la dirección de las lenguas de traducción. A continuación, un traductor humano corrigió el resultado obtenido tras aplicar la IA. MediaWen mostró todas las correcciones realizadas según su tipo y de ello se dedujo que algunos resultados requerían mucha más intervención humana que otros.

Con un espíritu de total transparencia, todos los vídeos procesados están disponibles a continuación. Basta con hacer clic en las miniaturas e iniciar la reproducción del vídeo. El icono de la bola del mundo del reproductor de vídeo muestra un menú que permite navegar a través de varias pruebas de transcripción de voz a texto, traducción y voz en off.

2m7s

grw-briefing-intro

4m36s

grw-mission-yuripolito

2m16s

lab-minute-lidwine-et-seb

5m23s

bs-radar episode 1

5m37s

bs-radar episode 2

5m39s

captation-kom-emea

Nuestro análisis nos permitió evaluar la precisión de ambos: la transcripción de voz a texto y la traducción. Sin tener en cuenta pequeños errores (como la omisión de una letra mayúscula), la precisión rondó el 90-95 % en el caso de la transcripción de voz a texto y el 85 % en la traducción. Según MediaWen, la automatización es rentable cuando se alcanza el 85 % o, dicho de otro modo, en ese punto es cuando es más rápido corregir que empezar de cero. Por eso la transcripción de voz a texto ya de por sí ahorra tiempo, y la traducción va por el mismo camino.

Estos resultados pueden mejorarse enseñando vocabulario desconocido a la herramienta de IA. Dado que nosotros utilizamos mucho vocabulario de videojuegos, la jerga de Ubisoft y la combinación inglés a francés, esta solución tiene probabilidades de ser efectiva para nosotros.

Gracias a estas técnicas podríamos conseguir resultados de transcripción de voz a texto casi perfectos, así como traducción automática, que, aunque todavía requiera de intervención humana, nos permitirá ahorrar un tiempo valioso. La voz en off sólo se probó en un vídeo. Y nos sorprendió gratamente la calidad, especialmente en inglés. Además, la variedad de voces y acentos fue también impresionante.

Copyright (c) 2017-2018 MediaWen International