Amazon usa IA para traduzir vídeos para outros idiomas

A Amazon está trabalhando com o seu modelo de inteligência artificial para duplicar automaticamente o diálogo de filmes estrangeiros para uma outra língua. Um artigo publicado por pesquisadores da empresa no servidor Arxiv.org explica como funciona o processo. O novo pipeline de “fala para fala” utiliza a IA para alinhar a fala traduzida com a fala original e ajustar a duração da fala antes de adicionar ruído de fundo e reverberação.

Segundo os autores do artigo, isso melhora a naturalidade percebida da dublagem. Eles observam que a dublagem automática envolve a transcrição de fala em texto e a tradução desse texto para outro idioma antes de gerar fala a partir do texto traduzido.

O desafio não é simplesmente transmitir o mesmo conteúdo do áudio de origem, mas corresponder ao timbre original, emoção, duração, prosódia (ou seja, padrões de ritmo e som), ruído de fundo e reverberação. A abordagem da Amazon sincroniza frases entre idiomas e segue um critério “baseado em fluência” e não em conteúdo.

Ele compreende várias partes, incluindo um bit de tradução automática baseado no Transformer, treinado em mais de 150 milhões de pares inglês-italiano e um módulo de alinhamento prosódico que calcula a correspondência relativa na duração entre os segmentos de fala, enquanto mede a plausibilidade linguística de pausas e quebras.

Um modelo na fase de conversão de texto em fala treinado em 47 horas de gravação de voz gera uma sequência de contexto a partir do texto que é alimentado em um codificador de voz pré-treinado, que converte a sequência em uma forma de onda da fala.

Para fazer com que a fala dublada pareça mais “real” e semelhante à original, a equipe incorporou uma etapa de separação de primeiro plano que extraiu o ruído de fundo e o adicionou ao discurso. Uma etapa separada estima a reverberação do ambiente a partir do áudio original e a aplica ao áudio dublado.

Para avaliar seu sistema, os pesquisadores tiveram voluntários – 14 no total, cinco italianos e nove não italianos – avaliaram a naturalidade de 24 trechos do TED Talks com dublagem em italiano de três maneiras diferentes: uma com uma linha de base de tradução de fala para fala; a linha de base com tradução automática aprimorada e alinhamento prosódico; e o sistema de b com renderização de áudio aprimorada.

Fonte: Venturebeat