escuro

Amazon usa redes neurais para sintetizar fala

Empresa diz que, no ano passado, o Alexa e o Polly evoluíram para sistemas de conversão de texto em fala baseados na solução

Pesquisadores da Amazon estão em busca de uma fala mais natural do que os modelos convencionais. Segundo eles, o caminho passa pelo uso de sistemas neurais de conversão de texto em fala (NTTS, na sigla em inglês). Isso devido a sua adaptabilidade, uma vez que podem imitar a prosódia de uma gravação, ou seja, suas mudanças de ritmo, tempo, tom e volume. A Amazon já usa a tecnologia de redes neurais.

A questão voltou ao radar durante a edição desse ano da Interspeech, na Áustria, em dois artigos apresentados pelos cientistas da empresa o tema. O primeiro paper trata de fala sintetizada que imita a prosódia, o que mostra que a Amazon está no caminho certo ao usar redes neurais.

O artigo explica que, em essência, a transferência de prosódia permite que você escolha qual voz será ouvida ao ler de volta o conteúdo gravado, com todas as inflexões vocais originais preservadas.

“Tentativas anteriores envolveram redes neurais que utilizam espectrogramas específicos de alto-falante e o texto correspondente como espectrogramas de entrada e saída que representam uma voz diferente. Só que eles tendem a não se adaptar bem às vozes de entrada que não ouviram antes”, aponta o artigo sobre o uso de redes neurais.

Por isso, os cientistas adotaram várias técnicas para tornar a rede mais geral, incluindo a não utilização de espectrogramas brutos como entrada. Eles explicam que, em vez disso, o sistema usa recursos prosódicos que são mais fáceis de normalizar.

Um sistema texto-para-fala, que converte texto escrito em fala sintetizada, é o que permite ao Alexa responder verbalmente a pedidos ou comandos. Pelo serviço chamado Amazon Polly, a solução também é uma tecnologia que a Amazon Web Services oferece aos clientes.

A Amazon conta que, no ano passado, o Alexa e o Polly evoluíram para sistemas de conversão de texto em fala baseados em redes neurais, que sintetizam a fala do zero, em vez do método anterior de seleção de unidades, que unia pequenos trechos de sons pré-gravados.

O segundo artigo apresentado no Interspeech deste ano aborda a vocalização universal. Por meio da solução, um sistema texto-para-fala produz uma série de espectrogramas, instantâneos das energias em diferentes bandas de frequência de áudio durante curtos períodos de tempo.

No entanto, explica o artigo, esses espectrogramas não contêm informações suficientes para produzir diretamente um sinal de fala com som natural. De acordo com os pesquisadores, para isso, é preciso usar um vocoder para preencher os detalhes que faltam. Então, um vocoder neural típico é treinado em dados de um único alto-falante.

No artigo, os cientistas relatam um vocoder treinado em dados de 74 falantes em 17 idiomas. “Em nossos experimentos, para um determinado falante, o vocoder universal superou os vocoders específicos do falante – mesmo quando nunca tinha visto dados desse falante em particular antes”, explicaram no artigo.

Total
0
Shares
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
0
Share