Pesquisadores da Amazon estão em busca de uma fala mais natural do que os modelos convencionais. Segundo eles, o caminho passa pelo uso de sistemas neurais de conversão de texto em fala (NTTS, na sigla em inglês). Isso devido a sua adaptabilidade, uma vez que podem imitar a prosódia de uma gravação, ou seja, suas mudanças de ritmo, tempo, tom e volume. A Amazon já usa a tecnologia de redes neurais.
A questão voltou ao radar durante a edição desse ano da Interspeech, na Áustria, em dois artigos apresentados pelos cientistas da empresa o tema. O primeiro paper trata de fala sintetizada que imita a prosódia, o que mostra que a Amazon está no caminho certo ao usar redes neurais.
O artigo explica que, em essência, a transferência de prosódia permite que você escolha qual voz será ouvida ao ler de volta o conteúdo gravado, com todas as inflexões vocais originais preservadas.
“Tentativas anteriores envolveram redes neurais que utilizam espectrogramas específicos de alto-falante e o texto correspondente como espectrogramas de entrada e saída que representam uma voz diferente. Só que eles tendem a não se adaptar bem às vozes de entrada que não ouviram antes”, aponta o artigo sobre o uso de redes neurais.
Por isso, os cientistas adotaram várias técnicas para tornar a rede mais geral, incluindo a não utilização de espectrogramas brutos como entrada. Eles explicam que, em vez disso, o sistema usa recursos prosódicos que são mais fáceis de normalizar.
Um sistema texto-para-fala, que converte texto escrito em fala sintetizada, é o que permite ao Alexa responder verbalmente a pedidos ou comandos. Pelo serviço chamado Amazon Polly, a solução também é uma tecnologia que a Amazon Web Services oferece aos clientes.
A Amazon conta que, no ano passado, o Alexa e o Polly evoluíram para sistemas de conversão de texto em fala baseados em redes neurais, que sintetizam a fala do zero, em vez do método anterior de seleção de unidades, que unia pequenos trechos de sons pré-gravados.
O segundo artigo apresentado no Interspeech deste ano aborda a vocalização universal. Por meio da solução, um sistema texto-para-fala produz uma série de espectrogramas, instantâneos das energias em diferentes bandas de frequência de áudio durante curtos períodos de tempo.
No entanto, explica o artigo, esses espectrogramas não contêm informações suficientes para produzir diretamente um sinal de fala com som natural. De acordo com os pesquisadores, para isso, é preciso usar um vocoder para preencher os detalhes que faltam. Então, um vocoder neural típico é treinado em dados de um único alto-falante.
No artigo, os cientistas relatam um vocoder treinado em dados de 74 falantes em 17 idiomas. “Em nossos experimentos, para um determinado falante, o vocoder universal superou os vocoders específicos do falante – mesmo quando nunca tinha visto dados desse falante em particular antes”, explicaram no artigo.