Modelo usa cinco segundos de fala para imitar voz

Criar um sistema TTS (Text-to-Speech) para gerar fala natural para uma variedade de alto-falantes de maneira eficiente. Este é o objetivo do modelo matemático desenvolvido por uma equipe de pesquisadores da Universidade de Cornell, nos Estados Unidos. O trabalho só precisou usar uma amostragem de cinco segundos de fala para imitar a voz de uma pessoa, a partir de um sistema baseado em rede neural para síntese de TTS multispeaker.

Com um pequeno volume de dados, o modelo permite criar novas vozes. No entanto, os pesquisadores afastaram a preocupação com a segurança. “Verificamos que as vozes geradas pelo modelo matemático proposto podem ser facilmentte distinguidas das vozes reais”, escreveram em artigo intitulado “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”. O trabalho levou ao desenvolvimento de um software para fazer a sintetização de voz.

A pesquisa vai muito além de mostrar a possibilidade de clonagem da voz de uma pessoa. Segundo os pesquisadores, o trabalho abre caminho para vários usos do modelo. Um deles é restaurar a capacidade de se comunicar naturalmente com pessoas que perderam a voz. O modelo proposto também poderia permitir novos aplicativos, como a transferência de voz entre idiomas, com uma conversão de voz mais natural.

No artigo, os pesquisadores explicam que a sintetização da fala natural requer treinamento com um grande número de transcrições de fala de alta qualidade. Isso, de acordo com eles, é impraticável. A pesquisa caminhou por uma abordagem que dissocia a modelagem do falante da síntese da fala em si, usando um conjunto de dados menor.

“Demonstramos que o modelo é capaz de gerar voz realista de uma pessoa baseada em um trecho diferente da voz usada no teste, o que revela que nosso modelo aprendeu a utilizar um método realista de representação de boa parte das variações da voz de uma pessoa”, diz o artigo.

Veja a íntegra do artigo