escuro
Pesquisa por voz vai exigir mudanças na estratégia de SEO

Modelo usa cinco segundos de fala para imitar voz

Pesquisadores dizem, no entanto, que vozes geradas podem ser facilmente distinguidas das reais, afastando preocupação com a segurança

Criar um sistema TTS (Text-to-Speech) para gerar fala natural para uma variedade de alto-falantes de maneira eficiente. Este é o objetivo do modelo matemático desenvolvido por uma equipe de pesquisadores da Universidade de Cornell, nos Estados Unidos. O trabalho só precisou usar uma amostragem de cinco segundos de fala para imitar a voz de uma pessoa, a partir de um sistema baseado em rede neural para síntese de TTS multispeaker.

Com um pequeno volume de dados, o modelo permite criar novas vozes. No entanto, os pesquisadores afastaram a preocupação com a segurança. “Verificamos que as vozes geradas pelo modelo matemático proposto podem ser facilmentte distinguidas das vozes reais”, escreveram em artigo intitulado “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”. O trabalho levou ao desenvolvimento de um software para fazer a sintetização de voz.

A pesquisa vai muito além de mostrar a possibilidade de clonagem da voz de uma pessoa. Segundo os pesquisadores, o trabalho abre caminho para vários usos do modelo. Um deles é restaurar a capacidade de se comunicar naturalmente com pessoas que perderam a voz. O modelo proposto também poderia permitir novos aplicativos, como a transferência de voz entre idiomas, com uma conversão de voz mais natural.

No artigo, os pesquisadores explicam que a sintetização da fala natural requer treinamento com um grande número de transcrições de fala de alta qualidade. Isso, de acordo com eles, é impraticável. A pesquisa caminhou por uma abordagem que dissocia a modelagem do falante da síntese da fala em si, usando um conjunto de dados menor.

“Demonstramos que o modelo é capaz de gerar voz realista de uma pessoa baseada em um trecho diferente da voz usada no teste, o que revela que nosso modelo aprendeu a utilizar um método realista de representação de boa parte das variações da voz de uma pessoa”, diz o artigo.

Veja a íntegra do artigo

Total
0
Shares
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
0
Share