Pesquisa por voz vai exigir mudanças na estratégia de SEO

IA Conversacional

2 minutos de leitura

Modelo usa cinco segundos de fala para imitar voz

15/11/2019

Pesquisadores dizem, no entanto, que vozes geradas podem ser facilmente distinguidas das reais, afastando preocupação com a segurança

Criar um sistema TTS (Text-to-Speech) para gerar fala natural para uma variedade de alto-falantes de maneira eficiente. Este é o objetivo do modelo matemático desenvolvido por uma equipe de pesquisadores da Universidade de Cornell, nos Estados Unidos. O trabalho só precisou usar uma amostragem de cinco segundos de fala para imitar a voz de uma pessoa, a partir de um sistema baseado em rede neural para síntese de TTS multispeaker.

Com um pequeno volume de dados, o modelo permite criar novas vozes. No entanto, os pesquisadores afastaram a preocupação com a segurança. “Verificamos que as vozes geradas pelo modelo matemático proposto podem ser facilmentte distinguidas das vozes reais”, escreveram em artigo intitulado “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”. O trabalho levou ao desenvolvimento de um software para fazer a sintetização de voz.

A pesquisa vai muito além de mostrar a possibilidade de clonagem da voz de uma pessoa. Segundo os pesquisadores, o trabalho abre caminho para vários usos do modelo. Um deles é restaurar a capacidade de se comunicar naturalmente com pessoas que perderam a voz. O modelo proposto também poderia permitir novos aplicativos, como a transferência de voz entre idiomas, com uma conversão de voz mais natural.

No artigo, os pesquisadores explicam que a sintetização da fala natural requer treinamento com um grande número de transcrições de fala de alta qualidade. Isso, de acordo com eles, é impraticável. A pesquisa caminhou por uma abordagem que dissocia a modelagem do falante da síntese da fala em si, usando um conjunto de dados menor.

“Demonstramos que o modelo é capaz de gerar voz realista de uma pessoa baseada em um trecho diferente da voz usada no teste, o que revela que nosso modelo aprendeu a utilizar um método realista de representação de boa parte das variações da voz de uma pessoa”, diz o artigo.

Veja a íntegra do artigo

Agência New Voice Autor

Hand-Picked Top-Read Stories

Meta AI: formato web e Llama 3 integrado aos apps; veja mudanças

IA protagonizou Web Summit Rio de Janeiro; encerrado ontem

Depois do Spotify, Amazon lança Maestro para playlists com IA

Trending Tags

Modelo usa cinco segundos de fala para imitar voz

Deixe um comentário Cancelar resposta

Meta AI: formato web e Llama 3 integrado aos apps; veja mudanças

IA protagonizou Web Summit Rio de Janeiro; encerrado ontem

Depois do Spotify, Amazon lança Maestro para playlists com IA

Modelo usa cinco segundos de fala para imitar voz

Deixe um comentário Cancelar resposta

Posts Relacionados

114 milhões de adultos nos EUA já utilizam assistentes de voz

Pandora traz músicas ao alcance de todos

IA pode agregar mais valor para economia