Pesquisa por voz vai exigir mudanças na estratégia de SEO

IA Conversacional

2 minute read

Modelo usa cinco segundos de fala para imitar voz

15/11/2019

Pesquisadores dizem, no entanto, que vozes geradas podem ser facilmente distinguidas das reais, afastando preocupação com a segurança

Criar um sistema TTS (Text-to-Speech) para gerar fala natural para uma variedade de alto-falantes de maneira eficiente. Este é o objetivo do modelo matemático desenvolvido por uma equipe de pesquisadores da Universidade de Cornell, nos Estados Unidos. O trabalho só precisou usar uma amostragem de cinco segundos de fala para imitar a voz de uma pessoa, a partir de um sistema baseado em rede neural para síntese de TTS multispeaker.

Com um pequeno volume de dados, o modelo permite criar novas vozes. No entanto, os pesquisadores afastaram a preocupação com a segurança. “Verificamos que as vozes geradas pelo modelo matemático proposto podem ser facilmentte distinguidas das vozes reais”, escreveram em artigo intitulado “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”. O trabalho levou ao desenvolvimento de um software para fazer a sintetização de voz.

A pesquisa vai muito além de mostrar a possibilidade de clonagem da voz de uma pessoa. Segundo os pesquisadores, o trabalho abre caminho para vários usos do modelo. Um deles é restaurar a capacidade de se comunicar naturalmente com pessoas que perderam a voz. O modelo proposto também poderia permitir novos aplicativos, como a transferência de voz entre idiomas, com uma conversão de voz mais natural.

No artigo, os pesquisadores explicam que a sintetização da fala natural requer treinamento com um grande número de transcrições de fala de alta qualidade. Isso, de acordo com eles, é impraticável. A pesquisa caminhou por uma abordagem que dissocia a modelagem do falante da síntese da fala em si, usando um conjunto de dados menor.

“Demonstramos que o modelo é capaz de gerar voz realista de uma pessoa baseada em um trecho diferente da voz usada no teste, o que revela que nosso modelo aprendeu a utilizar um método realista de representação de boa parte das variações da voz de uma pessoa”, diz o artigo.

Veja a íntegra do artigo

Agência New Voice Author

Hand-Picked Top-Read Stories

Amazon pode lançar Inteligente Artificial neste ano

TikTok incorpora IA para impulsionar anúncios

Meta AI: formato web e Llama 3 integrado aos apps; veja mudanças

Trending Tags

Modelo usa cinco segundos de fala para imitar voz

Deixe um comentário Cancelar resposta

Amazon pode lançar Inteligente Artificial neste ano

TikTok incorpora IA para impulsionar anúncios

Meta AI: formato web e Llama 3 integrado aos apps; veja mudanças

Modelo usa cinco segundos de fala para imitar voz

Deixe um comentário Cancelar resposta

Related Posts

114 milhões de adultos nos EUA já utilizam assistentes de voz

Pandora traz músicas ao alcance de todos

IA pode agregar mais valor para economia