Assistentes de voz como a Alexa e Google Assistente são muito úteis para o dia a dia das pessoas, pois podem controlar todos os aparelhos de uma casa de forma automática, por exemplo. No entanto, os assistentes ainda sofrem com a falta de naturalidade na fala, respondendo os comandos de forma robótica, na maioria das vezes. Por conta dessa barreira na tecnologia da voz, a NVIDIA revelou uma nova pesquisa e ferramentas que podem tornar a fala dos assistentes mais humana.
A equipe focada em text-to-speech (TTS) da empresa desenvolveu o chamado RAD-TTS, tecnologia que permite a uma pessoa treinar um modelo com a própria voz. No treino, o usuário levará o ritmo, tonalidade, timbre e outras características da fala humana.
Você pode conferir no vídeo acima uma amostra de como a conversão de um texto é feita para a voz artificial. Com essa tecnologia, os pesquisadores da NVIDIA criaram uma série de vídeos chamada “I Am AI”, usando somente vozes sintetizadas em vez de humanas. Neles é possível observar uma maior naturalidade nos diálogos ditos pela inteligência artificial.
Segundo a NVIDIA, para chegar a esse nível de naturalidade, os modelos foram treinados a partir de milhares de horas em dados.
“Os desenvolvedores podem ajustar qualquer modelo para seus casos de uso, acelerando o treinamento usando computação de precisão mista em GPUs NVIDIA Tensor Core”, disse a empresa em comunicado.
A NVIDIA está distribuindo parte dessa pesquisa para ser testada via código aberto do kit de ferramentas NVIDIA NeMo Python para IA de conversação, disponível no hub de contêineres NGC da empresa.
Fonte: TechCrunch