Em outubro de 2018, meses após uma breve revelação, a Amazon trouxe o Whisper Mode para selecionar dispositivos Alexa de terceiros, e expandiu o recurso para todos os locais em novembro de 2019, de modo que todos os dispositivos inteligentes equipados com Alexa agora respondem ao discurso sussurrado ao sussurrar de volta.
A Amazon mostrou um pouco dos detalhes técnicos inicialmente, exceto que o Whisper Mode usa uma rede neural – camadas de funções matemáticas modeladas vagamente pelos neurônios do cérebro humano – para distinguir entre palavras normais e sussurradas. Mas em um artigo acadêmico publicado na edição de janeiro de 2020 da revista IEEE Signal Processing Letters e em uma publicação no blog, a pesquisa foi detalhada.
Segundo Marius Cotescu, um cientista do grupo de pesquisa de texto para fala da Amazon, o principal desafio foi converter a fala normal em fala sussurrada, mantendo a naturalidade e a identidade do falante. Ele e os outros pesquisadores investigaram várias técnicas de conversão diferentes, incluindo o processamento digital de sinais digitais (DSP), com base na análise acústica da fala sussurrada.
Os pesquisadores escolheram duas abordagens de aprendizado de máquina por sua robustez (generalizadas prontamente para falantes desconhecidos) e seu desempenho (superaram o desempenho).
Ambas as abordagens – que se basearam nos modelos de mistura gaussiana (GMMs) e nas redes neurais profundas (DNNs) – envolveram algoritmos de treinamento para mapear os recursos acústicos da fala normalmente sonora para os da fala sussurrada.
Os GMMs tentaram identificar um intervalo de valores para cada recurso de saída correspondente a uma distribuição relacionada de valores de entrada, enquanto os DNNs – algoritmos densos de nós de processamento simples – ajustaram suas configurações internas por meio de um processo no qual as redes tentavam prever as saídas associadas – com entradas específicas.
O sistema dos pesquisadores transmitiu representações de recursos acústicos para um codificador de voz, que os converteu em sinais contínuos. Enquanto a versão experimental contava com um vocoder de código aberto chamado World, a versão do Whisper Mode implantada nos clientes utiliza um vocoder neural que aprimora ainda mais a qualidade da fala sussurrada.
A equipe usou dois conjuntos de dados para treinar seus sistemas de conversão de voz: um produzido por eles mesmos usando cinco dubladores profissionais da Austrália, Canadá, Alemanha, Índia e EUA, e outro que é uma referência popular nesse campo. Para avaliar seus sistemas, eles compararam os resultados com gravações de fala natural e gravações de voz alimentadas por um codificador de voz.
Em um primeiro conjunto de experimentos, a equipe treinou os sistemas de conversão de voz em dados de alto-falantes individuais e os testou em dados dos mesmos dispositivos. Eles descobriram que, enquanto as gravações brutas pareciam mais naturais, os sussurros sintetizados pelos modelos pareciam mais naturais do que a fala humana “codificada”.
Os modelos avançados de conversão de texto em fala podem produzir trechos que parecem quase humanos na primeira audição. Na verdade, eles sustentam as vozes neurais disponíveis no Google Assistante, bem como a voz do apresentador que recentemente veio ao serviço Alexa e Polly da Amazon e a skill de voz Alexa da celebridade Samuel L. Jackson que ficou disponível em dezembro passado.
Fonte: Venturebeat