A Amazon anunciou esta semana o lançamento do Brand Voice, um serviço que utiliza a inteligência artificial para criar vozes personalizadas para as marcas das empresas. A solução é totalmente gerenciada no sistema de nuvem Amazon Polly, e converte texto em fala realista.
Um post no blog da Amazon explica que o Brand Voice permite que as empresas diferenciem suas marcas incorporando identidades de voz únicas em seus produtos e serviços.
“Isso abre uma grande variedade de oportunidades para criar vozes personalizadas com um estilo de fala com o qual as empresas e as marcas se identificam”, escreveram Rafal Kuklinski, diretor de conversão de texto em fala, e Ankit Dhawan, gerente sênior de produtos da Amazon Polly.
A Amazon conta que trabalhou com a KFC no Canadá para criar uma voz com sotaque do sul dos Estados Unidos em inglês para o embaixador da marca – Coronel Sanders – na mais recente skill da Alexa da rede de lanchonetes.
Disse ainda que projetou uma voz em inglês australiano para o National Australia Bank, que foi lançada como parte de uma migração mais ampla do banco para o Amazon Connect, o produto omnichannel em nuvem da Amazon.
A Amazon detalhou a pesquisa (“Efeito da redução de dados no TTS neural de sequência a sequência”) sobre fala criada por inteligência artificial no final de 2019. Nela, os pesquisadores descreveram um sistema que pode aprender a adotar um novo estilo de fala com apenas algumas horas de treinamento.
O modelo de IA da Amazon conta com dois componentes. O primeiro é uma rede neural generativa que converte uma sequência de fonemas em uma sequência de espectrogramas, ou representações visuais do espectro de frequências de som à medida que variam com o tempo.
O segundo é um vocoder (instrumento capaz de sintetizar a voz humana) que converte esses espectrogramas em um sinal de áudio contínuo.
Fonte: Venturebeat