escuro
Alexa agora fala textos de longa duração

Alexa ganha estilo para ler em voz alta textos longos

Solução é otimizada para grandes volumes de informações textuais para ler em voz alta páginas da Web, artigos e jogos de histórias

A Amazon anunciou nesta quinta-feira, 16 de abril, um estilo de fala de longa duração para conteúdo de notícias e música com skills Alexa de terceiros. A partir desta semana nos Estados Unidos, os desenvolvedores podem usar o estilo, que é otimizado para grandes quantidades de informações textuais, para ler em voz alta páginas da Web, artigos, podcasts e partes de jogos de contar histórias.

O novo estilo de falar pode melhorar as experiências, tornando o texto verbalizado mais natural e, por extensão, aumentar o envolvimento geral do usuário. Além disso, isso poderia economizar dinheiro e esforço dos desenvolvedores, eliminando a necessidade de contratar dubladores profissionais, além de eliminar as horas gastas na gravação de áudio em estúdio.

Segundo a Amazon, o estilo de fala em formato longo é alimentado por um modelo de conversão de texto em fala da inteligência artificial que incorpora pausas naturais durante a transição de um parágrafo para o próximo e até de um diálogo para outro. Isso é semelhante a um recurso recém-lançado pelo Google Assistente, que lê conteúdo longo em sites e aplicativos Android usando uma voz mais natural e humana.

Além do estilo longo de falar, a Amazon diz que os desenvolvedores agora podem usar os estilos de notícias e conversas do Amazon Polly, serviço de nuvem da Amazon que converte texto em fala realista, em 29 idiomas para vozes selecionadas – apelidadas de Matthew, Joanna e Lupe – em skills Alexa. O estilo de falar em notícias soa semelhante ao que você pode ouvir dos apresentadores de notícias da TV e de rádio, enquanto o estilo de falar em conversação faz com que as vozes soem menos formais e como se estivessem falando com amigos e familiares.

A Amazon detalhou sua solução sobre o discurso gerado pela IA em um trabalho de pesquisa no final do ano passado, no qual os pesquisadores descreveram um sistema que pode aprender a adotar um novo estilo de falar com apenas algumas horas de treinamento – em oposição às dezenas de horas que podem levar um dublador para ler em um estilo de destino.

O modelo da empresa consiste em uma rede neural generativa que converte uma sequência de fonemas em uma sequência de espectrogramas, ou representações visuais do espectro de frequências de som à medida que variam com o tempo, juntamente com um vocoder (instrumento que sintetiza a voz humana) que converte esses espectrogramas em um sinal de áudio contínuo.

O resultado final é um método de treinamento de modelo de IA que combina uma grande quantidade de dados de fala no estilo neutro com algumas horas de dados suplementares no estilo desejado, bem como um sistema de IA capaz de distinguir elementos da fala, independentemente da fala. A Amazon o usou internamente para produzir novas vozes para a Alexa, além de vozes voltadas para desenvolvedores em vários idiomas no Amazon Polly.

Por fim, a Amazon diz que os desenvolvedores de aplicativos de voz Alexa podem usar 10 vozes adicionais da Amazon Polly em seis novos idiomas, incluindo inglês dos EUA, espanhol dos EUA, francês do Canadá e português do Brasil.

Fonte: VentureBeat

Total
0
Shares
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
0
Share