escuro
Facebook tem solução para síntese de voz

Sistema do Facebook gera fala em 500 milissegundos

Empresa anunciou nova solução de inteligência artificial para sintetização de voz na semana passada

O Facebook anunciou, na semana passada, um sistema de conversão de texto em fala (AI) altamente eficiente que pode ser hospedado em tempo real usando processadores regulares. A solução, atualmente, está alimentando o Facebook Portal, a marca de displays inteligentes da empresa, e está disponível como um serviço para outros aplicativos, como VR, internamente no Facebook.

Segundo o Facebook, em conjunto com uma nova abordagem de coleta de dados, que utiliza um modelo de linguagem para curadoria, o sistema – que produz um segundo de áudio em 500 milissegundos – permitiu criar uma voz com sotaque britânico em seis meses, em comparação a mais de um ano para vozes anteriores.

A maioria dos sistemas AI TTS modernos exige placas gráficas, FPGAs (Field Programmable Gate Arrays) ou chips AI personalizados, como as unidades de processamento tensorial (TPUs) do Google, para executar, treinar ou fazer as duas coisas. Por exemplo, um sistema Google AI recentemente detalhado foi treinado em 32 TPUs em paralelo.

Sintetizar um único segundo de áudio humano pode exigir a produção de até 24.000 amostras – às vezes até mais. E isso pode ser caro. As TPUs de última geração do Google custam entre US$ 2,40 e US$ 8 por hora no Google Cloud Platform.

O Facebook disse que seu sistema atingiu uma velocidade de 160 vezes em comparação com uma linha de base, tornando-o adequado para dispositivos com restrições computacionais.

“O sistema desempenhará um papel importante na criação e no dimensionamento de novos aplicativos de voz que soem mais humanos e expressivos”, afirmou a empresa em comunicado.

Fonte: Venturebeat

Total
0
Shares
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
0
Share