A Meta apresentou na última semana uma nova inteligência artificial (IA) generativa. Trata-se do Voicebox, um modelo capaz de recriar uma voz humana a partir de uma amostra de apenas dois segundos. A tecnologia é tão poderosa que a empresa decidiu que, por enquanto, não vai divulgar o código da ferramenta.
“Existem muitos casos de uso empolgantes para modelos de fala generativa, mas devido aos riscos potenciais de uso indevido, não estamos disponibilizando o modelo ou código do Voicebox publicamente no momento”, posicionou-se a Meta em postagem no seu blog oficial.
O Voicebox foi treinado com mais de 50 mil horas de fala gravada e transcrições de audiolivros de domínio público em seis idiomas: inglês, francês, espanhol, alemão, polonês e português. O modelo pode sintetizar fala nos idiomas em que foi treinado, além de realizar remoção de ruído, edição de conteúdo, conversão de estilo e geração de amostras diversificadas.
A ferramenta tem um funcionamento similar ao de outras IAs generativas, como ChatGPT e DALL-E. Mas, em vez de criar uma imagem ou um texto, o Voicebox produz clipes de áudio de alta qualidade.
Segundo a Meta, um dos exemplos de uso para a nova IA é a chama “transferência de estilo multilíngue”.
“Dada uma amostra de fala e uma passagem de texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura do texto nesse idioma. Esse recurso é empolgante porque, no futuro, poderá ser usado para ajudar as pessoas a se comunicarem de maneira natural e autêntica, mesmo que não falem os mesmos idiomas”, explicou a empresa.