A Mozilla lançou esta semana a nova versão do Common Voice, sua coleção de código aberto de dados de voz transcritos para startups, pesquisadores e entusiastas na criação de aplicativos, serviços e dispositivos habilitados para voz. A solução traz agora mais de 7.226 horas totais de dados de voz em 54 idiomas diferentes, bem acima da versão anterior que tinha 1.400 horas em 18 idiomas.
O Common Voice consiste não apenas em trechos de voz, mas em metadados de contribuição voluntária, úteis para treinar mecanismos de fala, como idade, sexo e sotaque dos falantes. Ele foi desenvolvido para ser integrado ao DeepSpeech, um conjunto de mecanismos de fala para texto, de conversão de texto em fala e modelos treinados mantidos pelo Machine Learning Group da Mozilla.
A coleta dos mais de 5,5 milhões de clipes no Common Voice exigiu muito trabalho, principalmente porque as solicitações no site do Common Voice precisaram ser traduzidas para cada idioma. Ainda, 5.591 das 7.226 horas foram confirmadas válidas pelos colaboradores do projeto até o momento.
De acordo com a Mozilla, cinco idiomas no Common Voice – inglês, alemão, francês, italiano e espanhol – agora têm mais de 5.000 falantes exclusivos, enquanto sete idiomas – inglês, alemão, francês, kabyle, catalão, espanhol e kinyarwandan – têm mais de 500 horas gravadas.
A empresa também anunciou esta semana o primeiro segmento de destino do conjunto de dados da Mozilla, que visa coletar dados de voz para fins específicos e casos de uso. Esse segmento inclui os dígitos “zero” a “nove”, bem como as palavras “sim”, “não”, “ei” e “Firefox”, faladas por 11.000 pessoas por 120 horas coletivamente em 18 idiomas. Anteriormente, a líder de produto da Common Voice, Megan Branson, disse que seria usada parcialmente para testes de palavras-chave “Hey Firefox”.
“Esses dados de segmento ajudarão a Mozilla a avaliar a precisão do nosso mecanismo de reconhecimento de voz de código aberto, DeepSpeech, em vários idiomas para uma tarefa semelhante e permitirá feedback mais detalhado sobre como continuar melhorando o conjunto de dados”, escreveu Branson em um post no blog.
A nova versão do Common Voice segue uma atualização significativa do DeepSpeech, que incorporou um dos modelos de reconhecimento de voz de código aberto mais rápidos até o momento. A versão mais recente adicionou suporte ao TensorFlow Lite, uma distribuição da estrutura de aprendizado de máquina TensorFlow do Google, otimizada para dispositivos móveis e incorporados com restrição de computação, além de reduzir o consumo de memória do DeepSpeech em 22 vezes e aumentar a velocidade de inicialização em mais de 500 vezes.
O Common Voice e o DeepSpeech informam o trabalho em projetos Mozilla como o Firefox Voice, uma extensão de navegador que adiciona suporte ao reconhecimento de voz no Firefox. Atualmente, o Firefox Voice pode entender comandos como “Qual é o clima” e “Encontre a guia Gmail”, mas o objetivo é facilitar “interações significativas” com sites usando apenas a voz.
Fonte: Venturebeat