Estudo diz que combinar dados de voz melhora reconhecimento da fala

Um estudo realizado pelos pesquisadores do Google Research e do Google Brain afirma que misturar conjuntos de dados de voz permite melhorar a precisão de reconhecimento dos modelos de inteligência artificial (IA). 

De acordo com os pesquisadores, um modelo de IA, batizado de SpeechStew, foi treinado a partir de diversos bancos de voz. Ao todo, foram combinadas mais de 5 mil horas de fala.

Entre eles está o AMI, que contém cerca de 100 horas de reuniões gravadas, o Switchboard, com aproximadamente 2 mil horas de chamadas telefônicas, o Broadcast News, com 50 horas de notícias de televisão, o LibriSpeech, com 960 horas de audiobooks, além de dados do Mozilla Common Voice.

A partir desses bancos de voz, os pesquisadores usaram o Google Cloud TPU para treinar o SpeechStew, fazendo com que o modelo de IA gerasse mais de 100 milhões de parâmetros. Na linguagem das técnicas de aprendizado de máquina (machine learning), esses parâmetros são  as informações que a IA aprendeu durante o treinamento. 

Desse modo, a performance do SpeechStew foi testada a partir de uma série de benchmarks, que é quando se compara o desempenho da inteligência artificial para medir a sua velocidade e precisão. De acordo com o estudo, foi revelado que o SpeechStew superou todos os modelos anteriores, demonstrando uma capacidade de se adaptar a tarefas mais complexas.

“Esta técnica simples de ajustar um modelo de uso geral para novas tarefas de reconhecimento de fala downstream é simples, prática, mas surpreendentemente eficaz”, disseram os pesquisadores.

Fonte: Venture Beat