escuro
Pesquisa

Estudo diz que combinar dados de voz melhora reconhecimento da fala

Chamado de SpeechStew, modelo de IA combina milhares de horas de voz para treinar aprendizado da máquina

Um estudo realizado pelos pesquisadores do Google Research e do Google Brain afirma que misturar conjuntos de dados de voz permite melhorar a precisão de reconhecimento dos modelos de inteligência artificial (IA). 

De acordo com os pesquisadores, um modelo de IA, batizado de SpeechStew, foi treinado a partir de diversos bancos de voz. Ao todo, foram combinadas mais de 5 mil horas de fala.

Entre eles está o AMI, que contém cerca de 100 horas de reuniões gravadas, o Switchboard, com aproximadamente 2 mil horas de chamadas telefônicas, o Broadcast News, com 50 horas de notícias de televisão, o LibriSpeech, com 960 horas de audiobooks, além de dados do Mozilla Common Voice.

A partir desses bancos de voz, os pesquisadores usaram o Google Cloud TPU para treinar o SpeechStew, fazendo com que o modelo de IA gerasse mais de 100 milhões de parâmetros. Na linguagem das técnicas de aprendizado de máquina (machine learning), esses parâmetros são  as informações que a IA aprendeu durante o treinamento. 

Desse modo, a performance do SpeechStew foi testada a partir de uma série de benchmarks, que é quando se compara o desempenho da inteligência artificial para medir a sua velocidade e precisão. De acordo com o estudo, foi revelado que o SpeechStew superou todos os modelos anteriores, demonstrando uma capacidade de se adaptar a tarefas mais complexas.

“Esta técnica simples de ajustar um modelo de uso geral para novas tarefas de reconhecimento de fala downstream é simples, prática, mas surpreendentemente eficaz”, disseram os pesquisadores.

Fonte: Venture Beat

Total
0
Shares
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
0
Share