Um problema comum ao se usar assistentes de voz é o tempo em que os dispositivos deixam o microfone aberto para escutar o comando do usuário. Para pessoas que têm algum tipo de dificuldade na fala, esse problema se torna ainda mais marcante. Por conta disso, os pesquisadores da Apple realizaram um estudo para encontrar maneiras de tornar a assistente de voz Siri ainda mais acessível para esse público.
A pesquisa, que contou com mais de 28 mil clipes de áudio, se concentrou no desenvolvimento de ferramentas capazes de treinar a inteligência artificial (IA) da assistente para detectar, por exemplo, quando alguém gagueja. De acordo com os pesquisadores, um dos objetivos é tornar a IA da Siri mais receptiva, gerando respostas personalizadas para que esse público não seja interrompido.
Por enquanto, o único recurso parecido que a assistente de voz da Apple tem é o Hold to Talk. Essa funcionalidade permite que a Siri deixe o microfone ligado pelo tempo que o usuário achar necessário.
Segundo os autores da pesquisa, a capacidade da IA em detectar a gagueira na fala pode ajudar a melhorar os sistemas de reconhecimento de fala para pessoas com padrões de fala atípicos.
“Neste trabalho, apresentamos Stuttering Events in Podcasts (SEP-28k), um conjunto de dados contendo mais de 28 mil clipes rotulados com cinco tipos de eventos. Eles incluem blocos, prolongamentos, repetições de som, repetições de palavras e interjeições”, escreveram os pesquisadores.
O estudo concluiu que os dados usados para treinar os modelos melhoraram a detecção da gagueira em 28%.
Acessibilidade nos assistentes de voz
Além da Apple, outras empresas têm destinado seus esforços para melhorar a acessibilidade dos assistentes de voz. É o caso da Amazon, que desde o final do ano passado está trabalhando com a startup israelense Voiceitt.
O objetivo da parceria é treinar a inteligência artificial para reconhecer automaticamente a voz de pessoas com dificuldade na fala. Por meio do aplicativo da Voiceitt, a voz do usuário é transformada em dados que serão processados pela Alexa. Assim, a assistente responde como se a pessoa tivesse falado de forma nítida.
Fonte: Voicebot