O Google trouxe nesta semana uma atualização para o Voice Access, serviço que permite que usuários com deficiências motoras controlem todos os recursos dos dispositivos Android usando a voz.
A ferramenta utiliza um modelo de Machine Learning para detectar os ícones presentes na tela, formando rótulos de acessibilidade. Assim, os usuários precisam apenas falar o número em cima do ícone para iniciar o processo, como “toque 1” ou “role para baixo em 5”.
No entanto, alguns elementos não trazem esses rótulos, dificultando a navegação do usuário. Mas, com a versão 5.0, o Voice Access utiliza o chamado IconNet, capaz de detectar 31 tipos de ícones diferentes, que em breve se estenderão para mais de 70.
De acordo com o Google, o IconNet se baseia na arquitetura CenterNet, que extrai ícones de aplicativos e prevê sua localização e tamanho na interface. Dessa forma, os usuários poderão se referir aos ícones por seu nome, como “Toque em ‘menu’.”
Para desenvolver esse sistema, foram coletadas e rotuladas cerca de 700 mil capturas de telas em aplicativos. O Google afirma que planeja expandir os ícones do IconNet para imagens, textos e botões genéricos.
“Um desafio significativo no desenvolvimento de um detector de elemento de interface para Voice Access é que ele deve ser capaz de funcionar em uma ampla variedade de telefones com uma gama de recursos de desempenho, preservando a privacidade do usuário”, disseram Baechler e Srinivas Sunkara, engenheiros de software do Google Research.
Fonte: Venture Beat