Amazon busca solução para localizar múltiplos alto-falantes

Pesquisadores da Amazon trabalham em uma abordagem orientada por inteligência artificial para a fazer a localização de múltiplas fontes ou equacionar o problema de analisar o som local usando o áudio do microfone. Segundo eles, experimentos com dados reais e simulados e até três fontes sonoras ativas simultaneamente, a abordagem mostrou uma melhoria de quase 15% em comparação com um sinal de última geração do modelo de processamento.

Abordar a localização de várias fontes é uma etapa indispensável no desenvolvimento de alto-falantes, monitores inteligentes e até software de videoconferência suficientemente robustos. Isso ocorre porque está no centro da formação de feixe uma técnica que focaliza um sinal (neste caso, o som) em direção a um dispositivo receptor (microfones).

A linha Echo da Amazon utiliza a forma de feixe para melhorar a precisão do reconhecimento de voz, assim como o Nest Hub do Google e o HomePod da Apple. O som que viaja em direção a uma variedade de microfones alcançará cada um deles em um momento diferente, um fenômeno que pode ser explorado para identificar os locais das fontes.

Com uma única fonte sonora, o cálculo é relativamente direto, mas com várias fontes sonoras, torna-se exponencialmente mais complexo. Várias soluções de IA e aprendizado de máquina para o problema de localização de várias fontes foram propostas, mas muitas têm limitações.

O artigo dos pesquisadores da Amazon está previsto para ser apresentado, no próximo mês, na Conferência Internacional sobre Acústica, Fala e Processamento de Sinais (ICASSP).

Fonte: Venturebeat