Em vez do tradicional “Hey Google”, o “Look and Talk”, ganhou espaço no Nest Hub Max, anunciado no I/0, conferência para desenvolvedores do Google deste ano. Este recurso multimodal do Google Assistente é capaz de analisar de forma simultânea áudio, vídeo e texto para saber quando a pessoa está falando com o dispositivo.
Agora, finalmente, o Google veio a público explicar como este recurso, que busca tornar o Google Assistente o mais natural possível, incorporado ao smart display funciona. A solução conta com três fases de processamento para cada interação.
No total, existem mais de 100 sinais da câmera de vídeo e do microfone, com o processamento sendo feito direto no dispositivo. Entre eles estão: proximidade, Face Match, Head Orientation, Lip Movement, Contextual Awareness e Intent Classification.
Conheça as fases do “Look and Talk” para o Nest Hub Max:
Fase 01 – O primeiro passo é o smart display indentificar se um “usuário está demonstrando a intenção de se envolver com o Google Assistente. Para isso, é preciso ter uma distância de um metro e meio e ser reconhecido pelo Face Match.
Fase 02 – Esta etapa faz com que o Hub Max comece a ouvir, verifique o Voice Match e preveja “se a expressão do usuário pretendia ser uma consulta do assistente de voz”.
A fase dois é dividida em duas partes, que funcionam juntas para filtrar as consultas não destinadas ao assistente de voz.
A primeira é um modelo que analisa as informações não lexicais no áudio para saber se o enunciado soa como uma consulta do Google Assistente.
A segunda parte envolve um modelo de análise de texto que determina se a transcrição é uma solicitação do Assistente.
Fase 03 – A terceira fase, após as duas primeiras serem atendidas, é o fulfillment “onde se comunica com o servidor do Assistente para obter uma resposta à intenção do usuário e ao texto da consulta”.
Fonte: 9to5google.com