IA faz pesquisa em bases de dados na língua nativa do usuário

Os pesquisadores do Google estão propondo uma nova técnica em que as palavras específicas de um idioma se transformam em uma base de conhecimento. Segundo o Google, a inteligência artificial (IA) é capaz de cobrir mais de 100 idiomas e 20 milhões de entidades multilíngues.

A vinculação das entidades multilíngue envolve os fragmentos de texto correspondentes a uma base de conhecimento do idioma. Essas bases de conhecimento, por sua vez, são bancos de dados que compreendem informações sobre pessoas, lugares e objetos. Elas podem incluir informações textuais, como descrições em um ou mais idiomas. 

De acordo com os pesquisadores do Google, foram usadas, principalmente, as WikiData como base de conhecimento. Isso porque a WikiData tem uma integração com a Wikipédia e seus idiomas correspondentes. 

O modelo proposto extraiu um conjunto de dados em uma escala que supera 684 milhões de menções em 104 idiomas vinculados a entidades WikiData. Segundo os pesquisadores, esse número é, pelo menos, seis vezes maior do que o conjunto de dados usados em trabalhos anteriores. 

Além disso, foi criado o chamado Mewsli-9,  que abrange um conjunto diversificado de idiomas e entidades, incluindo 289.087 menções a entidades que aparecem em 58.717 artigos de notícias da WikiNews. 

“Operacionalizados por meio da Wikipédia e do WikiData, nossos experimentos usando modelos fornecem evidências convincentes de que é viável realizar esta tarefa com um único modelo, cobrindo mais de 100 idiomas”, explicaram os pesquisadores.

Similar a esse modelo proposto, no último mês o Google liberou um código aberto chamado MT5, treinado para cobrir dados de até 101 idiomas, abrangendo entre 300 milhões e 13 bilhões de parâmetros (variáveis usadas para fazer previsões).  

Fonte: Venture Beat