Os pesquisadores do Google estão propondo uma nova técnica em que as palavras específicas de um idioma se transformam em uma base de conhecimento. Segundo o Google, a inteligência artificial (IA) é capaz de cobrir mais de 100 idiomas e 20 milhões de entidades multilíngues.
A vinculação das entidades multilíngue envolve os fragmentos de texto correspondentes a uma base de conhecimento do idioma. Essas bases de conhecimento, por sua vez, são bancos de dados que compreendem informações sobre pessoas, lugares e objetos. Elas podem incluir informações textuais, como descrições em um ou mais idiomas.
De acordo com os pesquisadores do Google, foram usadas, principalmente, as WikiData como base de conhecimento. Isso porque a WikiData tem uma integração com a Wikipédia e seus idiomas correspondentes.
O modelo proposto extraiu um conjunto de dados em uma escala que supera 684 milhões de menções em 104 idiomas vinculados a entidades WikiData. Segundo os pesquisadores, esse número é, pelo menos, seis vezes maior do que o conjunto de dados usados em trabalhos anteriores.
Além disso, foi criado o chamado Mewsli-9, que abrange um conjunto diversificado de idiomas e entidades, incluindo 289.087 menções a entidades que aparecem em 58.717 artigos de notícias da WikiNews.
“Operacionalizados por meio da Wikipédia e do WikiData, nossos experimentos usando modelos fornecem evidências convincentes de que é viável realizar esta tarefa com um único modelo, cobrindo mais de 100 idiomas”, explicaram os pesquisadores.
Similar a esse modelo proposto, no último mês o Google liberou um código aberto chamado MT5, treinado para cobrir dados de até 101 idiomas, abrangendo entre 300 milhões e 13 bilhões de parâmetros (variáveis usadas para fazer previsões).
Fonte: Venture Beat