Centro de IA faz um ano com três pesquisas na área de PLN

O Centro de Pesquisa em Inteligência Artificial do Brasil (C4IA) fechou o primeiro ano de atividade com três projetos na área de processamento da língua natural em português (PLN), um dos seus quatro segmentos de atuação.

As pesquisas envolvem o desenvolvimento de três conjuntos de dados voltados para o processamento computacional do idioma, contendo textos de uma série de fontes e gravações de língua portuguesa de várias regiões brasileiras.

Segundo o C4IA, o objetivo da pesquisa é produzir e coletar dados e ferramentas para elevar o nível de desempenho do PLN em português, como já acontece em outros idiomas.

Outra preocupação, de acordo com o centro, é desenvolver soluções computacionais de suporte ao idioma, para criar aplicativos de última geração. As pesquisas estão concentradas tanto na modalidade escrita, quanto falada do português.

Um dos três conjuntos de dados elaborados reúne textos de fontes diversas como notícias, tuites e comentários de consumidores. Todo o conteúdo, que segue as normas de privacidade da LGPD, foi coletado por dezenas de estudantes de linguística da USP.

Outro projeto, batizado de CORAA, envolve mais de 260 horas de gravações do nosso idioma, com falas de várias regiões do país. A ideia é que o material sirva de base para a criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. A meta, segundo o centro, é chegar a 600 horas de gravações na próxima versão.

A terceira pesquisa, chamada de Carolina, reúne informações sobre mais de 120 bilhões de palavras e termos em português, anotados por tipologia e origem, com detalhes sobre a etimologia de cada termo.

O C4IA explica que estes três conjuntos de dados aprimoram significativamente o trabalho de PLN em português. Para o centro, eles permitirão, por exemplo, o desenvolvimento de aplicativos de IA de última geração, com poder de compreensão da linguagem e, consequentemente, oferecer uma melhor experiência aos usuários.

O Centro de IA, que fica em São Paulo, é uma iniciativa que envolve a IBM Brasil, USP e Fapesp. Além da área de PLN, o C4IA trabalha outras linhas: saúde, meio ambiente, agronegócio e impacto social na IA