A Amazon anunciou nesta terça-feira, dia 17 de setembro, o lançamento público do Topical Chat Dataset, uma coleção baseada em texto com mais de 235.000 expressões, ou mais de 4,7 milhões de palavras, para apoiar pesquisas de alta qualidade e repetíveis no campo dos sistemas de diálogo.
Segundo a empresa, o objetivo do Chat Tópico é permitir a pesquisa inovadora em sistemas de geração de respostas neurais baseados em conhecimento, enfrentando desafios difíceis que não são abordados por outros conjuntos de dados disponíveis publicamente.
Entre os desafios, explicou a Amazon, estão a transição entre tópicos de uma forma natural, a seleção e enriquecimento do conhecimento e a integração de fatos e opiniões no diálogo. A empresa avalia que o Chat Tópico é o maior conjunto de dados de conversação social e conhecimento disponível publicamente para a comunidade de pesquisa.
“Para construir o conjunto de dados, primeiro identificamos 300 entidades nomeadas em oito categorias temáticas diferentes que surgiram frequentemente em conversas com os socialbots do Prémio Alexa”, diz post publicado na página da Alexa.