A Microsoft AI & Research divulgou nesta segunda-feira, 10 de fevereiro, o Turing NLG, que chamou de o maior modelo de geração de linguagem baseado em Transformer. A empresa também abriu uma biblioteca de aprendizado profundo para facilitar o treinamento distribuído de modelos grandes.
Com 17 bilhões de parâmetros, o Turing NLG tem o dobro do tamanho do Megatron da Nvidia, agora o segundo maior modelo de Transformer, e inclui 10 vezes mais parâmetros que o GPT-2 da OpenAI. Segundo a empresa, a solução alcança resultados de ponta em várias tarefas da PNL.
Como o Meena, do Google e, inicialmente, com o GPT-2, o Turing NLG pode, por enquanto, ser compartilhado apenas em demos particulares. Os modelos de geração de idiomas com a arquitetura Transformer simplesmente preveem a palavra que vem a seguir e podem ser usados para escrever histórias, gerar respostas em frases completas e resumir o texto.
O DeepSpeed de código aberto da Microsoft é uma biblioteca de aprendizado profundo otimizada para que os desenvolvedores ofereçam baixa latência e alta inferência de taxa de transferência.
A biblioteca contém o Zero Redundancy Optimizer (ZeRO) para modelos de treinamento com 100 milhões de parâmetros ou mais em escala, que a Microsoft usou para treinar o Turing NLG.
O DeepSpeed e o ZeRO estão sendo disponibilizados para desenvolvedores e profissionais de aprendizado de máquina, pois o treinamento de grandes redes como aquelas que utilizam a arquitetura Transformer pode ser caro e encontrar problemas em grande escala.