escuro

Microsoft anuncia modelo de linguagem Transformer

Com 17 bilhões de parâmetros, Turing NLG é considerado pela empresa o maior modelo de linguagem Transformer

A Microsoft AI & Research divulgou nesta segunda-feira, 10 de fevereiro, o Turing NLG, que chamou de o maior modelo de geração de linguagem baseado em Transformer. A empresa também abriu uma biblioteca de aprendizado profundo para facilitar o treinamento distribuído de modelos grandes.

Com 17 bilhões de parâmetros, o Turing NLG tem o dobro do tamanho do Megatron da Nvidia, agora o segundo maior modelo de Transformer, e inclui 10 vezes mais parâmetros que o GPT-2 da OpenAI. Segundo a empresa, a solução alcança resultados de ponta em várias tarefas da PNL.

Como o Meena, do Google e, inicialmente, com o GPT-2, o Turing NLG pode, por enquanto, ser compartilhado apenas em demos particulares. Os modelos de geração de idiomas com a arquitetura Transformer simplesmente preveem a palavra que vem a seguir e podem ser usados ​​para escrever histórias, gerar respostas em frases completas e resumir o texto.

O DeepSpeed ​​de código aberto da Microsoft é uma biblioteca de aprendizado profundo otimizada para que os desenvolvedores ofereçam baixa latência e alta inferência de taxa de transferência.

A biblioteca ​​contém o Zero Redundancy Optimizer (ZeRO) para modelos de treinamento com 100 milhões de parâmetros ou mais em escala, que a Microsoft usou para treinar o Turing NLG.

O DeepSpeed ​​e o ZeRO estão sendo disponibilizados para desenvolvedores e profissionais de aprendizado de máquina, pois o treinamento de grandes redes como aquelas que utilizam a arquitetura Transformer pode ser caro e encontrar problemas em grande escala.

Total
0
Shares
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
0
Share