A Nvidia apresentou durante o GPU Technology Conference, em Suzhou (China) esta semana, o TensorRT 7, nova plataforma para inferência de aprendizado profundo de alto desempenho em placas gráficas, que vem com um compilador aprimorado, otimizado para cargas de trabalho de inferências em tempo real.
A solução estará disponível nos próximos dias na página do TensorRT gratuitamente para os integrantes do programa “Developer” da Nvidia, e as versões mais recentes de plugins, analisadores e amostras estão no repositório do TensorRT GitHub.
A plataforma, que acompanha as bibliotecas Cuda-X AI como parte do conjunto de inferência da Nvidia, pode validar e implantar uma rede neural treinada para inferência, independentemente do hardware, seja um datacenter ou um dispositivo incorporado com uma placa gráfica.
Segundo a empresa, algumas das maiores marcas do mundo, incluindo Alibaba, American Express, Baidu, Pinterest, Snap, Tencent e Twitter, estão usando o TensorRT para tarefas como classificação de imagens, detecção de fraudes, segmentação e detecção de objetos.
“Entramos em um novo capítulo na inteligência artificial, em que as máquinas são capazes de entender a linguagem humana em tempo real”, disse o fundador e CEO da Nvidia, Jensen Huang, durante um discurso no evento. O executivo citou um estudo da Juniper Research prevendo que haverá 8 bilhões de dispositivos com assistentes digitais em uso até 2023, acima dos 3,25 bilhões atuais.
Huang contou que o TensorRT 7 ajuda a tornar isso possível, fornecendo aos desenvolvedores as ferramentas para criar e implantar serviços de IA de conversação mais rápidos e inteligentes. “Isso permite uma interação mais natural de humano para AI.”
O compilador acelera automaticamente os modelos de aprendizado de máquina recorrentes e baseados em Transformer necessários para aplicativos sofisticados de fala, de acordo com Huang. Os transformadores são um tipo de pesquisador de arquitetura do Google Brain, a divisão de pesquisa de IA do Google, introduzida que contém funções (neurônios) organizadas em camadas que transmitem sinais de dados e ajustam a força sináptica das conexões (pesos).
É assim que todos os modelos de IA extraem recursos e aprendem a fazer previsões, mas os Transformers têm atenção exclusiva, de modo que cada elemento de saída seja conectado a cada elemento de entrada, forçando os pesos entre eles a serem calculados dinamicamente.
O TensorRT 7 acelera ostensivamente os componentes do transformador e da rede recorrente – incluindo redes populares como WaveRNN da DeepMind e Tacotron 2 e BERT do Google – em mais de 10 vezes em comparação com as abordagens baseadas em processador, enquanto conduz a latência abaixo do limite de 300 milissegundos considerado necessário para o real interações.
Isso se deve em parte às otimizações direcionadas para estruturas de loop recorrentes, usadas para fazer previsões em dados de sequência de séries temporais, como gravações de texto e voz.
Fonte: Venturebeat