Os avanços da inteligência artificial vão muito além de ChatGPT, Bard e outros chatbots. O Google apresentou nesta sexta-feira, dia 28 de julho, o Robotics Transformer 2, ou simplesmente RT-2, um modelo de visão-liguagem-ação (VLA) voltado para a robótica. Treinado com textos e imagens da web, o RT-2 pode usar seu conhecimento para orientar o comportamento e ações de robôs.
“Em outras palavras, ele fala a liguagem dos robôs”, diz trecho de artigo no blog do Google.
O modelo RT-2 mostrou-se capaz de transformar informações em ações executadas pelos robôs, o que promete que eles se adaptem mais rapidamente a novas situações e ambientes.
Foram realizados mais de 6 mil testes robóticos com os modelos RT-2. As tarefas exigiam a compreensão de conceitos semânticos visuais e a capacidade de executar o controle robótico, como por exemplo “pegar a sacola prestes a cair da mesa”.
O RT-2 manteve o desempenho do antecessor nas tarefas originais vistas nos dados do robô e melhorou o desempenho em cenários não vistos anteriormente pelo robô, de 32% para 62%, segundo artigo publicado pela Google DeepMind.
Com os modelos anteriores, para que um robô fosse capaz de jogar fora um pedaço de lixo, seria preciso treiná-lo explicitamente para identificar o lixo, bem como recolhê-lo e jogá-lo fora. Como o RT-2 é capaz de transferir conhecimento de um grande cojunto de dados da web, ele já tem uma ideia do que é lixo e pode identificá-lo sem treinamento explícito. Tem até ideia de como jogar o lixo fora, mesmo nunca tendo sido treinado para tal.
“E pense na natureza abstrata do lixo – o que era um saco de batatas fritas ou uma casca de banana se torna lixo depois que você os come. O RT-2 é capaz de entender isso a partir de seus dados de treinamento de linguagem de visão e fazer o trabalho”, explica o Google.