A OpenAI lançou silenciosamente o seu rastreador de web, o GPTBot. Por meio de um código disponibilizado na documentação oficial, os desenvolvedores agora podem autorizar que o conteúdo de um determinado site seja usado para treinar os modelos de inteligência artificial (IA) da empresa, dona do ChatGPT.
“As páginas da Web rastreadas com o agente do usuário GPTBot podem potencialmente ser usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas. Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”, explica a OpenAI.
O rastreador permite que o desenvolvedor libere – ou proíba – acesso ao conteúdo do site de forma integral ou parcial. Para tal, basta inserir ao robot.txt os comandos divulgados na documentação da OpenAI. Também é possível bloquear o acesso através do IP do rastreador.