Press "Enter" to skip to content
Você está em | Home | Dicas, Truques e Macetes | Como impedir que o ChatGPT e o Google Bard usem os dados do seu site para treinamento de Inteligência Artificial

Como impedir que o ChatGPT e o Google Bard usem os dados do seu site para treinamento de Inteligência Artificial

Compartilhe

Com o avanço da inteligência artificial, surge o debate sobre a origem dos dados de treinamento, levando a disputas judiciais, como no caso do GPT-4.

Esses modelos de IA generativa como o GPT-4 são treinados com grandes volumes de dados, incluindo é claro o conteúdo da web, através do “scraping”, uma prática comum em pesquisa e jornalismo digital.

O problema é que nem todo mundo gosta disso, e os mais precavidos ou preocupados querem se proteger dessa prática. Por isso, vou mostrar neste artigo como você pode impedir o ChatGPT e o Google Bard de coletar dados do seu site.

 

Combatendo o “scraping” de IA no seu website

Alguns donos de sites podem questionar o uso de seu conteúdo nos treinamentos desses modelos, levando a OpenAI e o Google a orientar sobre exclusão voluntária.

Essa iniciativa das duas empresas não está acontecendo porque elas são boazinhas. É uma medida preventiva para evitar problemas legais no futuro ou até mesmo no presente, considerando a LGPD.

Se dependesse tanto da OpenAI quanto do Google, ambas seguiam coletando dados de forma indiscriminada e voraz. Suas IAs dependem dessas informações para se manterem “inteligentes” para os usuários.

A boa notícia aqui é que o procedimento para resolver o problema do “scraping” do ChatGPT ou Google Bard em um site é relativamente simples de ser resolvido, e até mesmo os menos experientes no uso do WordPress conseguem realizar esses ajustes.

 

Como impedir uma IA de coletar dados do seu site

Para excluir um site do “scraping” por ChatGPT e similares, os proprietários podem utilizar o arquivo “robots.txt” no diretório raiz do servidor web. A grande maioria dos sites conta com esse arquivo em suas estruturas do WordPress.

O arquivo “robots.txt” deve ser acessível em https://www.exemplo.com/robots.txt. Esse arquivo fornece instruções aos bots e rastreadores web sobre o que pode ou não ser coletado de informações sobre aquele site.

Para bloquear o ChatGPT, basta inserir no “robots.txt” as duas linhas de comandos abaixo:

User-agent: GPTBot

Disallow: /

Para bloquear o Google Bard, é só adicionar ao “robots.txt” as linhas de comando indicadas abaixo:

User-agent: Google-Extended

Disallow: /

O “Disallow” indicado nos comandos permite bloquear a coleta de dados de todo o site ou de diretórios específicos, o que é útil se certas partes do site devem ser excluídas do treinamento das plataformas.

É importante reforçar que, pelo menos neste momento, não há um método para excluir dados do treinamento dos chatbots generativos. Você pode apenas prevenir futuras inclusões com o “robots.txt”.

Além disso, a exclusão voluntária do monitoramento dos dados do seu website impacta diretamente na evolução das IAs, já que qualquer plataforma precisa de grandes conjuntos de dados para seu desenvolvimento futuro.

Por outro lado, é de obrigação das empresas de IA solicitarem a permissão para os proprietários de websites para realizar essa coleta de informações.

E é muito cômodo para todas as plataformas de Inteligência Artificial (sem exceção) utilizarem todas as informações que a humanidade adicionou na internet ao longo de quase 30 anos sem pagar ou pedir autorização para isso.

É como se todos realizassem o trabalho escravo e pesado das plataformas que chegaram na semana passada e que já querem andar na janela, usufruindo do vento que esse enorme volume de dados produz no rosto dessas IAs.

Não me parece algo muito justo.


Compartilhe