
Algumas gigantes de tecnologia entendem que os conteúdos publicados pelos diferentes sites disponíveis na internet são fontes para treinamento de inteligência artificial, com uso amplo, irrestrito e ilimitado. Algo que, sinceramente, não deveria ser assim.
Acontece que pelo menos uma plataforma decidiu se rebelar com isso, já que entende perfeitamente que possui um enorme poder nas mãos, que é justamente aquilo que as big techs mais desejam para treinar suas plataformas de IA: dados autênticos de seres humanos.
Neste artigo, explico exatamente o que acontece com essa treta entre o Reddit, a principal plataforma de fóruns e comunidades online, e a Anthropic, que é dona da melhor IA para produzir textos neste momento (apesar da surpreendente melhora do ChatGPT nesse tipo de tarefa).
Entenda o caso

O Reddit formalizou uma ação judicial contra a Anthropic, criadora do modelo Claude, acusando a empresa de inteligência artificial de violação contratual e práticas comerciais ilegais.
A ação afirma que a Anthropic tentou acessar dados do Reddit mais de 100 mil vezes por dia desde julho de 2023, utilizando o conteúdo da plataforma sem autorização para treinar seus modelos de IA.
Algo que não é apenas a Anthropic que está fazendo entre as plataformas de IA generativa, e é bom deixar isso bem claro. A diferença aqui é que o Reddit flagrou o movimento, e não gostou nada do que estava acontecendo (e decidiu reagir a isso).
O processo, registrado no tribunal estadual da Califórnia, representa um marco na batalha pelos direitos de propriedade intelectual na era da inteligência artificial, pois o precedente legal que pode se criar com esse caso vai ajudar a definir o destino dos nossos dados compartilhados na internet, principalmente com os conteúdos que, de alguma forma, são autorais.
A Reddit acusa a Anthropic de utilizar dados da plataforma sem permissão para treinar seus modelos de IA. A plataforma considera esses dados como um “tesouro” de conversações humanas autênticas, fundamentais para o desenvolvimento de modelos linguísticos avançados.
Com a palavra, Bem Lee, responsável legal do Reddit:
“A humanidade do Reddit possui um valor único em um mundo moldado pela IA. Agora, mais do que nunca, as pessoas buscam conversas autênticas entre humanos. O Reddit abriga quase 20 anos de discussões ricas e humanas sobre praticamente todos os temas imagináveis. Essas conversas não ocorrem em nenhum outro lugar e são fundamentais para o treinamento de modelos linguísticos como o Claude.”
Como a concorrência está obtendo os dados?

A ação judicial caracteriza a Anthropic de forma particularmente contundente, descrevendo-a como uma empresa que apresenta uma face pública respeitosa às leis enquanto opera de forma completamente diferente nos bastidores.
O Reddit argumenta que a empresa ignora qualquer regra que interfira em seus objetivos comerciais, aproveitando-se ilegalmente do conteúdo gerado pelos usuários da plataforma.
Diferentemente da Anthropic, outras gigantes tecnológicas estabeleceram acordos formais com o Reddit para acessar seus dados, o que garante também que esses conflitos apareçam dessa forma no futuro.
O Google fechou um acordo no valor de US$ 60 milhões anuais para usar o conteúdo do Reddit no treinamento de seus modelos de IA. A OpenAI também firmou uma parceria similar, embora o valor não tenha sido divulgado publicamente.
Esses acordos incluem proteções aos usuários, como o direito de apagar conteúdo e garantias de privacidade. Ao mesmo tempo, estabelece um parâmetro de uso dessas informações, e todos os envolvidos ganham algum dinheiro com isso.
A estratégia defensiva do Reddit não é recente. A plataforma começou a proteger seus dados logo após o lançamento do ChatGPT, implementando restrições em sua API e estabelecendo políticas claras para o uso comercial de seu conteúdo.
Não é o primeiro processo da Anthropic
O caso contra a Anthropic não é isolado no cenário jurídico da empresa, indicando uma certa adoção de procedimento para um cenário que deveria ter um pouco mais de transparência por parte da dona do Claude AI.
A startup enfrenta múltiplas demandas relacionadas ao uso não autorizado de conteúdo protegido por direitos autorais. Em agosto de 2024, três autores processaram a empresa por utilizar centenas de milhares de livros com direitos autorais para treinar seus modelos.
Anteriormente, a Universal Music também moveu uma ação similar relacionada ao uso indevido de letras de músicas, embora tenha perdido o caso.
A Anthropic se defende

A resposta da Anthropic foi de contestação às acusações. Em comunicado à CNBC, a empresa afirmou estar “em desacordo com as queixas do Reddit” e que se defenderia “vigorosamente” das acusações.
Curiosamente, a própria Anthropic já bloqueou o acesso de seu modelo Claude a outras plataformas, como a startup Windsurf recentemente adquirida pela OpenAI, demonstrando uma postura seletiva em relação ao compartilhamento de seus recursos.
Ou pura hipocrisia mesmo.
O caso mostra a ascensão de um fenômeno que é mais amplo do que parece dentro do segmento de inteligência artificial: o “saque” sistemático do conteúdo da internet por empresas de IA.
Plataformas como Perplexity e Meta também enfrentaram acusações similares, evidenciando um padrão de comportamento na indústria. A Meta, por exemplo, foi acusada de baixar terabytes de livros protegidos por direitos autorais via BitTorrent para treinar seus modelos.
O argumento do “uso justo” continua sendo o principal escudo das empresas de IA contra essas demandas. Algumas chegaram a propor mudanças nas leis de direitos autorais para facilitar o treinamento de seus modelos, argumentando necessidade competitiva frente a rivais internacionais.
O problema é que até mesmo o vácuo legal de momento torna mais do que comum a ausência de consequências jurídicas para essas práticas, o que coloca os criadores de conteúdo em uma espécie de encruzilhada, o que aparentemente favorece às grandes plataformas que hoje trabalham com inteligência artificial.
A valorização do Reddit como fonte de dados humanos autênticos (mesmo que a qualidade desse conteúdo seja altamente questionável em muitos casos) reflete uma mudança fundamental no valor percebido do conteúdo orgânico versus o gerado artificialmente.
Com quase duas décadas de discussões humanas sobre praticamente todos os tópicos imagináveis, a plataforma se tornou um recurso inestimável para empresas que buscam treinar modelos de linguagem mais sofisticados e naturais.
Não podemos perder de vista o entendimento que os dados dos usuários valem muito para todas as gigantes de tecnologia. E como boa parte dessas plataformas nos oferecem esse avanço tecnológico de forma gratuita…
…vale sempre aquela velha regra: “quando o produto ou serviço é de graça, o produto é você (usuário)”.

