Você está em | Home | Inteligência Artificial e chatbots | OpenAI acusa DeepSeek de copiar seus modelos

OpenAI acusa DeepSeek de copiar seus modelos

Compartilhe

Sam Altman sentiu mesmo o golpe.

A DeepSeek AI está chamando a atenção, por ser tão boa quanto grandes modelos como ChatGPT, Claude e Gemini, mas com um treinamento muito mais barato que suas rivais (de acordo com os seus desenvolvedores, apenas US$ 5,6 milhões).

O custo reduzido gerou elogios, mas também levantou dúvidas sobre como a DeepSeek conseguiu alcançar tal eficiência sem acesso a grandes volumes de dados e infraestrutura robusta.

Agora, novas acusações da OpenAI sugerem que o segredo pode estar no uso indevido de suas próprias técnicas e modelos.

 

O que é a destilação de modelos e por que isso importa?

A OpenAI afirmou ao Financial Times que encontrou evidências de que a DeepSeek utilizou suas tecnologias de maneira indevida, especialmente no processo de “destilação de modelos”.

A técnica é considerada comum na inteligência artificial, e envolve o uso de um modelo maior e mais avançado para treinar um modelo menor e mais eficiente.

A destilação de modelos é um processo em que um modelo menor, chamado de “modelo pupilo”, aprende a replicar o comportamento de um modelo maior e mais poderoso, chamado de “modelo professor”.

O método permite a criação de modelos menores, mais rápidos e igualmente eficientes para tarefas específicas, em um processo que é acelerado, eficiente e, em teoria, mais econômico.

O problema, segundo a OpenAI, é que os desenvolvedores da DeepSeek podem ter usado dados extraídos diretamente de seus serviços para aprimorar sua própria IA, violando os termos de serviço da empresa.

A OpenAI proíbe explicitamente que seus serviços sejam usados para essa finalidade, o que torna a possível ação da DeepSeek uma violação direta dos seus termos de uso.

 

Investigações da OpenAI e da Microsoft

Segundo a Bloomberg, a OpenAI e a Microsoft já estavam investigando essa possível infração desde o final de 2024.

As empresas identificaram contas que usavam APIs da OpenAI de maneira suspeita, levantando indícios de que poderiam estar sendo utilizadas para destilar modelos sem autorização.

O uso de APIs para replicar modelos avançados tem sido um problema recorrente no setor, especialmente quando empresas menores buscam reduzir custos e acelerar o desenvolvimento de suas inteligências artificiais.

David Sacks, chefe de IA da equipe de Donald Trump, também alertou sobre as práticas da DeepSeek, afirmando que havia provas concretas do uso indevido de dados da OpenAI.

Além disso, porta-vozes da OpenAI indicaram que empresas da China e de outros países frequentemente tentam copiar os modelos desenvolvidos por empresas líderes nos Estados Unidos.

Tal suspeita se soma às preocupações geopolíticas sobre a supremacia na inteligência artificial e o papel da China na corrida tecnológica global.

 

A hipocrisia da OpenAI

A ironia desse embate é que a OpenAI, agora se posicionando como vítima de roubo de tecnologia, foi acusada no passado de fazer exatamente o mesmo.

Um dos casos mais emblemáticos foi a descoberta de que a OpenAI transcreveu milhões de horas de vídeos do YouTube sem permissão para treinar o GPT-4.

Ou seja, temos aqui um dilema sobre o uso de dados públicos e o conceito de “uso justo”, pois muitas empresas de IA coletam vastas quantidades de informações sem a devida autorização dos criadores de conteúdo.

As empresas de tecnologia há muito tempo utilizam dados públicos e até protegidos por direitos autorais para treinar seus modelos de IA e ninguém falou nada sobre isso… até agora.

Muitas dessas empresas se escondem sob a justificativa do “uso justo”, alegando que a extração de dados públicos da internet é uma prática comum e necessária para o avanço da inteligência artificial.

No entanto, essa abordagem já resultou em inúmeras ações judiciais de artistas, escritores e plataformas, que alegam terem suas criações usadas sem qualquer compensação.

O caso DeepSeek x OpenAI apenas reforça esse problema estrutural da indústria, além de evidenciar uma certa hipocrisia de Sam Altman e sua turma, que agora se colocam no papel de vítima de algo que sua empresa fez por anos.

Vamos acompanhar com atenção esse caso. Os resultados podem estabelecer novos parâmetros para o uso de dados em plataformas de Inteligência Artificial, e até mesmo a forma em como utilizamos essas plataformas (e compartilhamos nossos dados com elas).


Compartilhe