Acabou a festa: era do conteúdo grátis para treinar IAs está chegando ao fim
Consumidores, empresas, criadores e editores estão começando a perceber que as big techs estão usando seus dados para treinar modelos de IA
Os grandes modelos de linguagem (LLMs, sigla em inglês) que alimentam o ChatGPT e outros chatbots aprendem basicamente de duas formas: a partir de enormes quantidades de dados de treinamento coletados da web e utilizando um imenso poder computacional. Enquanto este segundo componente é bastante caro, o primeiro tem sido, até agora, totalmente gratuito.
No entanto, criadores, editores e empresas estão cada vez mais vendo os dados que disponibilizam na internet como sua propriedade. Se alguma empresa de tecnologia planeja usá-los para treinar seus modelos de IA, eles querem ser remunerados por isso.
A OpenAI criou seu próprio mecanismo de busca e explica abertamente como bloqueá-lo.
Basta ver o caso da “Associated Press”, que fechou um acordo de licenciamento de dados de treinamento com a OpenAI. Já o X (anteriormente conhecido como Twitter) tomou medidas para impedir que empresas de IA coletem conteúdo da plataforma.
Agora, até os consumidores individuais parecem entender a injustiça e o risco de contribuir inadvertidamente com dados para treinar inteligências artificiais. Um recente incidente confirma essa tendência.
Quando veio a público a notícia de que os termos de serviço do Zoom pareciam permitir que a empresa treinasse seus modelos de IA com os dados dos usuários, houve uma rápida e forte reação negativa. A empresa foi obrigada a recuar e garantir que não usaria áudios, vídeos ou conversas no chat para treinar modelos sem o consentimento explícito de seus clientes. Mas nem todos parecem estar convencidos disso.
Com consumidores e empresas agora cientes das práticas dos criadores de grandes modelos de linguagem, a farra do acesso gratuito a dados de treinamento provavelmente está chegando ao fim.
Para a OpenAI, isso pode ter grande impacto, mas afetará ainda mais seus concorrentes. Ela já havia coletado uma enorme quantidade de dados da internet muito antes de as pessoas saberem que isso estava acontecendo, e os usou para construir os principais modelos de linguagem do mercado.
criadores, editores e empresas estão cada vez mais vendo os dados que disponibilizam na internet como sua propriedade.
A empresa parece ter reconhecido que a festa de dados gratuitos acabou com o anúncio de seu próprio mecanismo de busca, o GPTBot, no qual explica abertamente aos operadores de sites como bloqueá-lo. Outros criadores de LLMs serão pressionados a oferecer uma opção assim.
Existe um paralelo claro entre a OpenAI e o Facebook. Por anos, a rede social de Mark Zuckerberg coletou dados pessoais dos usuários para construir e melhorar seu mecanismo de publicidade, ao mesmo tempo em que era vaga e evasiva sobre quais informações estavam sendo coletadas e como eram usadas.
O Facebook conseguiu desviar a atenção por tempo suficiente até conquistar um grande número de usuários e anunciantes, o que transformou a plataforma em líder incontestável no mercado de redes sociais.
Talvez, a OpenAI já tenha uma liderança tão consolidada no mercado de LLMs que a escassez de dados de treinamento apenas garanta a ela mais tempo nessa posição.