13-02-2024 | IA

Por que os dados serão sempre a commodity mais valiosa no universo da IA

Empresas de IA precisam de uma ampla variedade de dados para treinar seus modelos de linguagem. Isso inclui conteúdo protegido por direitos autorais

Créditos: vackground.com/ Unsplash/ koya79/ iStock/ Rawpixel

A ação movida pelo “The New York Times” contra a OpenAI pelo uso indevido de seu conteúdo jornalístico para treinar grandes modelos de linguagem (LLMs, na sigla em inglês) marcou o primeiro grande embate jurídico da era da IA.

Mas essa disputa também pode indicar uma mudança na relação entre as big techs e os criadores de conteúdo – uma relação já complicada, que agora pode se tornar mais propensa a litígios. No cerne do processo está a questão dos dados de treinamento e se as empresas por trás dos LLMs podem alegar “uso justo” ao utilizá-los.

Quando pensamos na quantidade de dados necessários para treinar grandes modelos de linguagem, faz sentido que as organizações queiram proteger a forma como seu conteúdo é utilizado e creditado.

Os LLMs exigem enormes quantidades de dados, e, apesar das recentes falas do CEO da OpenAI, Sam Altman, alegando que não precisam do conteúdo do “The New York Times”, a verdade é que tanto a empresa quanto o ChatGPT dependem do acesso a uma ampla variedade de dados para treinar o modelo – e isso inclui conteúdo protegido por direitos autorais.

As ferramentas de IA generativa precisam ter acesso a informações de qualidade para produzir resultados confiáveis.

A qualidade e confiabilidade do material publicado no jornal contribuem diretamente para a qualidade dos resultados do chatbot.

Esta era a posição da OpenAI há três semanas, de acordo com informações do “The Telegraph”, que compartilhou uma apelação da empresa ao comitê de comunicações e seleção digital do Parlamento do Reino Unido.

Nela, a OpenAI admitiu que não poderia treinar seus LLMs, como o ChatGPT, sem acesso a conteúdo protegido por direitos autorais. Na verdade, afirmou que seria “impossível”.

CRESCE O NÚMERO DE PROCESSOS JUDICIAIS

Os dados são a base da inteligência artificial e todos os modelos dependem de padrões e correlações estabelecidos por grandes quantidades de dados de treinamento.

As ferramentas de IA generativa precisam ter acesso a informações de qualidade – como o conteúdo protegido por direitos autorais do “The New York Times” e de outros veículos – para produzir resultados confiáveis. Assim, a possibilidade de gerar alucinações diminui, tornando as respostas mais relevantes.

Embora o processo do jornal contra a OpenAI e a Microsoft seja provavelmente o caso mais famoso envolvendo propriedade intelectual e inteligência artificial, está longe de ser o único. Diversos outros já moveram ações judiciais alegando que empresas de IA infringiram os direitos autorais de suas obras escritas e visuais.

Entre eles, estão processos movidos pela Authors Guild, sindicato dos autores dos EUA, contra a OpenAI. Michael Chabon, Sarah Silverman e outros criadores de conteúdo entraram com ações contra a Meta. Também existem ações coletivas contra a Alphabet Inc., Stability AI e Midjourney, além de um processo movido pela Getty Images contra a Stability AI.

Com o aumento do uso de inteligência artificial, haverá uma pressão cada vez maior para resolver essas questões. E os litígios envolvendo propriedade intelectual são apenas a ponta do iceberg. O número de casos centrados em precisão, segurança e discriminação relacionados à IA provavelmente vai aumentar.

Dada a complexidade e o volume desses casos, provavelmente levará anos até que essas questões sejam resolvidas. Por enquanto, tudo o que podemos afirmar com certeza é que empresas comuns que lançam ferramentas de IA deveriam monitorar de perto o uso dessas tecnologias.

Caso uma ferramenta específica seja alvo de processos regulatórios ou judiciais e, por isso, seja retirada do mercado, elas precisam ser capazes de se adaptar rapidamente.

SOBRE O AUTOR

Felix Van de Maele é CEO da empresa de inteligência de dados Collibra. saiba mais

Últimas Histórias

Por que os dados serão sempre a commodity mais valiosa no universo da IA

Empresas de IA precisam de uma ampla variedade de dados para treinar seus modelos de linguagem. Isso inclui conteúdo protegido por direitos autorais

ASSUNTOS RELACIONADOS

Políticas do governo Trump ampliam desperdício de alimentos nos EUA

IA e dados de satélite vão criar o primeiro mapa completo de toda a África

O que está atrasando a substituição de combustíveis fósseis por energia limpa?

Qual artista dominou o Spotify em 2025? Confira ranking

Mil vozes dentro da Amazon pedem freios e contrapesos para a IA

O poder das imperfeições: a nova estética que desafia o “TikTok Face”

Regular Animals: cães-robôs com rostos de bilionários viram atração do evento; veja vídeo

Samsung lança celular dobrável com três telas; veja detalhes

TikTok: Brasil será sede do primeiro data center na América Latina

Quer líderes melhores? Pare de treinar e comece a escolher diferente

Por que autenticidade não é estratégia – e pode sabotar sua carreira

O que aprender com o CEO do McDonald’s? Veja 3 dicas de inteligência emocional