Por que os dados serão sempre a commodity mais valiosa no universo da IA
Empresas de IA precisam de uma ampla variedade de dados para treinar seus modelos de linguagem. Isso inclui conteúdo protegido por direitos autorais
A ação movida pelo “The New York Times” contra a OpenAI pelo uso indevido de seu conteúdo jornalístico para treinar grandes modelos de linguagem (LLMs, na sigla em inglês) marcou o primeiro grande embate jurídico da era da IA.
Mas essa disputa também pode indicar uma mudança na relação entre as big techs e os criadores de conteúdo – uma relação já complicada, que agora pode se tornar mais propensa a litígios. No cerne do processo está a questão dos dados de treinamento e se as empresas por trás dos LLMs podem alegar “uso justo” ao utilizá-los.
Quando pensamos na quantidade de dados necessários para treinar grandes modelos de linguagem, faz sentido que as organizações queiram proteger a forma como seu conteúdo é utilizado e creditado.
Os LLMs exigem enormes quantidades de dados, e, apesar das recentes falas do CEO da OpenAI, Sam Altman, alegando que não precisam do conteúdo do “The New York Times”, a verdade é que tanto a empresa quanto o ChatGPT dependem do acesso a uma ampla variedade de dados para treinar o modelo – e isso inclui conteúdo protegido por direitos autorais.
As ferramentas de IA generativa precisam ter acesso a informações de qualidade para produzir resultados confiáveis.
A qualidade e confiabilidade do material publicado no jornal contribuem diretamente para a qualidade dos resultados do chatbot.
Esta era a posição da OpenAI há três semanas, de acordo com informações do “The Telegraph”, que compartilhou uma apelação da empresa ao comitê de comunicações e seleção digital do Parlamento do Reino Unido.
Nela, a OpenAI admitiu que não poderia treinar seus LLMs, como o ChatGPT, sem acesso a conteúdo protegido por direitos autorais. Na verdade, afirmou que seria “impossível”.
CRESCE O NÚMERO DE PROCESSOS JUDICIAIS
Os dados são a base da inteligência artificial e todos os modelos dependem de padrões e correlações estabelecidos por grandes quantidades de dados de treinamento.
As ferramentas de IA generativa precisam ter acesso a informações de qualidade – como o conteúdo protegido por direitos autorais do “The New York Times” e de outros veículos – para produzir resultados confiáveis. Assim, a possibilidade de gerar alucinações diminui, tornando as respostas mais relevantes.
Embora o processo do jornal contra a OpenAI e a Microsoft seja provavelmente o caso mais famoso envolvendo propriedade intelectual e inteligência artificial, está longe de ser o único. Diversos outros já moveram ações judiciais alegando que empresas de IA infringiram os direitos autorais de suas obras escritas e visuais.
Entre eles, estão processos movidos pela Authors Guild, sindicato dos autores dos EUA, contra a OpenAI. Michael Chabon, Sarah Silverman e outros criadores de conteúdo entraram com ações contra a Meta. Também existem ações coletivas contra a Alphabet Inc., Stability AI e Midjourney, além de um processo movido pela Getty Images contra a Stability AI.
Com o aumento do uso de inteligência artificial, haverá uma pressão cada vez maior para resolver essas questões. E os litígios envolvendo propriedade intelectual são apenas a ponta do iceberg. O número de casos centrados em precisão, segurança e discriminação relacionados à IA provavelmente vai aumentar.
Dada a complexidade e o volume desses casos, provavelmente levará anos até que essas questões sejam resolvidas. Por enquanto, tudo o que podemos afirmar com certeza é que empresas comuns que lançam ferramentas de IA deveriam monitorar de perto o uso dessas tecnologias.
Caso uma ferramenta específica seja alvo de processos regulatórios ou judiciais e, por isso, seja retirada do mercado, elas precisam ser capazes de se adaptar rapidamente.