03-07-2024 | IA

Quem paga pelos dados que treinam as IAs? É a vez da indústria musical

Gravadoras estão processando Udio e Suno, dois dos principais aplicativos de geração de música por IA

Crédito: gremlin/ iStock

Mark Sullivan 3 minutos de leitura

As ferramentas de IA generativa seriam apenas um novo tipo de agregador? O Facebook dominou a publicidade digital ao oferecer aos usuários a possibilidade de ver notícias em um único lugar, eliminando a necessidade de visitar sites de jornais. Desde então, os veículos de imprensa vêm sofrendo com isso.

Agora, produtores e donos de conteúdo estão percebendo o potencial prejuízo causado por um novo tipo de agregador: as ferramentas de IA generativa, que são treinadas com material criado por jornalistas, autores, fotógrafos e músicos.

Quando elas reproduzem esse conteúdo total ou parcialmente, os usuários podem não sentir a necessidade de visitar a fonte original. É a mesma velha história da desintermediação.

Foi exatamente por isso que a “Forbes” recentemente acusou a ferramenta de busca por inteligência artificial Perplexity de ter usado seu conteúdo original para criar – e promover – um post personalizado com seu novo recurso Pages.

Dias depois, uma investigação da “Wired” descobriu que um web crawler (algoritmo usado pelos buscadores para encontrar, ler e indexar páginas de um site) usado pela ferramenta estava coletando conteúdo não autorizado.

Acusação é de que os aplicativos teriam treinado seus modelos de IA com faixas protegidas por direitos autorais.

As vítimas desses agregadores – os criadores de conteúdo – estão cada vez mais recorrendo à Justiça. Já vimos processos contra empresas de IA cujos produtos geraram imagens que se assemelhavam a obras protegidas por direitos autorais.

O “The New York Times” processou a OpenAI e sua principal patrocinadora, a Microsoft, por fazerem basicamente a mesma coisa, mas com artigos e notícias. A ação alega que ambas as empresas codificaram os conteúdos do jornal na memória de seus modelos de linguagem, para que o ChatGPT e o Bing Chat (agora chamado de Copilot) pudessem acessar e gerar informação a partir deles – em alguns casos, literalmente, e sem a devida citação.

PLÁGIO OU INSPIRAÇÃO?

Agora, o problema parece ter chegado aos geradores de música por IA. Alguns grandes grupos de gravadoras – como Sony, Warner e Universal –, junto com a Associação Americana da Indústria de Gravação, entraram com processos contra dois dos principais aplicativos do segmento, Udio e Suno, por, supostamente, terem treinado seus modelos de inteligência artificial com faixas protegidas por direitos autorais, gerando, então, músicas que soam notavelmente similares ao material original.

Assim como os modelos de linguagem e geradores de imagens, que são treinados com conteúdo extraído da internet, estes aplicativos dependem de grandes quantidades de dados que seus desenvolvedores coletam gratuitamente.

A principal defesa das empresas de IA nesses casos é que seu uso do conteúdo criativo está coberto pelas cláusulas de “uso justo” na lei de direitos autorais dos EUA. Essas cláusulas criam uma zona segura para aqueles que usam conteúdo de terceiros para criar algo “transformador” ou substancialmente novo.

“Nossa plataforma é explicitamente projetada para criar músicas que refletem novas ideias”, disse a Udio em um comunicado enviado à Fast Company. “Não estamos nem um pouco interessados em reproduzir os conteúdos em nosso conjunto de treinamento.”

Os modelos de IA generativa geralmente são treinados com uma combinação cuidadosa de material coletado, dados sintéticos de treinamento e conteúdo licenciado. Temendo represálias legais, muitas empresas estão investindo mais em conteúdo licenciado – e isso inclui música.

O “Financial Times” informou que o YouTube está atualmente em negociação com Sony, Warner e Universal para licenciar músicas para treinar modelos de IA.

SOBRE O AUTOR

Mark Sullivan é redator sênior da Fast Company e escreve sobre tecnologia emergente, política, inteligência artificial, grandes empres... saiba mais