A nova corrida do ouro da IA: dado sintético divide a indústria
Gigantes da tecnologia estão ficando sem conteúdo criado por humanos, impulsionando o boom dos dados sintéticos. Para a indústria, é o futuro; para criadores, uma cortina de fumaça para as questões de copyright.

Os avanços em inteligência artificial seguem a todo vapor, mas podem estar prestes a esbarrar em um impasse. Com cada vez mais sites impondo restrições à coleta automática de dados – e denúncias de que algumas delas estão sendo ignoradas –, o conteúdo que ainda resta está sendo rapidamente extraído para treinar modelos de IA. Surge então a pergunta: o que vai acontecer quando esse material se esgotar?
A resposta do setor é apostar em dados sintéticos.
“De um tempo para cá, a indústria tem falado muito sobre dados sintéticos”, disse Sebastien Bubeck, integrante da equipe técnica da OpenAI, durante o lançamento ao vivo do GPT-5, na semana passada. Ele enfatizou a importância desse recurso para o futuro dos modelos de inteligência artificial – ponto que foi reforçado por Sam Altman, CEO da empresa, que comentou em tempo real no X/ Twitter estar “animado com o que ainda está por vir”.
Para profissionais da indústria criativa, essa mudança de foco tem um motivo claro. “Acredito que o principal motivo para empresas como a OpenAI recorrerem cada vez mais a dados sintéticos é que elas já esgotaram as fontes de dados humanos de alta qualidade disponíveis publicamente na internet”, avalia Reid Southern, artista conceitual de cinema e ilustrador.
Mas ele acredita que essa não é a única razão por trás disso. “É uma prática que ajuda a distanciar as empresas de qualquer material protegido por direitos autorais que possa ter sido usado no treinamento, evitando assim problemas legais.”
Por isso, Southern chama o processo de “lavagem de dados”. Segundo ele, as empresas poderiam treinar modelos com obras protegidas, criar variações geradas por inteligência artificial e, depois, remover os originais dos conjuntos de dados de treinamento. Dessa forma, poderiam “alegar que seu modelo é ‘ético’ porque, tecnicamente, não foi treinado com obras originais”. Para ele, “trata-se de lavagem de dados já que, de certo modo, estariam ‘limpando’ o material e apagando o rastro do copyright”.
“Gerar dados sintéticos de alta qualidade nos permite desenvolver produtos mais inteligentes e capazes"
A OpenAI, no entanto, defende que a prática está de acordo com a lei. “Criamos dados sintéticos para fazer avanços em IA em conformidade com as leis de direitos autorais aplicáveis”, disse um porta-voz à Fast Company. “Gerar dados sintéticos de alta qualidade nos permite desenvolver produtos mais inteligentes e capazes, como o ChatGPT, que ajudam milhões de pessoas a trabalhar com mais eficiência e encontrar novas formas de aprender e criar, além de permitir que países inovem e se mantenham competitivos no cenário global.”
O assunto, contudo, é mais complexo, como avalia Felix Simon, pesquisador de IA da Universidade de Oxford, no Reino Unido. “Isso não repara os danos originais que estão no centro da disputa entre criadores e empresas de inteligência artificial”, afirma.
“Dados sintéticos não surgem do nada; eles são gerados a partir de modelos que, segundo relatos, foram treinados com obras de criadores e detentores de direitos autorais – muitas vezes sem permissão ou qualquer tipo de compensação.” Na visão dele, do ponto de vista da justiça social, “esses autores ainda têm direito a receber algo, alguma forma de compensação, reconhecimento ou ambos”.
Ed Newton-Rex, fundador da Fairly Trained – ONG que certifica empresas de IA que respeitam a propriedade intelectual de criadores –, concorda com as preocupações.
“Dados sintéticos podem ser, sim, uma forma útil de ampliar o conjunto de treinamento. Eles aumentam a cobertura dos dados e, em um momento em que estamos chegando ao limite do que é possível acessar legalmente, são vistos como uma forma de prolongar a vida útil desse material.”
“Infelizmente, o efeito também é, em parte, o de lavar direitos autorais”
Mas ele também reconhece o lado controverso disso. “Infelizmente, o efeito também é, em parte, o de lavar direitos autorais”, diz. “Os dois argumentos são verdadeiros.”
Newton-Rex adverte que não devemos aceitar as promessas das empresas sem questionamento. “Dados sintéticos não são uma solução mágica para as questões de copyright, que são extremamente importantes”, argumenta. “Há uma percepção equivocada de que eles permitem contornar problemas legais relacionados a direitos autorais.”
Segundo ele, o discurso envolvendo dados sintéticos – e a forma como as empresas descrevem o treinamento dos modelos – também ajuda a desviar o foco da discussão dos conteúdos que podem ter sido utilizados.
“Para quem ouve que um modelo foi treinado com dados sintéticos, é fácil pensar: ‘ah, então não deve ter usado o último álbum do Ed Sheeran no treinamento”. Isso nos afasta de compreender como esses modelos realmente são construídos – no fim das contas, acaba sendo explorando o trabalho de uma vida inteira de artistas e criadores.”
Ele compara a prática à reciclagem de plástico: um recipiente reciclado pode um dia já ter sido um brinquedo, um para-choque de carro ou qualquer outra coisa. “O fato de esses modelos misturarem tudo e gerarem um ‘novo’ resultado não diminui sua dependência das obras originais.”
Para Newton-Rex, essa é a questão central: “mesmo em um cenário dominado por dados sintéticos, o trabalho das pessoas continua sendo explorado – e usado para competir diretamente com elas”.