O que é “corpus” e por que todo mundo no ramo da IA está falando sobre isso
Bill Gates, o CEO do Reddit e outros líderes de tecnologia têm falado cada vez mais sobre “corpus”. Mas o que significa esse termo?
Graças ao ChatGPT e plataformas similares, a inteligência artificial tem sido um dos assuntos mais comentados de 2023. Talvez você tenha ouvido recentemente uma palavra específica sendo usada por executivos de tecnologia: “corpus”. O CEO do Reddit a mencionou, assim como Jimmy Wales, o fundador da Wikipedia, e Bill Gates, o fundador da Microsoft.
Mas afinal, o que isso significa e por que é tão importante para entender como funcionam as plataformas de inteligência artificial, como o ChatGPT e o Midjourney?
O QUE É UM CORPUS DE IA?
Aqueles que estudaram latim na escola sabem que “corpus” significa corpo. Porém, no contexto da IA, o termo não se refere a um corpo físico, mas sim a uma coleção de dados usados para treinar uma inteligência artificial. É o material que a IA analisa para se tornar inteligente naquilo para o qual foi projetada.
Cada uma possui seu próprio corpus, pois são os seres humanos que decidem quais dados serão usados para treiná-la. E a escolha desse corpus depende do que se deseja que a IA seja capaz de realizar.
TIPOS DE CORPORA
Não há limites para os tipos de corpora (o plural de corpus) que podem existir. O que compõe o corpus de uma IA depende inteiramente do que o criador humano pretende que ela faça.
Vamos considerar o Midjourney, uma plataforma de arte generativa que utiliza a IA para criar imagens a partir de comandos de texto. Para treiná-la, foi necessário utilizar tanto uma série de imagens quanto descrições textuais.
no contexto da IA, corpus não se refere a um corpo físico, mas sim a uma coleção de dados usados para treinar uma inteligência artificial.
Por exemplo, para que gere uma imagem de uma cachoeira, seu corpus precisa incluir imagens e descrições que classificam uma queda d’água como “cachoeira”.
Outro exemplo são as plataformas de IA, como o ChatGPT, que são conhecidas como grandes modelos de linguagem (LLMs, na sigla em inglês). LLMs avançados têm a capacidade de conduzir conversas textuais com pessoas, desde que tenham um corpus abrangente e diversificado.
Suas habilidades dependem dos dados presentes em seu corpus de treinamento, o que possibilita que respondam a perguntas complexas ou até mesmo criem obras originais, como contos ou códigos para jogos.
Os dados utilizados pelo Midjourney e pelo ChatGPT são apenas dois exemplos do que pode compor um corpus. Na verdade, eles podem ser formados por qualquer tipo de dados.
Por exemplo, se alguém quisesse criar uma IA capaz de produzir músicas, bastaria incluir uma variedade delas em formato de áudio no corpus. Da mesma forma, se o objetivo fosse ter uma IA capaz de escrever um romance no estilo de Ernest Hemingway, seria necessário um corpus contendo apenas as obras do autor.
QUESTÕES LEGAIS RELACIONADAS AOS CORPORA
Quanto maior o corpus, mais habilidosa e inteligente a IA pode se tornar. Mas os dados reais que o compõem trazem à tona questões importantes sobre direitos autorais e propriedade intelectual.
Os proprietários de uma IA treinada em um corpus composto por material protegido por direitos autorais estariam violando a lei? Se alguém criasse uma IA capaz de gerar artes no estilo de Banksy e a treinasse com um corpus contendo suas obras, isso constituiria uma violação de direitos autorais ou propriedade intelectual?
O que compõe o corpus de uma IA depende inteiramente do que o criador humano pretende que ela faça.
Mesmo que a IA não reproduza diretamente as obras do artista, apenas imite seu estilo, ainda assim poderia ser considerado uma violação? Ou, por exemplo, se alguém criasse uma IA com um corpus contendo músicas de Rihanna, ela poderia gerar músicas completamente novas e originais, mas com a voz da cantora ou algo semelhante. Isso seria legal?
A Universal Music Group já respondeu a essa pergunta com um contundente “não” após músicas geradas por inteligência artificial de artistas como Drake e The Weeknd serem disponibilizadas em serviços de streaming este ano. Mas os criadores que utilizam ferramentas de IA podem ter opiniões diferentes.
@opavisions 👀 ai Drake - feat. ai The Weeknd - Heart on My Sleeve ; an ai rap song about Selena Gomez #selena #selenagomez #first #foryou #foryoupage #fyp #slopaxo #explorepage #trending #trendingnow #trendingsong #trendingsongs #trendingaudio #drake #aidrake #airap #airapsong #aimusic #aiart #chatgpt #artificialintelligence #weeknd ♬ original sound
No final das contas, seja em relação a áudios, imagens ou textos gerados por IA, essa é uma questão que provavelmente será debatida nos tribunais ao redor do mundo nos próximos anos, à medida que plataformas de IA generativa se tornarem mais comuns.
Com o aumento do interesse das empresas no campo de inteligência artificial, corpora robustos podem se tornar tão importantes no mundo da tecnologia quanto picaretas foram para os mineradores durante a corrida do ouro. Além disso, uma nova indústria de vendedores de corpora pode surgir.
Se esse for o caso, nos próximos meses e anos, “corpus” pode se tornar parte do nosso vocabulário habitual quando falamos e debatemos sobre IA.