ChatGPT? Stable Diffusion? Conheça os termos da IA generativa

Confuso com a enxurrada de novas palavras e ferramentas? Aqui está o básico que você precisa saber

Crédito: Istock

Jared Newman 5 minutos de leitura

Embora ferramentas de inteligência artificial que transformam texto em imagem (ou em qualquer outra coisa, como códigos ou sons) sejam a grande novidade tecnológica do momento, tentar entender o que elas são e como funcionam pode ser uma empreitada bem frustrante.

O campo da inteligência artificial é um emaranhado de jargões técnicos e matemáticos, muitas vezes bastante complicados. É difícil encontrar explicações – mesmo dos conceitos mais fundamentais – que um cidadão comum consiga entender.

Assim, ferramentas como ChatGPT (no qual a pessoa digita, por exemplo, a descrição de uma imagem e a inteligência artificial gera o que foi pedido) ou Stable Diffusion (que faz basicamente a mesma coisa) acabam parecendo uma coisa de magia.

Para ajudar a entender um pouco melhor essas novidades, segue um glossário em português comum dos principais termos relacionados não só à chamada inteligência artificial generativa, mas também a produtos e empresas envolvidos com essa tecnologia.

COMEÇANDO PELO BÁSICO

IA: de uma forma mais ampla, a sigla para inteligência artificial reflete a ideia de computadores que conseguem aprender e tomar decisões de forma similar (embora limitada) aos seres humanos.

Machine learning: ou aprendizado de máquina. Um setor do campo da inteligência artificial dedicado a “ensinar” computadores a reconhecer padrões por meio de dados e algoritmos. É diferente da programação tradicional no sentido de que, nesse caso, a máquina não precisa ser alimentada com um código específico para conseguir identificar cada um dos possíveis cenários em potencial.

Rede neural: um tipo de aprendizado de máquina que imita o funcionamento dos neurônios no cérebro humano, usando uma rede de nós para processar dados por meio de algoritmos. Com isso, o computador consegue estabelecer conexões entre diferentes tipos de dados e aprender quais são os mais significativos para gerar a resposta solicitada.

Deep learning: ou aprendizado profundo. Trata-se de uma rede neural cujos dados passam por diversas camadas de processamento – algumas delas invisíveis aos próprios programadores – antes de chegar a uma resposta. Ferramentas de IA como ChatGPT e Stable Diffusion são exemplos de aplicações que usam técnicas de aprendizado profundo.

GPT E IA CONVERSACIONAL

GPT: sigla em inglês para Transformador Generativo Pré-Treinado. Criado pela OpenAI (organização de pesquisa em inteligência artificial), é um modelo de que usa aprendizado profundo para gerar textos semelhantes aos escritos por seres humanos. Para entender melhor o conceito, é preciso detalhar seus termos:

- Transformador é um tipo de rede neural capaz de aprender, de forma mais abrangente, as relações entre todas as partes de uma sequência de dados – neste caso, as relações entre as palavras que compõem uma frase. É vista como um divisor de águas em termos de inteligência artificial, por ser capaz de entender contextos e nuances bem melhor do que as tecnologias que vieram antes dela.

- Generativo se refere à capacidade de gerar textos.

- Pré-Treinado quer dizer usar o modelo de uma ação de aprendizado de máquina para treinar outra. Algo parecido com o modo como as pessoas usam o conhecimento que já possuem para aprender coisas novas. Nesse caso, o GPT envolve pré-treinamento com enormes quantidades de texto.

Modelagem de linguagem: técnica para determinar o lugar das palavras em uma sentença, com base na probabilidade de que aquelas palavras formem uma frase com sentido.

ChatGPT: chatbot conversacional, também criado pela OpenAI, usando um modelo de linguagem que enfatiza o diálogo interativo. Dá para experimentar de graça (em inglês).

GPT-3: modelo de linguagem de terceira geração que é a base para a “virada” das ferramentas de IA que geram textos lançadas nos últimos dois anos, usando a API aberta da OpenAI. O ChatGPT usa uma versão aprimorada, a GPT-3.5. A GPT-4 está em desenvolvimento.

OpenAI: é a organização de pesquisa que criou o GPT-3, o ChatGPT e o DALL-E. Começou como uma entidade sem fins lucrativos, mas desde 2015 opera como uma empresa com “lucro limitado”. Elon Musk foi um dos cofundadores, mas saiu do negócio em 2018.

DALL-E, STABLE DIFFUSION E ARTE IA

Modelo de difusão: método para criação de imagens a partir de prompts (comandos ou instruções) de texto. Funciona com a adição de elementos aleatórios em um conjunto de imagens usadas no treinamento da máquina. Ela aprende como remover esses elementos para construir a imagem solicitada.

Diversas empresas estão usando o modelo de difusão para criar ferramentas que transformam texto em imagem. Algumas das principais são:

- DALL-E: ferramenta da OpenAI, que usa o GPT-3 para interpretar as solicitações dos usuários. A versão mais recente, DALL-E2, lançada em julho de 2022, proporciona imagens mais acuradas. Está disponível em versão beta, sendo que o usuário consegue gerar até 50 imagens gratuitamente.

- Stable Diffusion: aplicação de código aberto para transformação de texto em imagem, criada pela Stability AI. O processo de instalação da versão oficial é um tanto trabalhoso, mas desenvolvedores independentes vêm criando alternativas mais amigáveis para desktop e web.

- Imagen: outra ferramenta de transformação de texto em imagem que usa o modelo de difusão, só que criada pelo Google. A empresa optou por não abrir o código-fonte ou fazer demonstrações públicas por enquanto, alegando o potencial dessa tecnologia de criar conteúdo inapropriado.

- Midjourney: criado por um laboratório independente e, no momento, disponível para teste apenas para convidados.

Dreambooth: modelo de deep learning desenvolvido pelo Google capaz de refinar imagens criadas por difusão. Um ponto a ser destacado é sua capacidade de gerar novas imagens de uma pessoa com base em fotos tiradas anteriormente. Embora o próprio Google não tenha lançado o Dreambooth para o público em geral, uma implementação da ferramenta foi liberada na forma de projeto open-source.

Lensa: aplicativo de edição de imagens para iOS e Android da Prima Labs, lançado inicialmente em 2018. O app viralizou recentemente graças à funcionalidade Magic Avatar, cujos efeitos são parecidos com aqueles gerados pelo Stable Diffusion e pelo Dreambooth. Tem sido criticado pela suposta super sexualização das imagens, em especial de mulheres, além de, “do nada”, acabar gerando um ou outro nude.


SOBRE O AUTOR