O que são grandes modelos de linguagem (LLMs) e para que servem

Veja como funciona a base tecnológica por trás dos recentes avanços em inteligência artificial, como o ChatGPT

Créditos: iconeer/ Getty Images/ Markus Spiske/ Unsplash

Laya Neelakandan 2 minutos de leitura

Com o surgimento do ChatGPT e outras ferramentas baseadas em inteligência artificial, tem crescido o debate sobre como a tecnologia vai nos conduzir a uma nova era – uma que pode, ao mesmo tempo, eliminar empregos, destruir carreiras e abrir as portas para novas oportunidades.

Um tema menos comentado, no entanto, é a tecnologia por trás das inovações que temos visto no campo da IA: os grandes modelos de linguagem, ou LLMs (sigla para o termo em inglês large language models).

Aqui, um guia rápido sobre como os LLMs funcionam.

O QUE SÃO GRANDES MODELO DE LINGUAGEM

São modelos de aprendizado de máquina (machine learning) que utilizam algoritmos de aprendizado em profundidade para processar e entender a linguagem dos seres humanos. Eles são treinados com imensas quantidades de dados para aprender padrões de linguagem de modo a conseguirem desempenhar algumas funções.

LLMs são compostos por múltiplas camadas de redes neurais, que trabalham em conjunto para analisar textos e prever o que vem em seguida.

Que tipos de funções? As mais variadas, da tradução de textos a respostas em conversas com chatbots. Ou seja, basicamente, qualquer tarefa que demande algum tipo de análise de linguagem.

O exemplo mais conhecido de LLM é o ChatGPT, com o qual os usuários podem “conversar” ou pedir para que realize tarefas relacionadas a linguagem.

Outra ferramenta do tipo é o BERT, ou  Bidirectional Encoder Representations from Transformers (Representações de Codificador Bidirecional de Transformers), desenvolvido pelo Google. Ele permite, por exemplo, que mecanismos de busca entendam melhor as demandas dos usuários de modo a fornecer resultados mais relevantes.

COMO OS LLMs FUNCIONAM

Grandes modelos de linguagem são compostos por múltiplas camadas de redes neurais, que trabalham em conjunto para analisar textos e prever o que vem em seguida (como na busca do Google).

Um estudo realizado em 2020 estimou que o custo de treinar um LLM com 1,5 bilhão de parâmetros seria da ordem de US$ 1,6 milhão.

Também são treinados com transformadores bidirecionais, que atuam para maximizar a probabilidade de acertar quais as palavras que antecedem e precedem determinados termos dentro de um contexto – da mesma forma que os humanos conseguem “adivinhar” quais palavras virão a seguir em uma frase.

LLMs contam ainda com um mecanismo de atenção que permite a eles focar seletivamente em partes do texto, de modo a identificar os trechos mais relevantes para fazer resumos, por exemplo.

COMO TREINAR UM LLM

Pode ser incrivelmente caro treinar esses modelos de linguagem. Um estudo realizado em 2020 estimou que o custo de treinar um LLM com 1,5 bilhão de parâmetros seria da ordem de US$ 1,6 milhão. No entanto, avanços em termos de software e hardware têm conseguido reduzir esses valores com o tempo.

Em geral, o treinamento de um LLM inclui identificar um conjunto de dados (de preferência, grande o bastante para permitir que a ferramenta desempenhe suas funções como um ser humano); determinar a configuração das camadas da rede neural; usar aprendizado (supervisionado) para aprender as informações contidas nos dados; e, finalmente, fazer o ajuste fino ou ajustes específicos com base na performance ou na finalidade.

Treinar grandes modelos de linguagem pode ser bem difícil: é preciso ter uma série de softwares e o tempo de treinamento é longo. E não é tarefa para qualquer um: muito conhecimento tecnológico é necessário para dar conta do recado.


SOBRE A AUTORA