O que são grandes modelos de linguagem (LLMs) e para que servem
Veja como funciona a base tecnológica por trás dos recentes avanços em inteligência artificial, como o ChatGPT
Com o surgimento do ChatGPT e outras ferramentas baseadas em inteligência artificial, tem crescido o debate sobre como a tecnologia vai nos conduzir a uma nova era – uma que pode, ao mesmo tempo, eliminar empregos, destruir carreiras e abrir as portas para novas oportunidades.
Um tema menos comentado, no entanto, é a tecnologia por trás das inovações que temos visto no campo da IA: os grandes modelos de linguagem, ou LLMs (sigla para o termo em inglês large language models).
Aqui, um guia rápido sobre como os LLMs funcionam.
O QUE SÃO GRANDES MODELO DE LINGUAGEM
São modelos de aprendizado de máquina (machine learning) que utilizam algoritmos de aprendizado em profundidade para processar e entender a linguagem dos seres humanos. Eles são treinados com imensas quantidades de dados para aprender padrões de linguagem de modo a conseguirem desempenhar algumas funções.
LLMs são compostos por múltiplas camadas de redes neurais, que trabalham em conjunto para analisar textos e prever o que vem em seguida.
Que tipos de funções? As mais variadas, da tradução de textos a respostas em conversas com chatbots. Ou seja, basicamente, qualquer tarefa que demande algum tipo de análise de linguagem.
O exemplo mais conhecido de LLM é o ChatGPT, com o qual os usuários podem “conversar” ou pedir para que realize tarefas relacionadas a linguagem.
Outra ferramenta do tipo é o BERT, ou Bidirectional Encoder Representations from Transformers (Representações de Codificador Bidirecional de Transformers), desenvolvido pelo Google. Ele permite, por exemplo, que mecanismos de busca entendam melhor as demandas dos usuários de modo a fornecer resultados mais relevantes.
COMO OS LLMs FUNCIONAM
Grandes modelos de linguagem são compostos por múltiplas camadas de redes neurais, que trabalham em conjunto para analisar textos e prever o que vem em seguida (como na busca do Google).
Um estudo realizado em 2020 estimou que o custo de treinar um LLM com 1,5 bilhão de parâmetros seria da ordem de US$ 1,6 milhão.
Também são treinados com transformadores bidirecionais, que atuam para maximizar a probabilidade de acertar quais as palavras que antecedem e precedem determinados termos dentro de um contexto – da mesma forma que os humanos conseguem “adivinhar” quais palavras virão a seguir em uma frase.
LLMs contam ainda com um mecanismo de atenção que permite a eles focar seletivamente em partes do texto, de modo a identificar os trechos mais relevantes para fazer resumos, por exemplo.
COMO TREINAR UM LLM
Pode ser incrivelmente caro treinar esses modelos de linguagem. Um estudo realizado em 2020 estimou que o custo de treinar um LLM com 1,5 bilhão de parâmetros seria da ordem de US$ 1,6 milhão. No entanto, avanços em termos de software e hardware têm conseguido reduzir esses valores com o tempo.
Em geral, o treinamento de um LLM inclui identificar um conjunto de dados (de preferência, grande o bastante para permitir que a ferramenta desempenhe suas funções como um ser humano); determinar a configuração das camadas da rede neural; usar aprendizado (supervisionado) para aprender as informações contidas nos dados; e, finalmente, fazer o ajuste fino ou ajustes específicos com base na performance ou na finalidade.
Treinar grandes modelos de linguagem pode ser bem difícil: é preciso ter uma série de softwares e o tempo de treinamento é longo. E não é tarefa para qualquer um: muito conhecimento tecnológico é necessário para dar conta do recado.