Por que empresas de IA estão reduzindo seus modelos de linguagem
Versão mini do GPT-4o, da OpenAI, ajuda a reduzir os custos de aplicativos de inteligência artificial mais complexos
Na semana passada, a OpenAI anunciou o GPT-4o mini, uma versão menor e mais barata de seu mais recente modelo de IA. A empresa é uma das várias a desenvolver uma versão de seu principal modelo “fundacional” que substitui um pouco de inteligência por mais velocidade e acessibilidade.
Essa troca pode permitir que mais desenvolvedores utilizem inteligência artificial em seus aplicativos e pode abrir portas para apps mais complexos, como agentes autônomos, no futuro.
Grandes modelos de linguagem (LLMs, na sigla em inglês) usam bilhões ou trilhões de parâmetros – pontos de conexão semelhantes a sinapses onde uma rede neural faz seus cálculos – para realizar uma ampla gama de tarefas de raciocínio e consulta. Também são treinados com enormes quantidades de dados sobre uma variedade de assuntos.
Pequenos modelos de linguagem (SLMs), por outro lado, usam apenas milhões ou dezenas de milhões de parâmetros para realizar um conjunto mais restrito de tarefas, exigindo menos poder de computação e um volume menor de dados de treinamento mais focados.
Para desenvolvedores de aplicativos mais simples – e talvez menos lucrativos –, um SLM pode ser a única opção viável. A OpenAI diz que o GPT-4o mini é 60% mais barato que o GPT-3.5 Turbo, antes o modelo mais econômico da empresa para desenvolvedores.
Há também a questão da velocidade. Muitos aplicativos de IA não exigem o vasto conhecimento geral de um grande modelo. Eles podem precisar de respostas mais rápidas para perguntas mais fáceis.
“Se meu filho está escrevendo seu trabalho de conclusão de curso [com a ajuda de uma ferramenta de inteligência artificial], a latência não é um grande problema”, diz Mike Intrator, CEO da CoreWeave, que hospeda modelos em sua nuvem.
A latência se refere ao tempo necessário para um aplicativo de IA obter uma resposta de um modelo na nuvem. “Mas, para cirurgias, direção automatizada ou algo assim, a latência começa a ter muito mais impacto”, explica.
Os modelos usados em carros autônomos, aponta Intrator, precisam ser pequenos o suficiente para rodar em um chip de computador no próprio veículo, não em um servidor na nuvem.
O GPT-4o mini é menor que outros modelos, mas ainda não é pequeno o suficiente para rodar em um dispositivo como um smartphone ou console. Portanto, ele precisa ser executado em um servidor na nuvem, como todos os outros da OpenAI.
A empresa não revelou se está trabalhando em modelos que rodem em dispositivos (embora a Apple tenha confirmado que está).
MAIS RÁPIDOS E MAIS BARATOS
Hoje, a maioria dos aplicativos de IA envolve uma única consulta (ou algumas) a um modelo em nuvem. Mas apps de ponta requerem muitas consultas a diferentes modelos, de acordo com Robert Nishihara, cofundador e CEO da Anyscale, que oferece uma plataforma para modelos de inteligência artificial e trabalhos em produção.
Por exemplo, um app que ajuda a escolher um destino de férias pode usar um modelo para gerar os critérios de seleção, outro para selecionar algumas opções de acomodação e ainda um terceiro para avaliar cada uma dessas opções com base nos critérios, e assim por diante. Direcionar e orquestrar todas essas consultas é uma tarefa complexa.
“Quando tantos modelos são combinados, os custos e a latência explodem”, explica Nishihara. “Encontrar formas de reduzi-los é um passo essencial para criar aplicativos como estes.”
O GPT-4o mini ainda não é pequeno o suficiente para rodar em um dispositivo como um smartphone.
O desempenho dos modelos é importante, mas a velocidade e o custo também são. A OpenAI sabe disso, assim como empresas como a Meta e o Google, que estão desenvolvendo modelos de código aberto menores e mais rápidos.
Os esforços de redução de tamanho são cruciais para a utilização de modelos de IA em aplicativos mais complexos, como assistentes pessoais que realizam tarefas de ponta a ponta em nome do usuário, de acordo com Nishihara.
A OpenAI não divulga a quantidade de parâmetros de seus modelos, mas sua nova versão mini provavelmente é comparável em tamanho ao Claude 3 Haiku, da Anthropic, e ao Gemini 1.5 Flash, do Google. No entanto, a empresa diz que ele tem um desempenho melhor do que esses modelos em testes de benchmark.
Os desenvolvedores de aplicativos – os maiores beneficiários das melhorias de velocidade e custo – já podem acessá-lo por meio de uma API. Os novos modelos também já cotam com suporte para consultas pelo ChatGPT.
O “o” em GPT-4o significa “omni” – ou “multimodal” –, ou seja, a capacidade de processar e raciocinar com base em imagens e som, não apenas texto. O modelo mini tem suporte para texto e visão na API, e a empresa afirma que poderá receber áudio e vídeo no futuro.