OpenAI lança modelos de IA que “veem” e pensam com imagens; entenda
A empresa apresenta os modelos o3 e o4-mini, capazes de interpretar imagens, como quadros brancos e esboços, mesmo de baixa qualidade

A OpenAI anunciou o lançamento de seus mais recentes modelos de inteligência artificial, o o3 e o o4-mini, que, segundo a empresa, são capazes de "pensar com imagens". Isso significa que eles podem entender e analisar esboços e diagramas enviados pelos usuários, mesmo que sejam de baixa qualidade.
O modelo principal, o o3, é descrito como o sistema de raciocínio mais avançado da OpenAI até agora. Simultaneamente, a empresa lançou uma versão menor, chamada o4-mini.
Com o o3, os usuários podem enviar imagens de quadros brancos, esboços e outras figuras para que a IA as analise e discuta. Os modelos também podem girar, ampliar e usar outras ferramentas de edição de imagem.
OpenAI amplia o escopo da IA generativa
Desde o lançamento do ChatGPT no final de 2022, a OpenAI tem aprimorado rapidamente seus modelos para ir além do texto, incorporando imagens, voz e vídeos. A empresa está correndo para manter a liderança em IA generativa, enfrentando forte concorrência de rivais como Google, Anthropic e a xAI de Elon Musk.
Nova fase de autonomia dos modelos
"Pela primeira vez, nossos modelos de raciocínio podem usar de forma independente todas as ferramentas do ChatGPT — navegação na web, Python, compreensão e geração de imagens", escreveu a OpenAI. "Isso os ajuda a resolver problemas complexos de múltiplas etapas de forma mais eficaz e a dar passos reais em direção à atuação independente."
A empresa, avaliada em US$ 300 bilhões em uma rodada de financiamento no mês passado, afirmou que o o3 e o o4-mini são seus primeiros modelos de IA que podem "pensar com imagens". Isso significa que "eles não apenas veem uma imagem, mas podem integrar informações visuais diretamente na cadeia de raciocínio", de acordo com a OpenAI.
Funcionalidades específicas e disponibilidade
No mês passado, a OpenAI lançou um recurso nativo de geração de imagens que se tornou viral online por sua capacidade de produzir imagens no estilo anime do Studio Ghibli.
A OpenAI afirmou que seu modelo o3 é especialmente ajustado para matemática, programação, ciência e compreensão de imagens, enquanto o o4-mini opera mais rapidamente e a um custo menor. Ambos os modelos estão disponíveis a partir desta quarta-feira para os clientes do ChatGPT Plus, Pro e Team.
Nome dos modelos vira piada na comunidade
A comunidade de usuários da OpenAI há muito tempo brinca sobre os nomes estranhos ou confusos dos modelos de IA da empresa. O CEO Sam Altman entrou na brincadeira esta semana, escrevendo em uma postagem no X: "que tal corrigirmos o nome dos nossos modelos até o verão e todos ganham mais alguns meses para zombar de nós (o que merecemos muito) até lá?"
Segurança dos novos modelos em pauta
A empresa também afirmou que ambos os modelos foram "testados sob nosso programa de segurança mais rigoroso até hoje" e vinculados ao seu "framework de preparação" atualizado no início desta semana.
A OpenAI tem sido criticada recentemente por mudanças em suas precauções e processos de segurança. A empresa afirmou esta semana que se reserva o direito de "alterar seus requisitos de segurança se 'outro desenvolvedor de IA de fronteira lançar um sistema de alto risco sem salvaguardas comparáveis'".
Críticas à transparência da OpenAI
Ao mudar suas políticas esta semana, a OpenAI escreveu que não exigiria mais testes de segurança para certos modelos ajustados. A empresa também evitou lançar um "cartão de modelo" — ou um relatório contendo informações sobre testes de segurança realizados antes do lançamento de um modelo — para seu modelo GPT-4.1. Em fevereiro, a OpenAI lançou a ferramenta de agente de IA Deep Research semanas antes de publicar seu cartão de sistema.
As informações foram retiradas de reportagem da CNBC, que não recebeu nenhum retorno da OpenAI.