OpenAI avança na criação de modelos de inteligência de voz; entenda
A empresa aposta em sistemas mais rápidos e inteligentes

A OpenAI anunciou uma nova geração de modelos de inteligência de voz voltados para os desenvolvedores. A novidade inclui sistemas capazes de ouvir, traduzir e transcrever falas em tempo real, ampliando as possibilidades de aplicativos com conversação por voz.
De acordo com a empresa, os novos modelos foram criados para tornar interações com inteligência artificial mais naturais, rápidas e inteligentes.
A proposta é permitir que assistentes virtuais consigam conversar, interpretar comandos complexos e responder de forma mais fluida durante diálogos em tempo real.
TRÊS NOVOS MODELOS
Entre as principais novidades está o GPT-Realtime-2, descrito pela OpenAI como o primeiro modelo de voz da empresa com capacidade de raciocínio em nível GPT-5.
O sistema consegue lidar com pedidos mais complexos e manter conversas longas sem perder a naturalidade.
A empresa também apresentou o GPT-Realtime-Translate, voltado para tradução simultânea de voz. O modelo consegue traduzir falas de mais de 70 idiomas para 13 línguas diferentes enquanto a pessoa ainda está falando.
Outra novidade é o GPT-Realtime-Whisper, sistema de transcrição em tempo real criado para transformar fala em texto quase instantaneamente.
A OpenAI afirma que a ferramenta pode ser usada em legendas automáticas, reuniões, atendimento ao cliente e produtividade.
IA COM LINGUAGEM MAIS HUMANIZADA
A OpenAI destacou que os novos modelos foram desenvolvidos para aproximar a inteligência artificial de conversas humanas reais.
Isso inclui respostas mais rápidas, melhor compreensão de contexto e capacidade de executar tarefas enquanto a conversa acontece.
Com isso, a empresa busca facilitar a criação de aplicativos de voz mais avançados para áreas como suporte ao cliente, educação, saúde, produtividade e tradução multilíngue ao vivo.
FERRAMENTA DISPONÍVEL PARA DESENVOLVEDORES
Os novos modelos começaram a ser liberados por meio da API da OpenAI, plataforma usada por empresas e desenvolvedores para integrar recursos de IA em aplicativos e serviços.
Os preços também foram divulgados. O GPT-Realtime-2 custa US$ 32 por 1 milhão de tokens de entrada de áudio e US$ 64 por 1 milhão de tokens de saída de áudio.
Já o GPT-Realtime-Translate custa US$ 0,034 por minuto, enquanto o GPT-Realtime-Whisper sai por US$ 0,017.