OpenAI avança na criação de modelos de inteligência de voz; entenda

A empresa aposta em sistemas mais rápidos e inteligentes

Smartphone com o app do ChatGPT
A OpenAI quer transformar interações por voz com IA em experiências mais fluidas. Foto: Pexels

Lilian Campos 1 minutos de leitura

A OpenAI anunciou uma nova geração de modelos de inteligência de voz voltados para os desenvolvedores. A novidade inclui sistemas capazes de ouvir, traduzir e transcrever falas em tempo real, ampliando as possibilidades de aplicativos com conversação por voz.

De acordo com a empresa, os novos modelos foram criados para tornar interações com inteligência artificial mais naturais, rápidas e inteligentes.

A proposta é permitir que assistentes virtuais consigam conversar, interpretar comandos complexos e responder de forma mais fluida durante diálogos em tempo real.

TRÊS NOVOS MODELOS

Entre as principais novidades está o GPT-Realtime-2, descrito pela OpenAI como o primeiro modelo de voz da empresa com capacidade de raciocínio em nível GPT-5.

O sistema consegue lidar com pedidos mais complexos e manter conversas longas sem perder a naturalidade.

A empresa também apresentou o GPT-Realtime-Translate, voltado para tradução simultânea de voz. O modelo consegue traduzir falas de mais de 70 idiomas para 13 línguas diferentes enquanto a pessoa ainda está falando.

Outra novidade é o GPT-Realtime-Whisper, sistema de transcrição em tempo real criado para transformar fala em texto quase instantaneamente.

A OpenAI afirma que a ferramenta pode ser usada em legendas automáticas, reuniões, atendimento ao cliente e produtividade.

IA COM LINGUAGEM MAIS HUMANIZADA

A OpenAI destacou que os novos modelos foram desenvolvidos para aproximar a inteligência artificial de conversas humanas reais.

Isso inclui respostas mais rápidas, melhor compreensão de contexto e capacidade de executar tarefas enquanto a conversa acontece.

Com isso, a empresa busca facilitar a criação de aplicativos de voz mais avançados para áreas como suporte ao cliente, educação, saúde, produtividade e tradução multilíngue ao vivo.

FERRAMENTA DISPONÍVEL PARA DESENVOLVEDORES

Os novos modelos começaram a ser liberados por meio da API da OpenAI, plataforma usada por empresas e desenvolvedores para integrar recursos de IA em aplicativos e serviços.

Os preços também foram divulgados. O GPT-Realtime-2 custa US$ 32 por 1 milhão de tokens de entrada de áudio e US$ 64 por 1 milhão de tokens de saída de áudio.

Já o GPT-Realtime-Translate custa US$ 0,034 por minuto, enquanto o GPT-Realtime-Whisper sai por US$ 0,017.


SOBRE A AUTORA

Lilian Campos é jornalista colaboradora da Fast Company Brasil. saiba mais