A OpenAI anuncia a ampliação do seu catálogo de modelos de voz disponíveis através da API com três novidades orientadas para os programadores, com as quais procura cobrir três cenários distintos: a conversa com raciocínio avançado, a tradução simultânea multilingue e a transcrição em tempo real com baixa latência.
O primeiro dos modelos, denominado GPT-Realtime-2, incorpora capacidades de raciocínio equivalentes às da família GPT-5 dentro de um sistema concebido para manter uma conversa falada fluida. Entre as suas características figura a possibilidade de emitir frases preliminares como avisos de que o modelo está a processar um pedido, bem como a execução de várias ferramentas em paralelo, notificando verbalmente o interlocutor. A empresa também trabalhou na recuperação de falhas, de modo a que o sistema verbalize a incidência em vez de ficar em silêncio ou interromper o diálogo.
A janela de contexto, parâmetro que determina quanta informação o modelo pode gerir numa mesma sessão, passa de 32 000 para 128 000 tokens, o que permite interações mais prolongadas e fluxos de tarefas de maior complexidade. Além disso, os programadores podem escolher entre cinco níveis de esforço de raciocínio (mínimo, baixo, médio, alto e extra-alto, com o baixo definido por predefinição), ajustando assim o equilíbrio entre tempo de resposta e profundidade analítica de acordo com a natureza de cada interação. O modelo também oferece um controlo mais preciso sobre o tom e a entoação, além de uma melhor retenção de terminologia especializada, nomes próprios e vocabulário setorial, como o da área da saúde.
Quanto aos testes de desempenho publicados pela própria OpenAI, o GPT-Realtime-2 na sua configuração alta obtém uma melhoria de 15,2% em relação à versão anterior 1.5 no teste Big Bench Audio, que avalia as capacidades de raciocínio sobre entradas de áudio. No teste Audio MultiChallenge, centrado no acompanhamento de instruções ao longo de várias rodadas de diálogo, a configuração extra-alta supera em 13,8% o modelo anterior.
A segunda novidade do anúncio é o GPT-Realtime-Translate, um modelo concebido para tradução de voz em tempo real que suporta mais de setenta idiomas de entrada e treze de saída. O sistema destina-se a casos de utilização como o atendimento ao cliente transfronteiriço, vendas internacionais, educação, eventos ao vivo e plataformas de criadores com audiência global.
O terceiro modelo apresentado é o GPT-Realtime-Whisper, uma proposta de transcrição em streaming de baixa latência. O seu objetivo é converter a fala em texto à medida que o interlocutor pronuncia as palavras, sem esperar que termine uma intervenção completa. Os cenários de aplicação previstos incluem legendas em direto para reuniões, aulas e retransmissões, a geração de notas durante uma conversa em curso, bem como a integração em agentes de voz para setores com elevado volume de interação oral, como a saúde, os recursos humanos ou as vendas.
Em matéria de segurança e conformidade normativa, fator relevante para a adoção corporativa no território europeu, a API em tempo real é compatível com a residência de dados na União Europeia e está abrangida pelos compromissos de privacidade para clientes corporativos oferecidos pela empresa.
O serviço incorpora classificadores automáticos que podem interromper sessões se detetarem conteúdos contrários às políticas de utilização, e permite aos programadores adicionar as suas próprias barreiras de segurança através do Agents SDK. As condições de utilização obrigam as aplicações a informar o utilizador final de que está a interagir com um sistema de inteligência artificial quando tal não for evidente pelo contexto.
No que diz respeito ao seu custo, o GPT-Realtime-2 é cobrado a 32 dólares por cada milhão de tokens de áudio de entrada, com um custo reduzido para 0,40 dólares no caso de tokens «em cache», e 64 dólares por milhão de tokens de saída. Os modelos de tradução e transcrição adotam um esquema de tarifação por minuto processado, com um preço de 0,034 dólares para o GPT-Realtime-Translate e 0,017 dólares para o GPT-Realtime-Whisper.
Os três modelos já estão disponíveis através da API em tempo real da OpenAI e podem ser testados a partir do ambiente Playground da plataforma. A sua integração em aplicações existentes pode ser realizada através do Codex, a ferramenta de desenvolvimento da própria empresa.







