Microsoft apresenta três novos modelos de linguagem para voz e imagem

A divisão de IA da empresa de Redmond apresentou as ferramentas MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2, destinadas à transcrição de áudio, síntese de voz e geração de imagens, já disponíveis para uso comercial.
7 de Abril, 2026

Embora possa parecer que a Microsoft não está a trabalhar ativamente na área da IA, uma vez que para o seu principal produto, o Copilot, utiliza modelos externos à empresa de Redmond, como os GPT da OpenAI e a família Claude da Antrophic, a verdade é que a empresa norte-americana está bem viva nesse domínio, no qual desenvolve principalmente modelos menos generalistas e mais específicos, como os que apresentou mais recentemente. Estas soluções abrangem três áreas distintas: o processamento de texto, a geração de áudio e a criação de material gráfico.

No domínio do reconhecimento de voz, a primeira das novidades é o MAI-Transcribe-1, um sistema concebido para transcrever os vinte e cinco idiomas mais utilizados no ecossistema de produtos da empresa. De acordo com os dados do teste de desempenho da indústria FLEURS, o MAI-Transcribe-1 opera com a taxa de erro de palavras mais baixa em comparação com as alternativas atuais do mercado, situando-se concretamente em 3,9%. Este suporte técnico está adaptado para funcionar em ambientes reais ruidosos e atinge uma velocidade de processamento de lotes que multiplica por duas vezes e meia a capacidade que o serviço Azure Fast oferecia até agora.

Por outro lado, a oferta corporativa é ampliada com uma solução inteiramente dedicada à geração de voz sintética. Além de se integrar gradualmente em aplicações como o Copilot Audio Expressions e o Copilot Podcasts, e de manter a identidade do locutor em formatos de longa duração, o sistema MAI-Voice-1 permite criar vozes personalizadas rapidamente a partir de apenas alguns segundos de gravação de áudio. Ao nível do desempenho técnico, a eficiência na utilização das unidades de processamento gráfico permite que o modelo seja capaz de gerar um minuto completo de som em apenas um segundo de processamento.

Por fim, o terceiro modelo é o MAI-Image-2 para a geração de imagens, que se destaca pela reprodução precisa dos detalhes. Antes deste anúncio, a empresa já tinha lançado uma versão do seu gerador de imagens que conseguiu situar-se entre os três melhores modelos na classificação independente Arena.ai. A partir dessa base, o lançamento atual amplia essa tecnologia e o novo modelo visual duplicou a sua velocidade de criação nos ambientes da empresa em comparação com versões anteriores.

A ferramenta, que está a ser progressivamente integrada no motor de busca Bing e no programa de apresentações PowerPoint, procura destacar-se sobretudo na iluminação, nos tons de pele e na inserção de texto legível em gráficos. Agências do setor publicitário já a utilizam, segundo a Microsoft, e os seus dirigentes explicam que o sistema é capaz de interpretar com exatidão as complexas diretrizes artísticas das campanhas, respeitando o trabalho artesanal subjacente dos profissionais de design.

Para facilitar a adoção destes três modelos de linguagem, a empresa estabeleceu um esquema de preços detalhado que abandona o modelo de tarifas únicas, partindo de um custo de 0,36 dólares por hora de utilização para o serviço de transcrição. A geração de voz apresenta uma tarifa inicial de 22 dólares por cada milhão de caracteres, enquanto a criação de imagens tem um preço de 5 dólares por cada milhão de tokens para os dados de entrada e de 33 dólares para o mesmo volume de dados nas imagens resultantes.

Já disponível através do Microsoft Foundry, esta plataforma fornece aos responsáveis de tecnologia das organizações as funções de governança necessárias para uma implementação em grande escala segura e em conformidade com as regulamentações, após ter submetido os sistemas a rigorosos testes de vulnerabilidade. É de salientar que existe um acesso adicional através do ambiente de testes MAI Playground, embora esse portal esteja, por enquanto, restrito a programadores localizados nos Estados Unidos.

Opinião