A segurança dos sistemas de inteligência artificial multimodal está a entrar numa nova fase de complexidade técnica. Depois de vários anos marcados por ataques de prompt injection baseados em texto, a atenção dos investigadores começa agora a deslocar-se para um problema mais profundo: a manipulação do próprio mecanismo interno de alinhamento entre visão computacional e linguagem natural.
O trabalho apresentado por investigadores da Universidade Xidian introduz uma técnica designada CrossMPI, concebida para explorar vulnerabilidades nas camadas intermédias dos Large Vision-Language Models (LVLMs). Ao contrário dos ataques convencionais de prompt injection, que dependem da inserção explícita de instruções maliciosas em texto, websites ou documentos, o CrossMPI procura alterar o processo de inferência multimodal exclusivamente através de perturbações adversariais aplicadas à componente visual.
O ataque não injeta instruções textuais ocultas nem altera o prompt original do utilizador. Atua diretamente sobre o mecanismo interno de fusão entre embeddings visuais e linguísticos.
Segundo o artigo científico, citado pela CSOonline, as perturbações são introduzidas ao nível do píxel e mantêm-se praticamente invisíveis para observadores humanos. No entanto, essas alterações conseguem modificar o espaço latente utilizado pelos modelos para alinhar representações visuais e textuais durante o processo de inferência.
Do ponto de vista técnico, o estudo concentra-se no chamado “hidden state space” dos LVLMs, a camada onde os modelos combinam informação proveniente do encoder visual com embeddings linguísticos antes da geração da resposta final. Os investigadores defendem que essa zona intermédia representa atualmente uma das superfícies de ataque menos protegidas nos sistemas multimodais modernos.
Esta conclusão é particularmente relevante porque grande parte das defesas adversariais tradicionais continua orientada para outputs finais ou para sanitização de texto de entrada. O CrossMPI contorna precisamente essa abordagem ao comprometer o estágio semântico anterior à geração da resposta.
Num dos testes descritos, os investigadores aplicaram perturbações subtis a uma imagem de um avião. Embora a imagem permanecesse visualmente idêntica para um utilizador humano, o modelo multimodal interpretou incorretamente o objeto como sendo um telemóvel quando confrontado com uma questão contextual sobre a aeronave.
O aspeto mais relevante do teste não é apenas o erro de classificação visual. Segundo os autores, a técnica altera simultaneamente a interpretação contextual da tarefa submetida pelo utilizador, afetando o raciocínio multimodal e não apenas a deteção de objetos.
A investigação sugere que os modelos multimodais podem ser comprometidos antes mesmo da etapa de geração textual, através da manipulação do alinhamento semântico interno entre imagem e linguagem.
Os investigadores avaliaram o CrossMPI em vários modelos open source, incluindo MiniGPT4, BLIP-2, InstructBLIP, BLIVA e Qwen2.5-VL, segundo informou a CSOonline. De acordo com os resultados publicados, a técnica alcançou uma taxa média de sucesso de 66,36%, superando métodos adversariais anteriores em cerca de 41 pontos percentuais.
Outro elemento tecnicamente significativo é a capacidade de transferência observada em cenários de “black-box attack”. O estudo afirma que as perturbações mantiveram eficácia mesmo sem acesso à arquitetura interna ou aos parâmetros dos modelos alvo.
Esse detalhe aumenta potencialmente a relevância prática da investigação para ambientes empresariais. A maioria das implementações corporativas de IA multimodal assenta em plataformas proprietárias, APIs (sigla em inglês) externas ou modelos alojados em cloud, onde as organizações não possuem visibilidade direta sobre pesos, embeddings ou pipelines internos de inferência.
Na prática, isso significa que mecanismos tradicionais de isolamento arquitetural poderão não ser suficientes para mitigar este tipo de manipulação adversarial.
O estudo ganha ainda maior importância num contexto de rápida expansão da IA multimodal em ambientes empresariais. Sistemas capazes de interpretar simultaneamente PDFs, dashboards, vídeo, capturas de ecrã, interfaces gráficas e documentação corporativa estão a ser integrados em workflows críticos, incluindo automação documental, análise operacional, apoio ao cliente e agentes autónomos.
A Gartner estima que 80% do software empresarial incorpore capacidades multimodais até 2030, face a apenas 1% em 2024. Essa evolução está a transformar profundamente o paradigma de interação homem-máquina dentro das organizações.
Mas também altera a superfície de exposição.
Num ambiente multimodal, a integridade da inferência deixa de depender apenas da proteção do texto e passa igualmente pela robustez semântica da componente visual.
Os investigadores avaliaram vários mecanismos defensivos, incluindo compressão JPEG, redimensionamento aleatório, rotação de imagem e frameworks especializadas como SmoothVLM e DPS. O SmoothVLM apresentou os melhores resultados, reduzindo a taxa de sucesso dos ataques para menos de 5% em determinados cenários.
Ainda assim, nenhuma das abordagens eliminou totalmente a vulnerabilidade.
Esse ponto ajuda a explicar porque a segurança multimodal começa a ser vista como um problema estrutural e não apenas como uma extensão dos modelos generativos tradicionais. Enquanto os sistemas unimodais operavam sobretudo sobre linguagem, os LVLMs dependem de pipelines multimodais altamente complexos, onde embeddings visuais e linguísticos coexistem num mesmo espaço latente.
Essa convergência aumenta significativamente a dificuldade de validação semântica e deteção adversarial.
Segundoa a CSOonline, a investigação da Universidade Xidian não descreve incidentes reais em produção nem exploração ativa em ambientes empresariais. Os testes foram conduzidos em laboratório e sobre modelos open source. Ainda assim, o estudo reforça uma tendência cada vez mais evidente no setor: à medida que os sistemas de IA passam a operar sobre múltiplos formatos de dados simultaneamente, a segurança deixa de ser apenas uma questão de controlo de inputs e passa a envolver a integridade do próprio processo de raciocínio multimodal.
Para as empresas, isso representa um desafio técnico substancial. Não basta garantir que os modelos respondem corretamente em condições normais. Será igualmente necessário validar a robustez semântica das arquiteturas multimodais perante estímulos adversariais invisíveis.
E essa poderá tornar-se uma das áreas mais críticas da próxima geração de segurança aplicada à inteligência artificial empresarial.







