O treino de grandes modelos de IA requer que centenas de milhares de unidades de processamento gráfico funcionem de forma sincronizada, o que torna a infraestrutura de rede um elemento crítico. Inicialmente, a AMD desenvolveu uma implementação preliminar de um protocolo de transporte RoCEv2 melhorado, graças à capacidade de programação da sua placa de rede Pensando Pollara 400. Esta flexibilidade técnica permitiu validar o funcionamento da tecnologia em ambientes de teste numa fase inicial e observar o seu comportamento sob cargas sustentadas.
Esse desenvolvimento inicial evoluiu ao longo do tempo até se tornar o atual padrão Multipath Reliable Connection (MRC), cuja especificação inclui agora novos mecanismos de controlo de congestionamento. Como resultado deste processo de maturação, a AMD, em conjunto com a OpenAI, a Microsoft, a Broadcom e a Intel, anunciou a contribuição do protocolo MRC para o Open Compute Project, a fim de o disponibilizar a toda a indústria.
O novo protocolo foi concebido para resolver as dificuldades operacionais apresentadas pelos modelos tradicionais de rota única nos grandes centros de dados. Em vez de enviar o tráfego por uma única via, o sistema distribui os pacotes de informação por múltiplas rotas de forma simultânea. Esta arquitetura de rede reduz a saturação e limita as variações de latência que habitualmente abrandam as operações de cálculo sincronizado. Da mesma forma, perante possíveis falhas de ligação, a tecnologia adapta e desvia o tráfego em tempo quase real para evitar interrupções.
Representantes da área de engenharia da AMD explicaram que, enquanto os processadores aumentam progressivamente a sua capacidade de cálculo, a rede física representava um obstáculo à escalabilidade. Por este motivo, o desenvolvimento de redes programáveis é fundamental para obter um fluxo de dados constante em condições reais, onde a produtividade do hardware é mais relevante do que os picos teóricos de largura de banda.
Após concluir a avaliação técnica do sistema em clusters implementados junto a um fornecedor de serviços na nuvem, o setor planeia neste momento a transição para componentes de nova geração. O objetivo a curto prazo é implementar este modelo de transporte de informação no futuro hardware de interligação, como as placas de rede de 800 gigabits, consolidando assim o padrão MRC em ambientes profissionais.







