【超万卡GPU集群关键技术深度分析 2024】

文末有福利！

1. 集群高能效计算技术

随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进，超万卡集群吸需全面提升底层计算能力。

具体而言，包括增强单芯片能力、提升超节点计算能力、基于 DPU (Data Processing Unit) 实现多计算能力融合以及追求极致算力能效比。

这些系统性的提升将共同支持更大规模的模型训练和推理任务，满足迅速增长的业务需求。

1.1 单芯片能力

超万卡集群中，单芯片能力包括单个 GPU 的计算性能和 GPU 显存的访问性能。

在单个 GPU 计算性能方面,首先需要设计先进的 GPU 处理器，在功耗允许条件下，研发单 GPU 更多并行处理核心,努力提高运行频率。
其次，通过优化高速缓存设计，减少 GPU 访问内存延迟,进一步提升单 GPU 芯片运行效率。
第三，优化浮点数表示格式，探索从 FP16 到 FP8 浮点数的表示格式，通过在芯片中引入新的存储方式和精度，在保持一定精度条件下，大幅提升计算性能。
最后，针对特定计算任务，可在 GPU 芯片上集成定制化的硬件加速逻辑单元，这种基于 DSA (DomainSpecific Architecture) 的并行计算设计，可提升某些特定业务领域的计算速度。

‍在 GPU 显存访问性能方面,为了将万亿模型的数据布放在数万张 GPU 显存上,要求显存支持高带宽、大容量的能力,确保计算单元能够高效完成访存任务，维持系统的低能耗运行。为便捷访问显存数据,建议 GPU 显存采用基于 2.5D/3D 堆叠的HBM 技术,减少数据传输距离,降低访存延迟,提升 GPU 计算单元与显存之间的互联效率。

通过这些技术的实施，超万卡集群不仅能够为智算中心提供强大的单卡算力处理能力，还能为未来更大规模的模型训练和推理任务奠定坚实的硬件基础。

2.2 超节点计算能力

针对万亿模型的训练与推理任务，特别是在超长序列输入和 MoE 架构的应用背景下，应重点优化巨量参数和庞大数据样本的计算效率，满足由此引发的 All2All 通信模式下的 GPU 卡间通信需求。

为此,建议超万卡集群的改进策略集中在以下几个关键领域:

加速推进超越单机8 卡的超节点形态服务器

为满足万亿或更大参数量模型的部署需求,建议产业界致力于研制突破单机8 卡限制的超节点形态服务器，通过利用提高 GPU 南向的 Scale up 互联能力，提升张量并行或 MoE 并行对大模型训练任务的收益,实现性能跃升，缩短训练总时长，实现大模型训练整体性能的优化。
加快引入面向 Scale up 的 Switch 芯片

建议在节点内集成支持 Scale up 能力的 Switch 芯片，以优化 GPU 南向的互联效率和规模，增强张量并行或 MoE 并行的数据传输能力。

如图2 所示，通过引入节点内的 Switch 芯片，以增强 GPU 卡间的点对点 (Point to Point,P2P) 带宽,有效提升节点内的网络传输效率，满足大模型日益增长的 GPU 互联和带宽需求，为大规模并行计算任务提供强有力的硬件支持。

home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2FZaRZRhbV4ribN4oTGasKsic8xsK9O5PGhtgZuX6ntlrc1mVknmhs2gKOicFxYBMIzgcCQGsmV5ZO4LO4MOTqjtmJA%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg&pos_id=img-JhsPSQKp-1719542155600)

图2 在服务器内部引入 Switch 芯片示例

优化 GPU 卡间互联协议以实现通信效率跃升

建议对 GPU 卡间互联协议进行系统性优化和重构，以提升 AIl2All 模式下的通信效率。通过重新设计卡间通信过程中的数据报文格式、引入 CPO (Co-PackagedOptics) /NPO (Near Packaged Optics) 、提高和优化 SerDes 传输速率、优化拥塞控制和重传机制以及多异构芯片 C2c(Chip-to-Chip)封装等多种途径，提高超万卡集群的 GPU 卡间互联的网络利用率,减少通信时延，实现带宽能力跃升，从而支持所需的更高频次、更大带宽和更低延迟通信特性。

2.3 多计算能力融合

面向超万卡集群，考虑到智算中心内部成倍增长的数据交换需求，通过堆叠 CPU资源来处理网络数据的做法无疑是低效且昂贵的，对此，智算中心的计算架构需要转变方向，将原本运行在 CPU、GPU 中的数据处理任务卸载至具有层级化可编程、低时延网络、统一管控等特性的 DPU 上执行，在大幅扩展节点间算力连接能力的同时,释放 CPU、GPU 的算力,降低节点间的 CPU、GPU 协作成本,支撑集群发挥更大的效能。

具体地，可以对智算中心进行软硬一体重构,打造计算、存储、网络、安全、管控五大引擎，定义标准化的 DPU 片上驱动内核:

计算引擎卸载加速 1/0 设备的数据路径与控制路径，面向节点提供标准化的virtio-net(Virtual1/0 Network)、virtio-blk(Virtiual 1/0 block)后端接口，屏蔽厂商专用驱动。
存储引擎在 DPU 上实现存储后端接口，可基于传统 TCP/IP 网络协议栈或RDMA(Remote Direct Memory Access)网络功能连接块存储集群、对象存储集群、文件存储集群及文件存储集群，将节点的全类型存储任务卸载至 DPU 中完成。
网络引擎将虚拟交换机卸载至 DPU 上，采用标准的流表和卸载接口实现网络流量的卸载，全线速释放硬件性能;同时集成 RDMA 网络功能,降低多机多卡间端到端通信时延，提升多机间端到端通信带宽至 400G 级别，构建节点间数据交换的高速通道”.
安全引擎通过信任根机制以及标准的IPsec等加密通讯协议对系统和多租户网络进行安全防护，并基于DPU提供有效的卸载方案。
管控引擎屏蔽裸金属、虚拟机和容器等算力单元的形态差异，实现 DPU 资源统一管理和全链路管控运维。
以上述五大引擎为蓝图，中国移动于 2020 开始打造具有自主知识产权的磐石DPU，并于 2021 年正式推出磐石 DPU 版本。经过移动云现网的打磨，中国移动持续升级磐石 DPU 产品能力,并于 2024 年将磐石 DPU 的 FPGA 架构全面升级为ASIC 架构,旨在围绕磐石 DPU 软硬融合重构算力基础设施,重新定义算力时代云计算技术新标准，构建算力时代新技术曲线。

将以磐石 DPU 为代表的 DPU 芯片融入现有智算中心技术体系，将算力集群由CPU+GPU 双平台支撑扩展至由 CPU+GPU+DPU 三平台支撑，可以有效联合集群节点间因数据 |/0 瓶颈而产生的算力孤岛,突破现有技术架构下的集群规模极限，使超万卡集群成为可能。

2.4 极致算力能效比

在制程工艺相对固定的条件下，芯片的高性能无疑会增加芯片的功耗，从而影响整机的散热。面对高性能计算芯片功率密度急剧上升的现状，需要通过制冷系统和GPU 芯片两方面进行优化。

在制冷系统方面，当前单机8卡 GPU 服务器功耗已经数倍于通用服务器，由于GPU 的散热量大幅增加，为了增加计算密度，节省空间，超万卡集群建议采用当前较成熟的高密度冷板式液冷机柜,一个液冷机柜可容纳多台液冷 GPU 训练服务器，相比传统风冷机柜大幅提升空间利用率。

在 GPU 芯片方面,为了提升 GPU 单芯片的能效比，应采取多领域的优化策略实现高性能与低能耗之间的平衡。在芯片工艺领域,建议采用更加先进的半导体制造工艺,如 7nm 或更小的特征尺寸,以此降低晶体管的功耗,同时提升单芯片集成度。

此外，应加强超万卡集群内 GPU 架构的创新设计，包括优化片上总线设计、改进流水线结构、优化电压和频率策略以及精确的时钟门控技术，从而在不同工作状态下实现最优的能耗效率。

在软件层面，超万卡集群应采用更加精细的监控和分析，实时跟踪 GPU 的运行数据，并不断优化算法和工作负载分配，以实现更加均衡和高效的算力利用。通过上述设计和优化，不仅能提高用户的计算体验，降低成本，也为智算中心可持续发展和绿色环保提出了可行方案。

2. 高性能融合存储技术

为了实现存储空间高效利用、数据高效流动，并支持智算集群大规模扩展，超万卡集群应采用多协议融合和自动分级存储技术，提升智算数据处理效率，助力超万卡集群支撑千亿乃至万亿大模型训练。
在这里插入图片描述

2.1 多协议融合

超万卡集群融合存储底座承载Al全流程业务数据处理,兼容Al 全流程工具链所需的 NFS (Network File System)、S3 (Sample Storage Service) 和并行客户端POSIX (Portable Operating System Interface) 等协议，支持各协议语义无损，达到与原生协议一样的生态兼容性要求，在不同阶段实现数据零拷贝和格式零转换，确保前一阶段的输出可以作为后一阶段的输入，实现A各阶段协同业务的无缝对接，达到“零等待”效果,显著提升大模型训练效率。

2.2 集群高吞叶性能

为满足超万卡集群大模型对干存储高吞叶性能需求,基干全局文件系统技术，可支持超 3000 节点扩展规模,为大模型训练提供百 PB 级全闪存储大集群能力，从闪存密度、数据面网络、并行客户端和对等通信机制等多个维度全面提升存储系统性能实现存储集群 10TB/S 级聚合吞吐带宽、亿级 PS,智能算力利用率提升 20%以上.大模型 checkpoint 恢复时长从分钟级提升至秒级,同时对高价值智算存储数据提供强一致性访问和 99.9999%可靠性能力。

2.3 高效分级管理

超万卡集群数据量巨大，其中大部分是温冷数据，统筹考虑性能和成本因素，规划普通性能、高性能两类存储集群。普通性能存储集群使用混闪存储介质，具备低成本和大容量优势，提供温冷数据存储;高性能存储集群使用全闪存储介质，为大模型训练提供数据高吞吐能力，主要用于存放热数据。为智算应用高效管理和访问数据,两类存储集群应该对外呈现统一命名空间，提供基于策略的数据自动分级流动能力实现冷热数据按照策略白动流动，避免人工频繁介入，提升存储系统整体运行效率。

3 大规模机间高可靠网络技术

超万卡集群网络包括参数面网络、数据面网络、业务面网络、管理面网络。业务面网络、管理面网络一般采用传统的 TCP 方式部署,参数面网络用于计算节点之间参数交换,要求具备高带宽无损能力。

数据面网络用于计算节点访问存储节点，也有高带宽无损网络的诉求。超万卡集群对参数面网络要求最高，主要体现在四个方面:大规模,零丢包,高吞吐,高可靠。

**目前业界成熟的参数面主要包括B(InfiniBand) 和RoCE 两种技术。**面向未来Al大模型演进对网络提出的大规模组网和高性能节点通信需求，业界也在探索基于以太网新一代智算中心网络技术，包括由中国移动主导的全调度以太网 (GlobaScheduled Ethernet,GSE)方案和 Linux Foundation 成立的超以太网联盟(UltraEthernet Consortium,UEC),两者通过革新以太网现有通信栈，突破传统以太网性能瓶颈,为后续人工智能和高性能计算提供高性能网络。中国移动也将加速推动 GSE技术方案和产业成熟,提升AI 网络性能,充分释放 GPU 算力,助力 AI 产业发展。

3.1 大规模组网

根据不同的 Al服务器规模,参数面网络推荐采用 Spine-Leaf 两层组网或胖树(Fat-Tree)组网。

Spine-Leaf 两层组网如图3 所示。每8 台 Leaf 交换机和下挂的 Al 服务器做为一个 group,以 group 为单位进行扩展。在 group 内部,推荐采用多轨方案将Al服务器连接至Leaf 交换机，即所有Al服务器的1 号网口都上连至Leaf1,所有2 号网口上连至 Leaf2,依此类推,所有8 号网口上连至 Leaf8。Spine 交换机和Leaf 交换机之间采用 Fullmesh 全连接。Leaf 交换机上下行收敛比为 1:1。

图3 Spine-Leaf 两层组网

胖树 (Fat-Tree)组网由 Leaf 交换机、Spine 交换机和 Core 交换机组成,如图4 所示。每8台Leaf 交换机和下挂的AI 服务器做为一个 group,8台 Leaf 交换机又和上面N 台 Spine 交换机组成一个 pod,胖树组网以 pod 为单位进行扩展。在胖树组网中，Spine 交换机和 Leaf 交换机之间采用 Fullmesh 全连接,所有Spine1 都 Full-Mesh 连接至第一组 Core,所有 Spine2 都 Full-Mesh 连接至第二组 Core,依次类推。Spine 交换机和 Leaf 交换机上下行收敛比都为 1:1。

图4 胖树组网

3.2 零丢包无损网络

分布式高性能应用的特点是“多打一”的 Incast 流量模型。对于以太交换机，Incast 流量易造成交换机内部队列缓存的瞬时突发拥塞甚至丢包，带来应用时延的增加和吞吐的下降，从而损害分布式应用的性能。Al 人工智能计算场景通常采用RoCEv2 协议与 DCOCN (Data Center Quantized Congestion Notification) 拥塞控制机制相互配合实现零丢包无损网络。

DCOCN 要求交换机对遇到拥塞的报文进行 ECN (Explicit CongestionNotification) 标记，传统方式的 ECN 门限值是通过手工配置的，这种静态的 ECN水线无法适配所有的业务流量模型:水线配置低了,频繁进行 ECN 通告,网络吞叶上不来;水线配置高了，可能导致频繁触发 PFC(Priority-based Flow Control) ，影响整网的其他业务流量。因此建议在参数面网络和数据面网络里部署动态 ECN 技术.通过 AI算法，根据网络业务流量模型，计算出对应的 ECN 水线配置，达到在保证吞吐的同时，尽量维持较低的队列时延,让网络的吞吐和时延达到最佳平衡。

无论是静态 ECN 还是动态 ECN,本质上都是被动拥塞控制机制，通过反压源端降低报文发送速度来保证网络无损，实际上并没有达到提升吞吐率效果，反而降低了GPU 利用率。因此，中国移动提出 GSE 技术，通过全局动态的主动授权机制，从根本上最大限度消除网络拥塞，减少网络设备队列资源的开销，降低模型训练任务的长尾时延，突破RoCEv2 性能瓶颈。

3.3 高吞吐网络

AI 人工智能计算场景的流量特征是流数少、单流带宽大。传统的 ECMP (EqualCost Multi Path) 是基于5 元组的逐流 HASH,在流数少的时候极易出现 HASH 不均的情况，建议使用端口级负载均衡技术或算网协同负载均衡技术代替传统的 ECMP。

端口级负载均衡部署在 Leaf 交换机上，以源端口或目的端口作为数据流均衡的影响因子，在一个端口组内将归属于不同端口的数据流均衡到本地出端口集合上，消除传统基于五元组哈希的不确定性。

除此之外，还可以在参数网络里部署算网协同负载均衡技术，Al调度平台把任务信息通知给网络控制器,网络控制器结合已经建立的整网拓扑信息，进行整网最优转发路径计算，计算完成后自动生成路径并动态下发到网络设备，实现多任务全网负载均衡。使网络吞吐可以达到 95%以上，接近满吞叶。

3.4 高可靠网络

超万卡集群中网络作为业务流量的调度中枢,其稳定性决定着整个集群的运行效率。在典型的 CLOS 组网中,交换机之间都有多条路径,当一条链路出现故障的时候通过感知端口状态、路由收敛、转发路径切换等操作，完成流量从故障链路到备用链路的收敛。但是这个时间一般在秒级。然而在Al场景里面，每次通信时间在毫秒级别，秒级时间内正常情况下已完成了多轮通信。如果依靠传统的路由收敛方式，将极大的影响 Al计算效率。

DPFR (Data Plane Fast Recovery) 技术在此场景下，可以做到毫秒级收敛，提供基于数据面的本地快收敛或远程快收敛。特性包含故障快速感知，故障本地快速收敛，故障通告生成、接收和中继处理，故障远程快速收敛和表项老化处理。针对关键应用，尽量做到应用无感知的故障快速收敛效果，即在链路故障发生时业务性能无明显下降。

4 高容错高效能平台技术

智算平台是智算中心承载模型训练、推理和部署的综合性平台系统，在智算中心技术体系架构中承担着重要的角色,对算力基础设施进行统一纳管、调度、分配和全生命周期管理，主要包含对计算、存储、网络等laas 资源的云化管控，在此基础上通过云原生的容器底座能力,实现智算资源纳管分配、AI任务作业调度、拓扑感知调度、训练全链路监控等满足智算业务的核心需求。

随着模型参数量和数据量的激增,训练所需的单集群规模来到万级，但是智算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化，还需要借助高效的算力调度平台，根据算力集群的硬件特点和计算负载特性实现最优化的算力调度，来保障集群可靠性和计算效率。针对以上问题，业界多以断点续训、并行计算优化、智能运维等作为切入点，构建高容错高效能智算平台。

4.1 断点续训高容错能力

大模型训练面临的困难在于确保训练任务能够持续进行而不中断。在训练过程中,可能会遇到硬件故障、软件故障、网络故障以及其他故障。这种频繁中断导致的训练进度的损失对于耗时又耗资源的大模型训练来说是难以承受的,需要具备自动故障检测和训练重启。当前业界大模型训练主要容错方案依赖于训练过程中周期性保存checkpoint，故障发生后从上一个周期性 checkpoint 重新启动训练。

基于平台的运维监控能力，可以实现对超万卡集群的软硬件故障检测和预警，但是当故障发生且导致模型训练中断或停止时，通常需要人工介入排查故障信息，隔离故障并重新触发容器 pod 资源调度,重新完成并行训练中集合通信的初始化，重新加载基于中断前最近一次保存的 checkpoint 信息,最后经历算子库的重新编译，完成训练任务的继续。

图5 为典型的断点续训流程:

智算业务需求短时爆发,敏捷部署的智算中心成为刚需。新型智算中心规划建设时，可采用一体化电源系统、预制集成泵站模式、集装箱式智算中心、模块化智算中心等预制模块化建造技术，缩短工程交付周期，实现快速部署。

5.4 绿色能源应用

新型智算中心应积极应用绿色能源技术，实现低碳零碳算力和可持续发展。新型智算中心应结合园区选址特点与周边环境条件，因地制宜部署分布式光伏、风力发电等系统，实现清洁能源的就地生产与消纳;通过电力交易、绿色证书交易等模式采购可再生能源电力，提升绿色能源使用比例。随着氢能应用技术的发展,智算中心可内逐步规模化应用氢燃料电池。

5.5 智能化运维管理

借助大数据、Al 技术、数字李生等技术,构建新型智算中心的智能运维管理体系。运用 AI算法预测设备故障、优化能源使用、智能调度资源,实现主动运维、精准运维。通过机器学习、大数据分析等技术，对智算中心的运行数据进行深度挖掘，提升故障诊断、性能调优、容量规划等方面的决策准确性与效率。

6 未来展望

随着数据规模的持续扩大、集群能力的不断增强以及大模型应用的日益丰富，对新型智算底座的升级提出了更高的要求。

面对未来,我们呼吁在超节点、跨集群训练、软件框架等领域实现技术突破，以强化智算基础设施能力。

与此同时持续探索存算一体、光子芯片等先进技术领域与智算中心的结合，为下一次信息变革奠定基础。

1) 引入超节点,拓展 Scale up 能力:

随着大模型的进一步发展,单纯通过Scale out 扩展更多张 Al 卡已经无法满足万亿、数十万亿大模型的训练需要,算力形态将通过 Scale up 发展到超节点架构,突破传统单机8 卡，通过内部高速总线将A 芯片互联,一台超节点即可实现万亿参数训练和实时推理，未来超节点将成为智算基础设施的重要组成部分。

面向未来数万乃至数十万卡超大规模组网、高速总线无收敛互连、统一内存语义互访、数十乃至数百 MW 级供电散热等等,仍需重点攻克。

为了支持 scale up 卡间互联能力,中国移动提出一种创新的互联架构一-全向智感互联系统 (0mnidirectionalIntelligentSensing Express InterconnectArchitecture,简称OISA，音译“欧萨”),旨在为 GPU 间南向通信提供优化的连接方案。

OISA 将基于对等通信架构、极简报文格式、高效物理传输和灵活扩展能力等设计理念，构建一套可以支持百卡级别的 GPU 高速互联系统,在支持卡间交换拓扑的同时，通过对电接口、聚合技术、报文格式进行优化,提高 GPU 之间的数据传输效率。

0ISA 将在物理层、链路层、事务层等方面进行系统性重构,为大规模并行计算和 Al应用构建个高效、可靠的互联能力，以支持非平面布局的多维互联，打破传统服务器内连接限制，实现高效数据协同。

2) 大规模逻辑集群,突破传输距离限制,探索跨节点互联网络技术:

随着模型参数量、算力资源需求十倍速增长，驱动智算中心组网规模向万卡级，甚至是十万卡级演进。智算中心因机房空间、供电等基础设施限制，不可避免出现同园区跨楼宇部署及小局点短距互联实现逻辑大集群的需求。网络传输距离拉远会增加传输时延以及对传输设备的无损缓冲提出了更高的要求，相应也会影响集群有效算力，需要从工程上和科学上进一步研究和验证影响性和优化方案。

3) 软件框架技术方面，提升自动化能力和训练效率:

超万卡集群下模型规模和数据集复杂度提升，需要在软硬件、算法、网络等方面持续创新,聚焦于自动化、跨平台支持、大规模模型训练、跨集群训练、边缘训推等方面不断优化完善,实现高效可靠和快速的深度学习模型训练,提高模型的准确性和训练效率，降低用户开发大模型的使用门槛和资源开销，提供更加高效、易用的模型训练工具。

4)潜在换道超车技术方面,突破摩尔极限,探索下一代芯片设计和应用范式:

大模型的发展给传统冯诺伊曼计算体系结构带来了功耗墙、内存墙和通讯墙等多重挑战。

未来需探索从存算一体、光子芯片等领域突破现有 Al芯片设计和应用范式。

一方面大力推动存算一体在大模型推理场景应用，推进先进制程支持，加速存算一体技术在大模型芯片和大规模应用。

另一方面是利用好光子芯片在传输速度、低功耗等方面的技术优势，探索未来与智算产业和 A生态的结合方式。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述