(文/陈济深 编辑/张广凯)

在狂飙突进的AI时代,算力芯片的"卡脖子"是显性的。

过去几年里,全行业都在盯着GPU的短缺,国内企业也纷纷在这个赛道上发力。如今,随着国产计算芯片的短板被逐步填补,算力底座的初步成型已经有目共睹。

然而,当所有人以为跨过GPU这道坎就能畅通无阻时,另一个隐蔽却致命的空白浮现了出来。

随着大模型参数从千亿迈向万亿,算力集群的规模正从千卡走向万卡,并加速向十万卡逼近。据工信部今年1月披露的数据,我国已建成万卡智算集群42个,智能算力规模超过1590 EFLOPS。而在这个量级下,决定系统生死的不单纯是单张显卡有多强,而是成千上万张卡能不能连在一起高效工作——而将它们连在一起的核心技术,高速互联网络,恰恰依然被英伟达牢牢掌控着。

在GPU赛道上演过一次的剧本,正在互联网络这条赛道上酝酿重演。

3月12日,中科曙光正式发布首款全栈自研的400G原生无损RDMA高速网络——scaleFabric,从底层的112G SerDes IP、硬件设备到上层管理软件实现100%自研。中国工程院院士邬贺铨评价称,scaleFabric"补齐了国产高速网络的短板"。这款产品的问世,填补这个浮出水面的关键空白。

十万卡集群的"生死线"

拆开大规模智算集群的运作逻辑,就能看清这根"传送带"为何如此致命。

训练一个万亿参数的大模型,单张GPU的算力远远不够,必须将数以万计的加速卡组成集群协同计算。在分布式训练中,每一轮迭代结束后,所有节点都需要同步各自计算出的梯度参数——这个过程叫做AllReduce。它要求集群中每一个节点几乎在同一时刻完成数据交换,任何一个节点的通信延迟,都会拖慢整个集群的训练进度。

当集群规模从千卡扩展到万卡,参与同步的节点数量增长了十倍,但节点间的通信路径和潜在冲突是指数级增长的。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30-50%。这意味着花重金购入的计算卡,有将近一半时间不是在计算,而是在等数据搬运完成。

中科曙光高级副总裁李斌在产品发布会上直言:"计算决定了计算系统性能的上限,但是如果是网络系统拉垮的话,有可能会把整个性能下限归零了。"他在会后对观察者网进一步解释,十万个节点要协同好,"能稳定跑上一个小时、两个小时,这个技术挑战非常大"。

北京科技大学 计算机与通信工程学院储根深从用户角度印证了这一判断:在以往的大规模计算中,"大部分的时间是在通信方面",算力利用率往往只有百分之六七十。"在硬件上把通信的性能补齐之后",利用率可以提升到80%至90%。在算力极度昂贵的今天,每提高十个百分点的利用率,都是真金白银。

这个需求的规模正在急剧膨胀。

过去以CPU为核心的计算节点,一台服务器只需要一张网卡;如今以GPU为核心,一台机器要出八张甚至更多。李斌算了一笔账:"相比原来的数据中心高速网络的用量,基本上提高了10到20倍。"网络已经从算力基础设施的配角,变成了增量最大的主角。

悬在国产算力头顶的断供风险

制造这根顶级"传送带"的核心技术,长期以来并不在中国企业手里。

目前,数据中心高速网络领域存在两条主流技术路线。一条是RoCE(RDMA over Converged Ethernet),本质上是在传统以太网基础上嫁接RDMA远程直接内存访问能力。这条路线的优势在于兼容现有以太网基础设施,部署门槛较低,国内也有不少厂商在做。但它的问题同样明显:以太网本身并非为高性能计算设计,在超大规模集群场景下,拥塞控制、无损传输和扩展性都存在天然短板。

另一条是InfiniBand(IB)原生路线,这是一套从底层协议栈开始就专为高性能计算和低延迟通信量身定制的技术体系。在带宽、时延、无损传输等关键指标上,IB都是公认的顶级水准。

根据TOP500榜单,目前全球约60%的高性能计算系统采用InfiniBand网络架构。在全球最大规模的AI训练集群中,IB更是近乎标配。

但IB路线面临一个严峻的产业现实:尽管IB协议本身是开放标准,但核心交换芯片、商用设备、生态适配几乎被英伟达独家掌控。

更关键的是,这不仅是技术壁垒,还在演变为商业捆绑。英伟达收购IB之后,在推进过程中绑定越来越紧密,除了技术上,还有商业模式上的绑定。

对于正在崛起的国产AI算力而言,这是一个极其危险的信号。当你倾尽全力造出了国产大模型和国产算力卡,准备搭建万卡甚至十万卡集群时,却发现唯一满足需求的互联网络只存在于别人的封闭生态里。如果说计算芯片的断供是"明面上的封锁",那么高速互联网络的垄断,就是随时可能勒紧的"暗门"。

计算“卡脖子”之外,可能马上就是网络,其实现在已经感受到了。

被逼出来的全栈自研

面对这堵墙,中科曙光的研发团队最初也试图找到一条更快的路。

项目启动之初,团队系统评估了几乎所有可行的技术捷径:直接购买成熟的IB链路IP做集成、在开源方案基础上二次开发、或者退而求其次走RoCE路线。

但评估结果令人沮丧——市面上可获取的IP达不到支撑超大规模集群的性能和可靠性要求;开源方案的性能天花板太低;而RoCE路线虽然上手快,但从根本架构上无法提供原生IB的无损传输和极致时延。

中科曙光高速网络互联产品部总工程师万伟坦言了当时的困境:"一开始我们打算买一些IB的(链路IP),但是发现确实都不符合我们的要求,我们最后只有招团队专门做这个事情。"

所有捷径都走不通,只剩下一条最难的路:从底层物理层开始,全栈自研一套原生IB体系。