【环球网科技报道 记者 林迪】近日,在第21届CCF全国高性能计算学术大会期间,由阿里云与中国科学院计算技术研究所联合发起的“高通量以太网(ETH+)联盟”集中展示了在AI算力网络互联领域的重大突破,发布了涵盖协议标准、核心芯片、系统架构在内的一系列国产化成果,标志着该联盟在构建自主可控、高性能、可扩展的智算网络基础设施方面迈出了关键一步。
算力跃迁的“阿喀琉斯之踵”:网络互联瓶颈
随着AI大模型参数量的指数级增长,单一GPU已无法满足训练需求,须通过“Scale-Out”(横向扩展)和“Scale-Up”(纵向扩展)的方式,将成百上千个GPU连接成一个超级计算集群。然而,这种并行计算模式带来了海量且密集的GPU间数据交换需求。相比传统通用计算,AI训练任务对网络带宽的要求通常高出两个数量级。
更严峻的挑战在于,大模型训练中的数据同步具有明显的周期性。任何环节的性能短板——无论是网络链路拥塞还是设备故障——都可能成为整个集群的“阿喀琉斯之踵”,导致算力无法线性扩展,严重影响训练任务的进度与稳定性。业界普遍认为,如何构建一个能长期维持高带宽、低延迟和稳定性能的互联体系,是确保集群算力随规模近似线性增长的世界性难题。
传统网络架构在设计之初并未针对如此高强度的GPU间通信进行优化,难以胜任。因此,业界共识是,必须从拓扑设计、协议选择、链路管理到拥塞控制等全栈层面,进行体系化的技术架构创新,构建一种以GPU为核心的全新网络。
协同聚力:共筑高通量以太网生态竞争力
高通量以太网(ETH+)联盟,致力于针对智算场景的高通量网络协议的制定,标准化、芯片化及系统化落地,久久为功,打造智算场景下的国内开源开放的智算网络生态。
“真正的竞争力在硅片,而不是在幻灯片。战略定力和耐心是做芯片的前提。” 高通量以太网联盟主席、阿里云智能集团副总裁蔡德忠在发布会上强调。他指出,联盟以最终落地为唯一判断标准,凭借阿里云大规模部署的实践经验,将设计方案拆解为具体的芯片功能(Feature),50多家会员单位“按单点菜”,协同开发。

为避免陷入封闭生态,联盟要求IP、接口、驱动全部开源,其驱动力来自终端用户需求,而非单一芯片厂商利益。“我们背后驱动力必须是终端用户,而不是某一家芯片厂。” 蔡德忠表示。目前,联盟协议聚焦于实现国产芯片间的高效互通,以更大胆地进行定制化创新。“理论上可以异构混部,但代价太高,没人会真这么做。”
全栈突破:从协议到芯片,系统化打造自主可控国产方案
当前,全球AI格局重塑,不同企业的私有协议与联盟林立,生态分化明显。在此背景下,高通量以太网联盟选择了一条以开放、标准、国产化为核心的道路。本次发布会是联盟两年耕耘的集中成果展示,覆盖了从底层协议到上层系统的完整链条。
协议方面,联盟最新发布的《高通量以太网(ETH+)协议(1.1)》,是继Scale-Out场景实现协议收敛与标准发布后,在Scale-Up场景取得的关键进展,为AI智算集群提供了基于以太网生态的全新解决方案。“如果哪天出现革命性架构,行业会重新洗牌。” 蔡德忠坦承技术变革的可能性,但他也指出,当前的高通量以太网设计已为未来预留了光互连可扩展接口,“真到那天,只需升级协议即可”。
芯片方面,针对外界对“用电力拼算力不可持续”的质疑,蔡德忠认为,当前国产芯片的首要矛盾是算力不足,而非能耗过高。他预测,未来三到五年,AI仍将沿着Transformer架构加速迭代,自动驾驶、编程助手等杀手级应用的出现将持续推高算力需求。因此,联盟的工作重心将长期聚焦于数据中心智算互联,弥补国产芯片算力不足的劣势。
最后,蔡德忠用一句话总结了联盟的信念:“芯片才是竞争力。当国产网卡、交换芯片和硅光模块如期流片归来,中国智算网络将在全球赛场与巨头同场竞技。”
从协议标准的制定,到核心芯片的流片,再到开放系统的落地,高通量以太网联盟正以“慢功夫”换取“真落地”。随着高通量以太网联盟系列成果的落地,在解决AI智算时代算力跃迁的“阿喀琉斯之踵”的同时,更构建了一条自主可控的国产化技术路径。