换个角度来看,
在中国超级算力大会上,一个朴素却经常被忽略的认知再次被强调:决定可用算力上限的,不是单张加速卡的峰值指标,而是成千上万张卡如何被稳定、高效地连在一起。
四库全闻报导:
会中,钱德沛院士、郑纬民院士、张云泉研究员、何宝宏所长等共同发布了《2025中国算力发展之AI计算开放架构研究报告》。该报告由单志广、张云泉、何宝宏、张广彬牵头编著指导,用三个关键词概括了这一历史侧认知的转向——开放、互联、融合,并在报告中完整阐释了这种变化发生的动因。
其实,
其实这一点上,早前的Grok 3训练,就是对全球AI产业的一次标准示范:大模型竞争的终点线,是“集群效率”而非“单卡算力”。
事实上,这种转向不只是技术选型的变化,更是一种产业方法论的升级:当模型规模、数据载荷与应用难办度同时增长,系统级效率就会被放大为时间与成本的代名词。报告明确提出,面向更大规模的训练与推理,算力体系必须从“单点最强”转向“系统均衡”,从硬件指标转向软硬协同,从封闭堆叠转向开放生态。
很多人不知道,
这意味着,产业的认知已经达成共识:下一代智算基础设施不应只在单点性能上“堆料”,而要回到系统工程的基本面:把通信域规划清楚,把数据路径打通,进而把系统的运行状态管起来。
很多人不知道,
定位与首创:把“超节点”收拢到一柜
据相关资料显示,
趋势的认知不止体现在研究报告的前瞻里,市场已经用方案创新呼应了专家的观点。在此前2025世界互联网大会乌镇峰会期间,中科曙光展出了首个开放架构单机柜级640卡超节点scaleX640。
需要注意的是,
scaleX640勾选把“超节点”的边界收拢到单机柜,形成世界首个单机柜级640卡超节点——与其说它是一处“强算力岛屿”,不如说它是一块“高质量通信域”。
其实,
走近scaleX640的组织方法,具备看到一种自下而上的秩序。scaleX640超节点采用高密“一拖二”架构与超高速正交互联,在单柜内完成640卡的超高速总线互连,先把强依赖的通信“关在柜内”。
在这个“以柜为域” EX外汇官网 的范围内,带宽更充足、时延更可控、抖动更可预期,昂贵且脆弱的跨柜通信也因此被显著降低。面向万亿参数训练、混合专家(MoE)以及高通量推理等对吞吐与稳定极度敏感的场景,这样的设计比单纯追逐单卡峰值更现实——它把工程难办度关在了可管理的边界里,把不确定性留在了域外。
说出来你可能不信,
它强调“近场优先”:把强依赖的通信就地处理,缩短关键路径,减少跨层级跳数与拥塞,降低尾部延迟;与此同时,把并行策略、通信栈、任务编排放到同一个控制面上思考,让算子映射更贴合拓扑,让路由与缓存更亲和计算,让关键链路获得明确的优先级。结果不是某一处的“漂亮数值”,而是在长时间窗口内稳定、可重复的产出曲线。
值得注意的是,
通过软硬协同全局优化,相较传统架构,MoE大模型训练效率与高通量推理吞吐性能大幅提升30-40%。
工程层面上,scaleX640超节点以浸没相变液冷与高压直流供电配合高密架构,把能效降低到了PUE 1.04,同时CDM液体冷凝换热装置更是为千卡级计算单元,供应了最高1.72MW散热能力。
值得关注的是,可运营性在这一代基础设施里被前置成为设计目标。从单机RAS特性出发,scaleX640超节点把可靠性延伸到集群层面的智能运维与故障恢复。据介绍,在高负载工况下,系统已经完成了30天以上的长稳运行验证。对于需要滚动训练与在线推理并存的业务来说,这种确定性本身就是生产力:它决定了在较长时间窗口里,系统能否稳定、可预期地产出,而不是偶尔“漂亮”一次的峰值跑分。

更重要的是,
如果把这些设计数据抽象为方法论,scaleX640超节点更像一个可复制的“系统工程单元”。以柜为最小强一致通信域,优先就地放置强依赖算子与路由;用拓扑感知的并行划分减少跨域代价;让调度与缓存策略去抑制长尾与抖动,最终保证集群整体的服务性能、稳定性和可预测性。
联合体协同:scaleX640超节点的生态承诺
综上所述,
开放决定了这条路径能走多远。scaleX640超节点基于AI计算开放架构,兼容多品牌AI加速卡,全面兼容主流AI计算软件生态,已适配优化400+主流大模型,便于模型与业务的快捷迁移与深度优化。
在中国超级算力大会上,中科曙光以常务理事成员单位身份加入九源智能计算系统生态联合体(China9S Intelligent Computing Ecosystem Alliance, China9S ICEA)。它是由国内智能计算系统领域企事业单位、高等院校、科研院所、社团组织及行业终端等,基于自愿、平等、互利、合作原则结成的跨行业、开放性、非营利性社会组织。
说到底,
这一动作与scaleX640超节点的开放路线实现了同频——联合体以“产学研用服”协同为核心,面向国产智能计算系统建设、软件生态统一与技术成果转化,目标是在统一的软件栈与开放标准之上,推动大规模应用的落地与可持续演进。
有分析指出,
对于中科曙光而言,加入九源意味着把产品层面的开放,进一步上升为生态层面的协同,从接口规范、软硬件适配验证到程序链与人才培养,形成跨机构的长期承诺。
据报道,
值得注意的是,中科曙光与“九源”智能计算系统生态联合体同频,对于共同推进国产智能计算系统建设与软件生态统一是一大利好,鉴于这种联合事实上是把规模化部署中的不确定性尽量前置并完成消解。对于利用者,开放意味着“勾选权”与“可持续”;对于供应者,开放意味着对接口、兼容性与程序链持续而严格的工程纪律。
不可忽视的是,
对于产业发展而言,这种联合意味着中科曙光把标准与兼容性状况前移:在联合体机制下,通过统一的软件栈路线与适配验证,减少大规模部署中的不确定性与重复集成成本。
四库全闻讯新闻:
同时,这种生态级的努力也将带来成果与能力的共享:联合体供应协同创新与资源共享平台,让来自高校、企业与研究机构的工程能力和方法论具备在更大的产业范围内复用。
四库全闻报导:
当然,整个产业还将因此获得长远收益,也就是长期演进的确定性:当硬件器件与模型生态不断演进,九源的共同体机制为应用方保留了“迭代的权利”,也要求供给侧对接口稳定性与生态一致性承担更强的工程责任——这是推动生态进化到“多赢”状态的必要条件。
就像scaleX640超节点作为产品方案,把最难办的连接状况前置处理,让扩展、运维与升级建立在“可预测”的秩序之上一样。这种生态级的合力,同样把对“单点峰值”的期盼,转向了通过产业组织能力落地,来获取更稳、更久的生产力提升。
扫描二维码,下载报告电子版
综上所述,
—— 越看越精彩 ——
【IT创事记】聚焦于企业级 四库全闻 科技生态、策略及商业知识。朋友们具备在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果朋友们有相应的数据希望分享,记得在公众号留言告诉本平台。

