数据中心的纵向扩展与横向扩展验证没想到
《半导体工程》杂志邀请西门子 EDA 验证知识产权总监戈登・艾伦、迈威尔科技网络交换产品营销副总裁里希・丘格、阿斯特拉实验室专用集成电路设计与验证高级总监萨拉瓦南・卡利纳加斯瓦米,以及西门子 EDA 产品工程负责人贾拉杰・古普塔,共同探讨数据中心扩容(纵向扩展)与扩展(横向扩展)过程中的挑战与解决方案。以下是本次小组讨论的精华摘要。

(左起:西门子戈登・艾伦、迈威尔科技里希・丘格、阿斯特拉实验室萨拉瓦南・卡利纳加斯瓦米、西门子贾拉杰・古普塔)
半导体工程(SE):对于数据中心架构而言,纵向扩展和横向扩展哪种验证难度更低?会遇到哪些类型的问题?
古普塔:纵向扩展更多涉及内存语义,有其独特性。在验证过程中观察交换拓扑时,会发现它包含管理层和软件层,核心关注点是低延迟和高带宽,需要对不同层级的数据包进行验证。横向扩展则更多与封装相关,重点关注数据包的完整性而非内部内容。
卡利纳加斯瓦米:两者各有挑战。纵向扩展可能涉及数百个 GPU 或加速器,且需在纵向扩展网络中协同工作;横向扩展采用点对点模式,横向扩展交换机无法提供如此多的端口。纵向扩展交换机可支持数百个端口,因此其验证难度高于横向扩展。
半导体工程(SE):随着节点、服务器数量的增加以及服务器功能的拓展,系统复杂度不断提升,这对验证工作意味着什么?
艾伦:我是通用验证方法学(UVM)的使用者,倾向于采用序列化和约束随机验证。但如今我们面临的挑战日益凸显:需要在架构的各个层级、以恰当的粒度施加合适的激励,并实现全局层面的激励验证。我们正大力投入软件驱动的工作流研发,以便将验证知识产权(IP)和测试平台与软件对接,模拟真实场景中的业务流量。从纵向扩展转向横向扩展时,语义逻辑会发生变化,需要考虑系统层面多种正交激励的并发运行。
丘格:纵向扩展和横向扩展都在经历不同类型的变革。即便对于横向扩展,验证也至关重要 —— 超以太网联盟(UEC)的出现就是重要因素。当前横向扩展正进入人工智能驱动阶段,引入了动态负载均衡、链路层重试(LLR)和基于信用的流量控制(CBFC)等技术。这些协议影响深远,尤其是动态负载均衡和数据包分发功能,给验证工作带来了巨大压力。人工智能对横向扩展的影响如同章鱼的触手般广泛:高基数交换机需以高带宽运行,端口密度达 1.6G,且部署数量庞大,导致系统极为复杂。另一方面,横向扩展技术应用已久,相对更为成熟稳定,终端设备和参与方明确(如网络接口卡、专用处理器卡),但系统仍在持续演进,且升级幅度显著。而纵向扩展的终端设备目前尚未完全成型,严重依赖现有模型进行验证 —— 这相当于与一个 “不存在的终端” 赛跑,难度极大。目前尚无统一的合规性检查清单可参考,无法明确判定 “完全合规”,因此纵向扩展的验证挑战更大。此外,纵向扩展还涉及内存语义的复杂验证。
半导体工程(SE):目前涌现出众多数据传输相关的新型接口标准,如 UCIe、Bunch of Wires(BoW)、UALink、UEC、开放计算项目的 ESUN,以及英伟达NVLink、华为 UB-Mesh 等专有标准。开放标准与专有标准之间存在哪些权衡?
古普塔:这更多取决于应用场景,核心考量因素是带宽、功耗和延迟,这些因素将决定接口的选择。纵向扩展场景中常见 UALink 和 NVLink,其中 NVLink 是英伟达 GPU 的专有标准,UALink 为开源标准并获得超威半导体(AMD)支持 —— 这些特性直接影响接口选型。UCIe 主要用于芯粒(chiplet)领域,最终的接口选择需根据具体流程和上述核心因素综合判定。
卡利纳加斯瓦米:NVLink 和 UALink 差异显著。NVLink 为专有标准,采用该标准意味着将自身绑定至单一客户;UALink 作为开放标准,能汇聚全行业的技术积累。NVLink 的优势在于技术成熟、经过实践验证,但行业领军企业正联合推动 UALink 的发展,助力其实现技术升级。
半导体工程(SE):EDA 行业长期存在标准竞争的历史,且并非总能达成理想结果。如何梳理这些繁杂的标准?
艾伦:这需要时间积累。在竞争环境中,我们历来秉持耐心,通过渐进式方式推动技术发展。以 CXL 为例(其应用领域与 UALink、以太网不同),该标准历经三次完整的版本迭代,才成为可投入量产的成熟标准,且在演进过程中整合了其他相关标准。UALink 和 NVLink 的发展可能也会遵循类似路径。在 EDA 领域,我们有能力为所有标准投入资源,为客户(无论其是同行还是竞争对手)提供全面支持。验证集成了不同来源的多核处理器、多种网络基础设施的系统,是一项极具挑战性的工作,但核心在于完善的标准规范和可靠的验证知识产权。
半导体工程(SE):这一趋势在芯粒领域如何体现?
丘格:市场上既有定制化设计产品,也有标准产品。定制化设计中诸多技术为专有属性。UCIe 由英特尔提出,但英特尔并未涉足网络或交换机领域。UCIe 更像是一个基准参考 —— 我们并非生产 CPU,而是构建网络架构,并非任何标准推出后都必须强制采用。当我们为系统厂商或超大规模云计算厂商等终端客户提供专用处理器(xPU)时,这些客户因需搭建自有系统,会提出专属需求(其产品不会标注 “Intel Inside”)。UCIe 对英特尔而言完全适配其自身需求,将其公开并允许行业使用是一项积极举措。但从我们的角度来看,特定客户会根据自身系统、应用场景和成本预算,选择最优方案。若某些标准特性不符合需求,他们不会因 “行业标准” 而盲目采纳,而是会汲取其优势部分,进行修改或定制化调整后,再推向主流市场。
半导体工程(SE):部分标准(如以太网)已存在 35 年,而 UALink 自 2025 年才问世。验证新型标准会面临哪些独特问题?
古普塔:不同标准面临的挑战各异,并非简单的 “难易之分”。以太网应用已久,我们在长期实践中积累了丰富经验,也遭遇并解决了诸多问题。UALink 作为新兴标准,得到了超威半导体的支持并由其内部研发,最终以开放标准的形式面向全行业。但 UALink 存在独特挑战:它包含以太网所不具备的内存语义,尽管二者采用相同的以太网物理层(PHY)。UALink 的验证难度在于,其构建的生态系统中将涉及数百甚至数千个互联端口,验证复杂度极高。
半导体工程(SE):所有标准的共同目标都是实现更大量、更快速、更安全的数据传输。共封装光学(CPO)技术在此中扮演何种角色?
艾伦:我们正与众多采用光学连接的客户合作。以 PCIe 标准为例,下一代标准的吞吐量和速度通常会翻倍,但即便如此,推出后仍可能迅速落后于市场需求。市场对更高带宽和更低延迟的需求永无止境,因此在这些数据传输标准之上,光学技术始终是重要的优化选项 —— 但这一目标始终处于动态变化中。铜基标准与光学系统的连接涉及大量硅基器件,且光学技术在专有交换应用中已形成专属基础设施,其开放性相对较低,但我们发现已有多家客户在共封装光学领域推动标准边界的拓展。
半导体工程(SE):现有工具是否适用于共封装光学(CPO)的验证?
丘格:现有工具可用于 CPO 验证,但挑战不止于此。CPO 面临的核心瓶颈在于封装技术。根本问题是 “为何需要 CPO”,背后存在多重原因:首先,200G 之后的技术演进(400G)催生了 CPO 需求,400G 场景中光学侧采用 PAM4 调制,主机侧采用 PAM6 和 PAM8 调制,导致调制方式无法统一;其次,主机端的封装损耗超过 12 分贝(发射端 12-15 分贝,接收端 12-15 分贝),剩余的性能余量需覆盖印刷电路板(PCB)和连接器的损耗,400G 长距离传输易形成瓶颈。目前铜基传输已难以满足需求,共封装光学已成为网络和交换领域所有企业必须考量的技术方向。
半导体工程(SE):共封装光学(CPO)的验证工作有何特点?
艾伦:CPO 的验证涉及多种物理领域,我们的团队和产品已覆盖流体力学、热学、机械应力等各类物理特性的验证,这些技术可应用于多个领域。例如,芯粒间的连接不仅需要功能验证,还需考虑热量、热 / 机械光学(作为横向扩展或纵向扩展介质)等因素。尽管存在挑战,但机柜制造商已在积极应对 —— 他们正通过液冷技术、物理约束优化、热约束控制等方式解决相关问题。
半导体工程(SE):验证工作中最重要的指标是什么?这些指标是否发生了变化?
丘格:热性能是首要指标,这与机柜的功耗和散热直接相关,当前这些平台的冷却面临巨大挑战;其次,需确保设备与终端连接时链路的稳定性(涉及不同厂商的服务器和交换机);第三是网络协议,相对而言更为简单。
卡利纳加斯瓦米:系统 uptime(运行时间)也至关重要。高功耗状态持续多久会触发冷却需求?系统稳定性和连续运行能力是核心考量因素。
艾伦:经济性和安全性,以及所有技术层面的指标都不可或缺。从底层到接口协议,将安全性融入设计全过程至关重要。
古普塔:指标优先级取决于应用场景。流媒体应用更看重高带宽;近距离连接场景中涉及缓存机制,低延迟成为核心需求;纵向扩展网络需同时兼顾低延迟和高带宽,但会牺牲系统的一致性 —— 这本质上是一种权衡,追求某一方面的优势可能需要放弃其他特性。