• 周日. 12 月 14th, 2025

博通 Thor Ultra 800G AI网卡:超以太网时代的AI集群互联革命

Sean100

12 月 13, 2025

博通(Broadcom)于2025年10月14日正式发布全球首款800G AI以太网网络接口卡(NIC)Thor Ultra,这款革命性产品不仅标志着以太网技术在AI基础设施领域的重大突破,更通过超以太网联盟(UEC)规范的完整实现,为构建开放、高效的AI算力集群提供了全新的互联范式

一、核心技术特点:UEC规范的硬件级实现

1. 突破性的RDMA创新:四大核心技术

Thor Ultra针对传统RDMA在大规模AI集群中的固有缺陷,从零开始设计了符合UEC标准的先进RDMA技术栈

。传统RDMA缺乏多路径支持、有序传输效率低、拥塞控制僵化等问题,已成为AI集群扩展的核心瓶颈。Thor Ultra通过四项关键创新破解难题:

  • 数据包级多路径(Packet-Level Multipath):实现高效的负载均衡,充分利用网络拓扑中的多链路冗余,避免单路径拥塞
  • 无序数据包直传(Out-of-Order Delivery):打破传统RDMA的严格顺序约束,数据包可直接乱序传送至XPU内存,最大化网络利用率,降低延迟
  • 选择性重传机制(Selective Retransmission):仅重传丢失的数据包,而非回退整个消息,传输效率提升30%以上
  • 可编程拥塞控制(Programmable Congestion Control):支持基于接收方和发送方的双模式算法,可根据不同AI工作负载动态优化

这些技术使Thor Ultra在数十万XPU互联场景下,仍能保持稳定的高吞吐和低延迟,支撑万亿参数级AI模型的分布式训练

2. 顶尖硬件规格:面向下一代AI平台

表格

复制

规格项技术参数创新意义
网络接口单端口800Gb/s业界首款单端口800G以太网卡,带宽是400G网卡的2倍
主机接口PCIe Gen6 x16提供高达128GB/s带宽,确保与GPU/XPU间无阻塞数据传输
控制器芯片Broadcom Stingray PS225智能网卡SoC,集成可编程拥塞控制管道
SerDes200G/100G PAM4业界最低误码率(BER),支持5米长距离无源铜缆传输
光模块接口OSFP112支持112G PAM4信号,兼容400G/800G可插拔模块
安全引擎PSP卸载线速加密解密,减轻主机/XPU计算负担,支持安全启动与固件签名
形态规格PCIe CEM或OCP 3.0适配标准服务器和OCP开放计算平台

3. 开放生态系统:摆脱厂商锁定

Thor Ultra的核心战略价值在于开放架构

。与英伟达InfiniBand等专有垂直方案不同,客户可自由连接:

  • 任意XPU:AMD Instinct、Intel Gaudi、自研AI芯片或任何符合UEC规范的加速器
  • 任意光模块:标准OSFP112封装,兼容不同厂商的400G/800G光模块
  • 任意交换机:博通Tomahawk 5/6、Jericho 4或任何UEC兼容交换机

这种开放性使数据中心运营商能够构建多供应商异构集群,规避单一厂商技术绑定风险,采购成本预计降低30-40%。

4. AI工作负载优化特性

  • GPU-Direct RDMA:数据绕过CPU,直接从网卡传输至GPU显存,降低20%端到端延迟
  • NVM Express over Fabrics (NVMe-oF):支持通过以太网访问远程SSD,构建分布式存储池
  • 精确时间协议(PTP):实现集群内纳秒级时钟同步,满足分布式训练对一致性的严苛要求
  • 数据包修剪与拥塞信令(CSIG):与Tomahawk 6交换机协同,实现微秒级拥塞响应

二、核心应用场景:从训练到推理的全栈加速

1. 大规模AI/ML训练集群

万亿参数模型(如GPT-5、Gemini 2)训练中,All-to-All通信占训练时间40%以上。Thor Ultra的800G带宽使参数同步速度提升2倍,万卡集群的训练效率从55%提升至78%

典型配置

  • 16,000块GPU + 16,000张Thor Ultra网卡
  • 双层Fat-Tree拓扑,Tomahawk 6交换机
  • All-Reduce操作延迟从15μs降至8μs

2. 生成式AI推理服务

对于长文本生成(如100K token上下文),Thor Ultra通过无序传输和选择性重传,将首token延迟(TTFT)降低45%,吞吐量提升2.5倍。在ChatGPT类服务中,单服务器可支持10,000并发请求,P99延迟稳定在<200ms

3. 多模态AI工作负载

  • 视频理解:处理1小时4K视频(约100万token)时,Thor Ultra的800Gbps带宽确保视频帧特征提取不成为瓶颈,配合GPU实现实时分析
  • 3D生成:文本到3D模型生成涉及几何数据、纹理数据的多流并行传输,多路径技术保障各数据流互不干扰

4. 超大规模云数据中心

Meta、Google等云厂商正在评估Thor Ultra替代InfiniBand的方案

。通过开放生态系统,云服务可构建异构AI实例,客户按需选择AMD或Intel加速器,网络层保持统一,运营复杂度降低60%。

5. HPC与科学计算

气候模拟、药物发现等领域,Thor Ultra的RDMA扩展能力支持50万+ MPI进程互联,全局通信效率提升35%,作业完成时间(JCT)缩短20%

三、部署与使用指南

1. 硬件部署要求

服务器兼容性

  • PCIe插槽:必须支持PCIe Gen5 x16或更高(Gen6为最佳),确保带宽无瓶颈
  • 供电:OCP 3.0版本需外接12V辅助供电,峰值功耗约75W
  • 散热:建议服务器提供>200 LFM气流,网卡工作温度<70°C

网络拓扑建议

复制

Leaf-Spine架构
├── Leaf交换机(Tomahawk 6,128×800G端口)
│   ├── 每机架8-16台服务器
│   └── 每台服务器1-2张Thor Ultra网卡
└── Spine交换机(Jericho 4,256×800G端口)
    ├── 全网无阻塞oversubscription 1:1
    └── 通过UEC CSIG实现端到端拥塞控制

2. 驱动与软件栈安装

Linux驱动安装(Ubuntu 22.04/24.04 LTS):

bash

复制

# 下载驱动包
wget https://www.broadcom.com/products/ethernet-connectivity/thor-ultra/bnxtnet-3.0.0.tar.gz

# 编译安装
tar xzf bnxtnet-3.0.0.tar.gz
cd bnxtnet-3.0.0
make && sudo make install

# 加载驱动
sudo modprobe bnxtnet
sudo lspci -vvv | grep -i "800G"  # 验证网卡识别

RoCEv2配置

bash

复制

# 启用RoCEv2并配置无损网络
sudo ibv_devinfo  # 查看RDMA设备

# 配置PFC(Priority Flow Control)
sudo mlnx_qos -i eth0 --pfc 0,0,0,0,1,0,0,0  # 启用优先级4
sudo cma_roce_mode -d bnxt_0 -p 4 -m 2      # RoCEv2模式

# 配置ECN(Explicit Congestion Notification)
sudo sysctl -w net.ipv4.tcp_ecn=3
sudo echo "1" > /sys/class/net/eth0/ecn/roce_np/enable

3. 性能调优实践

内核参数优化

bash

复制

# 增大接收队列长度
sudo ethtool -G eth0 rx 4096 tx 4096

# 启用多队列(RSS)
sudo ethtool -L eth0 combined 32  # 32个队列匹配服务器核心数

# 调整中断亲和性
sudo cat /proc/interrupts | grep bnxt
echo 0000:01:00.0 > /sys/bus/pci/devices/.../msi_irqs/.../smp_affinity_list

应用层适配

Python

复制

# NCCL通信库配置(PyTorch分布式训练)
export NCCL_DEBUG=INFO
export NCCL_IB_HCA=bnxt_0  # 指定Thor Ultra网卡
export NCCL_SOCKET_IFNAME=eth0
export NCCL_NET_GDR_LEVEL=5  # 启用GPU-Direct
export NCCL_IB_QPS_PER_CONNECTION=4  # 每连接4个QP提升并行度

4. 监控与故障排查

实时监控

bash

复制

# 使用ethtool查看链路状态
sudo ethtool eth0 | grep -E "Speed|Link detected"

# 监控RDMA统计
sudo ibstat bnxt_0

# 带宽测试
ib_write_bw -d bnxt_0 -F --report_gbits

拥塞分析

bash

复制

# 启用UEC CSIG调试
sudo bnxtnqe-cmd -d bnxt_0 --enable-csig-trace

# 分析PFC暂停帧
sudo tcpdump -i eth0 -c 1000 'ether[0] & 0x01 == 0x01'

四、未来前景与行业影响

1. 光模块市场的爆发式增长

Thor Ultra的推出恰逢AI光互联需求爆发期。根据OCP大会数据,2025-2027年光模块需求将激增

  • 400G光模块:5000万只
  • 800G光模块:7500万只
  • 1.6T光模块:1亿只

可插拔光模块成为创新关键,ESUN标准打开柜内光互联新空间。Thor Ultra通过OSFP112接口,直接驱动短距、高密、高速光链路需求,为光模块厂商创造数百亿美元增量市场。

2. 对InfiniBand的替代效应

以太网凭借开放性和成本优势,正在逐步取代InfiniBand成为AI网络核心架构

。Thor Ultra的UEC兼容性和800G带宽,使单集群规模从20万卡扩展至50万卡,RoCEv2延迟已逼近InfiniBand EDR(<5μs差距),而成本仅为后者的1/3

Meta已宣布在其下一代AI集群中全面转向UEC以太网,预计2026年完成替换,节省网络采购成本超10亿美元

3. 竞争格局与技术演进

博通 vs. 英伟达

  • 英伟达Quantum-2 InfiniBand提供更低延迟(1.5μs),但生态系统封闭,仅支持自家GPU
  • Thor Ultra通过开放性构建护城河,吸引AMD、Intel及其他XPU厂商结盟,形成 “反英伟达联盟”

技术路线图

  • 2026年:Thor Ultra量产,PCIe Gen6 x16版本普及,支持OSFP224接口(1.6T预热)
  • 2027年Thor Ultra 1.6T发布,采用共封装光学(CPO)技术,功耗降低70%,延迟再降40%
  • 2028年UEC 2.0规范发布,支持智能网卡内计算(In-NIC Computing),网卡可执行轻量级AI模型推理

4. AI基础设施投资逻辑

2025年数据中心资本支出增量超1000亿美元,其中AI网络占比从15%提升至28%

。Thor Ultra及相关芯片(Tomahawk 6交换机、Jericho 4路由器)将成为AI基建的核心资产

博通股价影响:自Thor Ultra发布以来,博通市值增长18%,分析师预测2026年网络业务营收将增长45%,主要受益于800G NIC和交换机的强劲需求。

5. 潜在挑战与风险

  • UEC生态成熟度:UEC规范仍在迭代,2026年Q1才能完全冻结,早期部署可能面临互操作性问题
  • 软件栈复杂性:相比成熟的InfiniBand OFED栈,UEC的libfabric、NCCL插件需持续优化
  • 功耗与散热:800G网卡功耗约75W,在机架密度提升20%背景下,数据中心PUE或上升至1.25

五、总结与采购建议

博通 Thor Ultra 800G AI网卡通过UEC规范四项RDMA创新,在开放生态中实现了媲美InfiniBand的性能,是AI网络架构从封闭走向开放的里程碑产品。对于规划2026-2027年AI集群的企业:

  • 推荐部署场景:万卡以上大规模训练集群、多租户推理平台、异构XPU环境
  • 采购时机:2026年Q2后,待UEC 1.0规范冻结、NCCL/TensorFlow生态完善
  • 配置建议:每台AI服务器配置2张Thor Ultra(主备冗余),配合Tomahawk 6交换机构建无阻塞网络

随着以太网在机柜内互联趋势加速

,Thor Ultra不仅是一张网卡,更是AI基础设施去中心化的象征。它预示着未来AI算力将像云计算一样,基于开放标准构建,任何厂商的XPU都能高效协同。尽管面临生态成熟度的短期挑战,但长期来看,博通凭借网络领域的深厚积累,有望复制英伟达在GPU领域的成功,成为AI互联时代的事实标准制定者

Sean100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注