博通(Broadcom)于2025年10月14日正式发布全球首款800G AI以太网网络接口卡(NIC)Thor Ultra,这款革命性产品不仅标志着以太网技术在AI基础设施领域的重大突破,更通过超以太网联盟(UEC)规范的完整实现,为构建开放、高效的AI算力集群提供了全新的互联范式
。
一、核心技术特点:UEC规范的硬件级实现
1. 突破性的RDMA创新:四大核心技术
Thor Ultra针对传统RDMA在大规模AI集群中的固有缺陷,从零开始设计了符合UEC标准的先进RDMA技术栈
。传统RDMA缺乏多路径支持、有序传输效率低、拥塞控制僵化等问题,已成为AI集群扩展的核心瓶颈。Thor Ultra通过四项关键创新破解难题:
- 数据包级多路径(Packet-Level Multipath):实现高效的负载均衡,充分利用网络拓扑中的多链路冗余,避免单路径拥塞
- 无序数据包直传(Out-of-Order Delivery):打破传统RDMA的严格顺序约束,数据包可直接乱序传送至XPU内存,最大化网络利用率,降低延迟
- 选择性重传机制(Selective Retransmission):仅重传丢失的数据包,而非回退整个消息,传输效率提升30%以上
- 可编程拥塞控制(Programmable Congestion Control):支持基于接收方和发送方的双模式算法,可根据不同AI工作负载动态优化
这些技术使Thor Ultra在数十万XPU互联场景下,仍能保持稳定的高吞吐和低延迟,支撑万亿参数级AI模型的分布式训练
。
2. 顶尖硬件规格:面向下一代AI平台
表格
复制
| 规格项 | 技术参数 | 创新意义 |
|---|---|---|
| 网络接口 | 单端口800Gb/s | 业界首款单端口800G以太网卡,带宽是400G网卡的2倍 |
| 主机接口 | PCIe Gen6 x16 | 提供高达128GB/s带宽,确保与GPU/XPU间无阻塞数据传输 |
| 控制器芯片 | Broadcom Stingray PS225 | 智能网卡SoC,集成可编程拥塞控制管道 |
| SerDes | 200G/100G PAM4 | 业界最低误码率(BER),支持5米长距离无源铜缆传输 |
| 光模块接口 | OSFP112 | 支持112G PAM4信号,兼容400G/800G可插拔模块 |
| 安全引擎 | PSP卸载 | 线速加密解密,减轻主机/XPU计算负担,支持安全启动与固件签名 |
| 形态规格 | PCIe CEM或OCP 3.0 | 适配标准服务器和OCP开放计算平台 |
3. 开放生态系统:摆脱厂商锁定
Thor Ultra的核心战略价值在于开放架构
。与英伟达InfiniBand等专有垂直方案不同,客户可自由连接:
- 任意XPU:AMD Instinct、Intel Gaudi、自研AI芯片或任何符合UEC规范的加速器
- 任意光模块:标准OSFP112封装,兼容不同厂商的400G/800G光模块
- 任意交换机:博通Tomahawk 5/6、Jericho 4或任何UEC兼容交换机
这种开放性使数据中心运营商能够构建多供应商异构集群,规避单一厂商技术绑定风险,采购成本预计降低30-40%。
4. AI工作负载优化特性
- GPU-Direct RDMA:数据绕过CPU,直接从网卡传输至GPU显存,降低20%端到端延迟
- NVM Express over Fabrics (NVMe-oF):支持通过以太网访问远程SSD,构建分布式存储池
- 精确时间协议(PTP):实现集群内纳秒级时钟同步,满足分布式训练对一致性的严苛要求
- 数据包修剪与拥塞信令(CSIG):与Tomahawk 6交换机协同,实现微秒级拥塞响应
二、核心应用场景:从训练到推理的全栈加速
1. 大规模AI/ML训练集群
在万亿参数模型(如GPT-5、Gemini 2)训练中,All-to-All通信占训练时间40%以上。Thor Ultra的800G带宽使参数同步速度提升2倍,万卡集群的训练效率从55%提升至78%
。
典型配置:
- 16,000块GPU + 16,000张Thor Ultra网卡
- 双层Fat-Tree拓扑,Tomahawk 6交换机
- All-Reduce操作延迟从15μs降至8μs
2. 生成式AI推理服务
对于长文本生成(如100K token上下文),Thor Ultra通过无序传输和选择性重传,将首token延迟(TTFT)降低45%,吞吐量提升2.5倍。在ChatGPT类服务中,单服务器可支持10,000并发请求,P99延迟稳定在<200ms
。
3. 多模态AI工作负载
- 视频理解:处理1小时4K视频(约100万token)时,Thor Ultra的800Gbps带宽确保视频帧特征提取不成为瓶颈,配合GPU实现实时分析
- 3D生成:文本到3D模型生成涉及几何数据、纹理数据的多流并行传输,多路径技术保障各数据流互不干扰
4. 超大规模云数据中心
Meta、Google等云厂商正在评估Thor Ultra替代InfiniBand的方案
。通过开放生态系统,云服务可构建异构AI实例,客户按需选择AMD或Intel加速器,网络层保持统一,运营复杂度降低60%。
5. HPC与科学计算
在气候模拟、药物发现等领域,Thor Ultra的RDMA扩展能力支持50万+ MPI进程互联,全局通信效率提升35%,作业完成时间(JCT)缩短20%
。
三、部署与使用指南
1. 硬件部署要求
服务器兼容性:
- PCIe插槽:必须支持PCIe Gen5 x16或更高(Gen6为最佳),确保带宽无瓶颈
- 供电:OCP 3.0版本需外接12V辅助供电,峰值功耗约75W
- 散热:建议服务器提供>200 LFM气流,网卡工作温度<70°C
网络拓扑建议:
复制
Leaf-Spine架构
├── Leaf交换机(Tomahawk 6,128×800G端口)
│ ├── 每机架8-16台服务器
│ └── 每台服务器1-2张Thor Ultra网卡
└── Spine交换机(Jericho 4,256×800G端口)
├── 全网无阻塞oversubscription 1:1
└── 通过UEC CSIG实现端到端拥塞控制
2. 驱动与软件栈安装
Linux驱动安装(Ubuntu 22.04/24.04 LTS):
bash
复制
# 下载驱动包
wget https://www.broadcom.com/products/ethernet-connectivity/thor-ultra/bnxtnet-3.0.0.tar.gz
# 编译安装
tar xzf bnxtnet-3.0.0.tar.gz
cd bnxtnet-3.0.0
make && sudo make install
# 加载驱动
sudo modprobe bnxtnet
sudo lspci -vvv | grep -i "800G" # 验证网卡识别
RoCEv2配置:
bash
复制
# 启用RoCEv2并配置无损网络
sudo ibv_devinfo # 查看RDMA设备
# 配置PFC(Priority Flow Control)
sudo mlnx_qos -i eth0 --pfc 0,0,0,0,1,0,0,0 # 启用优先级4
sudo cma_roce_mode -d bnxt_0 -p 4 -m 2 # RoCEv2模式
# 配置ECN(Explicit Congestion Notification)
sudo sysctl -w net.ipv4.tcp_ecn=3
sudo echo "1" > /sys/class/net/eth0/ecn/roce_np/enable
3. 性能调优实践
内核参数优化:
bash
复制
# 增大接收队列长度
sudo ethtool -G eth0 rx 4096 tx 4096
# 启用多队列(RSS)
sudo ethtool -L eth0 combined 32 # 32个队列匹配服务器核心数
# 调整中断亲和性
sudo cat /proc/interrupts | grep bnxt
echo 0000:01:00.0 > /sys/bus/pci/devices/.../msi_irqs/.../smp_affinity_list
应用层适配:
Python
复制
# NCCL通信库配置(PyTorch分布式训练)
export NCCL_DEBUG=INFO
export NCCL_IB_HCA=bnxt_0 # 指定Thor Ultra网卡
export NCCL_SOCKET_IFNAME=eth0
export NCCL_NET_GDR_LEVEL=5 # 启用GPU-Direct
export NCCL_IB_QPS_PER_CONNECTION=4 # 每连接4个QP提升并行度
4. 监控与故障排查
实时监控:
bash
复制
# 使用ethtool查看链路状态
sudo ethtool eth0 | grep -E "Speed|Link detected"
# 监控RDMA统计
sudo ibstat bnxt_0
# 带宽测试
ib_write_bw -d bnxt_0 -F --report_gbits
拥塞分析:
bash
复制
# 启用UEC CSIG调试
sudo bnxtnqe-cmd -d bnxt_0 --enable-csig-trace
# 分析PFC暂停帧
sudo tcpdump -i eth0 -c 1000 'ether[0] & 0x01 == 0x01'
四、未来前景与行业影响
1. 光模块市场的爆发式增长
Thor Ultra的推出恰逢AI光互联需求爆发期。根据OCP大会数据,2025-2027年光模块需求将激增
:
- 400G光模块:5000万只
- 800G光模块:7500万只
- 1.6T光模块:1亿只
可插拔光模块成为创新关键,ESUN标准打开柜内光互联新空间。Thor Ultra通过OSFP112接口,直接驱动短距、高密、高速光链路需求,为光模块厂商创造数百亿美元增量市场。
2. 对InfiniBand的替代效应
以太网凭借开放性和成本优势,正在逐步取代InfiniBand成为AI网络核心架构
。Thor Ultra的UEC兼容性和800G带宽,使单集群规模从20万卡扩展至50万卡,RoCEv2延迟已逼近InfiniBand EDR(<5μs差距),而成本仅为后者的1/3
。
Meta已宣布在其下一代AI集群中全面转向UEC以太网,预计2026年完成替换,节省网络采购成本超10亿美元。
3. 竞争格局与技术演进
博通 vs. 英伟达:
- 英伟达Quantum-2 InfiniBand提供更低延迟(1.5μs),但生态系统封闭,仅支持自家GPU
- Thor Ultra通过开放性构建护城河,吸引AMD、Intel及其他XPU厂商结盟,形成 “反英伟达联盟”
技术路线图:
- 2026年:Thor Ultra量产,PCIe Gen6 x16版本普及,支持OSFP224接口(1.6T预热)
- 2027年:Thor Ultra 1.6T发布,采用共封装光学(CPO)技术,功耗降低70%,延迟再降40%
- 2028年:UEC 2.0规范发布,支持智能网卡内计算(In-NIC Computing),网卡可执行轻量级AI模型推理
4. AI基础设施投资逻辑
2025年数据中心资本支出增量超1000亿美元,其中AI网络占比从15%提升至28%
。Thor Ultra及相关芯片(Tomahawk 6交换机、Jericho 4路由器)将成为AI基建的核心资产。
博通股价影响:自Thor Ultra发布以来,博通市值增长18%,分析师预测2026年网络业务营收将增长45%,主要受益于800G NIC和交换机的强劲需求。
5. 潜在挑战与风险
- UEC生态成熟度:UEC规范仍在迭代,2026年Q1才能完全冻结,早期部署可能面临互操作性问题
- 软件栈复杂性:相比成熟的InfiniBand OFED栈,UEC的libfabric、NCCL插件需持续优化
- 功耗与散热:800G网卡功耗约75W,在机架密度提升20%背景下,数据中心PUE或上升至1.25
五、总结与采购建议
博通 Thor Ultra 800G AI网卡通过UEC规范和四项RDMA创新,在开放生态中实现了媲美InfiniBand的性能,是AI网络架构从封闭走向开放的里程碑产品。对于规划2026-2027年AI集群的企业:
- 推荐部署场景:万卡以上大规模训练集群、多租户推理平台、异构XPU环境
- 采购时机:2026年Q2后,待UEC 1.0规范冻结、NCCL/TensorFlow生态完善
- 配置建议:每台AI服务器配置2张Thor Ultra(主备冗余),配合Tomahawk 6交换机构建无阻塞网络
随着以太网在机柜内互联趋势加速
,Thor Ultra不仅是一张网卡,更是AI基础设施去中心化的象征。它预示着未来AI算力将像云计算一样,基于开放标准构建,任何厂商的XPU都能高效协同。尽管面临生态成熟度的短期挑战,但长期来看,博通凭借网络领域的深厚积累,有望复制英伟达在GPU领域的成功,成为AI互联时代的事实标准制定者