一、核心芯片技术参数对比
表格
复制
性能定位总结:思元590性能接近NVIDIA A100,略高于H20;思元690性能达A100的80%,但仍落后H200约2-3倍
。两者均采用ASIC架构,在特定算法优化下能效比突出,但通用性和集群规模与NVIDIA存在代差。
二、主要应用场景解析
1. 推理场景:成本优势明确的存量市场
思元590的核心阵地,已建立稳固市场份额:
- 推荐系统与客服机器人:在中等规模推理任务中,成本比昇腾910C低30%,成交价6-9万元/卡,性价比突出
- 边缘AI质检:市占率超30%,推理能效比15 TOPS/W,适合工业视觉检测场景
- 智能座舱与人形机器人:算力达350TOPS,对标Jetson AGX Orin,切入机器人产业链
技术适配:与DeepSeek开源FlashMLA技术结合,大模型推理效率提升50%,2025年4月通过DeepSeek-V3.1兼容性测试,成为国内唯一支持FP8精度的芯片
。
2. 训练场景:小规模集群的国产化替代
思元690的突破方向,但面临稳定性挑战:
- 垂直行业大模型:在文旅、金融等政府主导项目中,支持千亿参数模型训练,40天长稳训练周期待验证
- 政企智算中心:国企央企采购首选国产芯片,寒武纪位列华为昇腾、百度昆仑芯之后的第三顺位
- 字节跳动验证:正在字节进行测试,但国产版供应不确定,2025年大概率无法规模交付
集群能力:小集群支持1,000卡,但大集群(万卡级)线性度和稳定性不及昇腾910C(线性度>95%)和NVIDIA方案
。
3. 受限场景:出口管制下的”可用”选择
国家战略驱动需求:
- 供应链安全:新建数据中心将国产芯片作为首位选择,2025年国产替代率持续提升
- 政策适配:寒武纪高度配合客户做优化,适配速度优于昇腾,成为部分云厂商的”第二选择”
- 混合架构:与海外GPU(如NVIDIA)组成”海外GPU+国产芯片”混合方案,保障业务连续性
三、2026年生产规模预测
出货量预测
基于高盛预测及产业链调研:
- 2025年:云端芯片出货量预计突破5-8万颗(含590/690),营收维持300%+增长
- 2026年:在产能与政策双重保障下,有望达到15-20万颗,较2025年增长2-3倍
- 2028年:高盛预测出货量突破百万颗,2026年为关键爬坡期
营收规模
- 字节跳动订单:2025年采购额600亿,2026年预计增长30%至800亿,寒武纪凭借适配优势有望占据300-500亿元份额
- 市场份额:中国AI加速器市场占比预计从2025年的7%提升至2026年的10-12%,仍落后华为昇腾(23%)和NVIDIA(54%)
产能与供应链
- 制造:思元690采用中芯国际5nm工艺,产能受限于国产代工良率,2026年或实现稳定量产
- 封装:HBM内存依赖进口,国产化HBM2E尚未规模应用,供应链风险仍存
四、与NVIDIA H200的核心差距与应对策略
表格
复制
| 差距维度 | 具体表现 | 寒武纪应对策略 |
|---|---|---|
| 算力性能 | H200 FP16算力是思元690的3.9倍,内存带宽高出一个数量级 | 聚焦推理场景,避免正面竞争训练市场;通过算法协同优化提升有效算力 |
| 生态成熟度 | CUDA生态壁垒深厚,开发者迁移成本高 | NeuWare工具链装机量突破10万+,与10家服务器厂商完成互认证 |
| 集群规模 | NVIDIA支持万卡级线性扩展,寒武纪大集群验证不足 | 优先服务1,000卡以下中小集群客户,逐步积累大集群经验 |
| 供应稳定性 | 依赖台积电7nm代工,美国出口管制风险高 | 切换至中芯国际5nm,推动供应链国产化,但性能与成本承压 |
五、结论与展望
核心定位:寒武纪思元590/690在2026年仍将扮演国产AI芯片”救火队员”角色,在出口管制加剧、供应链断裂风险下,为互联网巨头和政企客户提供”可用”的算力兜底方案
。其优势在于成本低廉、适配灵活、政策支持,而非技术领先。
2026年关键变量:
- 地缘政治:若美国进一步收紧管制,Blackwell芯片被禁,国产芯片将获更大份额
- 技术突破:思元690若通过字节等大厂验证,训练场景将打开增量市场
- 产能爬坡:中芯国际5nm良率与HBM国产化进度,决定规模交付能力
市场预判:2026年寒武纪将保持5-7%的全球AI加速器份额,在中国市场占据10-15%(含推理与训练),成为继华为昇腾之后的第二大国产AI芯片供应商。但与NVIDIA的技术差距仍维持1.5-2代,短期内难以撼动其市场霸主地位