撰稿人 | 田野,项水英
论文题目 | Photonic transformer chip: interference is all you need
作者 | 田野,项水英,郭星星,张雅慧,许佳上,石尚轩,赵浩文,王一芝,牛欣然,刘文卓,郝跃
完成单位 | 西安电子科技大学, 南通奇波科技有限公司
研究背景
Transformer中的注意力机制是AI模型核心,其庞大的参数量与动态注意力机制对硬件算力与能效提出极高要求,但传统电子芯片受限于摩尔定律放缓与冯·诺依曼瓶颈,难以满足持续增长的计算需求。现有光子神经网络芯片多基于“权重固定”架构,无法高效处理注意力中两个动态输入的矩阵乘法,难以支持光子Transformer的实现。
导读
本文首次提出并实验验证了一种完全基于光学干涉的注意力机制——Kramers-Kronig注意力(KKA),并成功研制出光子transformer芯片(PTC)。该机制利用光学干涉替代传统注意力中的矩阵乘法与SoftMax激活,成功研制出全球首款光子Transformer芯片。实验表明,PTC架构在计算密度、能效与吞吐量方面均显著优于现有光子与电子芯片,可望实现200 POPS的算力、1 POPS/mm²的计算密度与0.5 POPS/W的能效。这不仅为解决Transformer算力瓶颈提供了新方案,更揭示了光子神经网络构建独立于电子范式的新型计算架构的可能性。
X特点
本研究是光子技术与人工智能Transformer模型的深度交叉融合成果。通过将光学干涉作为基本操作单元,替代电子芯片中的乘加运算,实现了注意力机制的全光计算。尤其利用光学中固有的振幅-相位耦合特性(Kramers-Kronig关系),将传统视为干扰的物理现象转化为计算非线性激活的来源,突破了光子计算在动态输入支持与非线性建模方面的限制,体现了光子学在构建下一代AI计算范式中的独特优势与颠覆性潜力。其交叉创新性体现在三个层面:
1. 思想交叉:从“模拟电子”到“光学重构”
传统光子计算致力于在光学域精确模拟电子域的乘加运算,本研究则反其道而行之,提出 “干涉即所有” 的核心思想,将光学干涉这一基本物理过程直接提升为AI模型的基本数学操作,完成了从底层计算原语发起的架构革新。
2. 物理交叉:变“干扰源”为“激活器”
研究团队突破性地将Kramers-Kronig关系导致的幅度-相位耦合效应从传统光子计算中的干扰因素转化为计算资源。这种物理效应在干涉中自然引入的非线性,有效替代了Transformer注意力中的SoftMax激活函数,实现了线性运算与非线性激活的光域原生融合,极大地简化了硬件复杂度和能耗。
3. 技术交叉:算法与硬件协同创新
基于上述突破,本研究在技术层面实现了算法与硬件的协同重塑,提出了专为光计算设计的Kramers-Kronig注意力机制,并研制了匹配的光子Transformer芯片。该芯片的10×1干涉单元阵列支持动态输入的全光矩阵运算,在MNIST任务中达到94%的准确率,验证了该架构的可行性与优越性。
光子不再是执行AI算法的被动工具,而是共同定义了AI模型该如何构建的主动参与者。它昭示着,光子AI的未来不在于追赶电子芯片的蓝图,而在于基于光本身的物理特性(如干涉、相干、波长复用),去发现和构建一套全新的、更高效的计算范式,是这一革命性道路上里程碑式的探索。
主要研究内容
本研究围绕“如何用光学干涉实现完整的注意力机制”这一核心问题展开,提出并实验验证了一种基于全干涉机制的光子注意力机制(KKA),该机制利用光场干涉替代传统矩阵乘法与SoftMax操作,实现了注意力计算的“全干涉”处理。团队成功研制出首款光子Transformer芯片(PTC),包含10×1干涉单元阵列,支持动态输入的光学矩阵运算。通过理论分析、数值模拟与实验验证,研究团队证明了KKA在视觉Transformer模型(ViT)中具有与标准注意力相当的学习能力。此外,芯片在5 GHz时钟下运行,具备扩展至512×512规模的潜力,算力密度与能效显著优于现有光子与电子架构,为下一代人工智能硬件开辟了新路径。
技术突破与创新点
(1)Kramers-Kronig 注意力机制(KKA)
- 以光学干涉为基本运算单元,替代传统的乘累加操作;
- 利用振幅-相位耦合调制,在干涉中自然引入非线性,无需额外激活函数(如Softmax);
- 基于随机傅里叶特征理论,证明KKA具备与标准注意力相当的学习能力。
(a) KKA作为标准自注意力的替代性光子方案,其以光学干涉为基本操作单元来生成注意力;
(b) 光子transformer芯片(PTC)原理示意图;
(c) 基于PTC的可扩展时间复用矩阵-矢量干涉操作;
(d) 制备完成的PTC的显微图像。左下方放大图展示了一个MZI单元的结构,该单元包含一个外部相位调制器(EPS)和两个内部相位调制器(IPS-1与IPS-2),两个输出端口分别对应信号端(S)和监控端(M);右下方示意图详细描绘了平衡探测(BPD)模块;
(e) 连接多通道电压源以进行热相位调制器调谐的焊盘照片;
(f) 完成光学与电气封装后的芯片照片;
(2)芯片实现与性能验证
团队设计并流片了基于硅光平台的光子Transformer芯片,具备以下特点:
- 10×1 干涉单元阵列,支持动态输入的全光矩阵运算;
- 高精度热相位调制,平均相位误差低至0.0017,精度达7.7比特;
- 5 GHz 时钟频率,实测算力达0.45 TOPS,能效约7 TOPS/W。
在MNIST任务中,KKA-ViT模型实验精度达94%,与数值仿真结果(96.79%)高度接近,验证了KKA在实际芯片上的有效性与稳定性。
(a) 逐步计算注意力机制的示例:KKA(蓝色)与标准注意力(红色)的对比(SM:SoftMax)
(b) 标准注意力和 (c) KKA对比,两者显示出类似的垂直条纹模式;
KKA-ViT实验结果:(d) 注意力矩阵元素的理论预期与实验测量结果对比。插图为实验测得的注意力图谱(Exp.)与理论预期注意力图谱(Theo.)的对比;(e)总计10,000对预期与测量结果的归一化误差的高斯分布;(f) 100个干涉样本的混淆矩阵(S.D.:标准差)。
(3)性能优势与扩展潜力
与现有光子与电子处理器相比,PTC展现出显著优势:
- 算力密度:预计可达 1 POPS/mm²,远超现有光子芯片;
- 能效:理论极限达 500 TOPS/W,较电子芯片提升2~3个数量级;
- 扩展性:支持512×512甚至4096×4096规模扩展,光学损耗可控,精度保持8比特。
此外,KKA架构天然支持动态输入、模型热切换、稀疏化处理等高级功能,具备良好的系统级优化潜力。
结论与展望
本研究首次实现了基于“全干涉”注意力机制的光子Transformer芯片,不仅为解决Transformer算力瓶颈提供了新方案,更揭示了光子神经网络构建独立于电子范式的新型计算基础的可能性。作者表示:“基于随机傅里叶特征理论,我们构造了一种完全使用光学干涉产生的注意力机制kramers-kronig attention。当我们不再用光去模拟电,试图用光来做MAC,而是直接从基本的光学操作出发来构建神经网络,或许我们可以找到光子机器学习更为合理的底层范式。”
未来,团队将推动PTC向更大规模、更高集成度的光电混合系统发展,赋能大语言模型、自动驾驶、生成式AI等前沿应用。
主要作者介绍
田野:硅光芯片技术专家,长期从事硅基光电子技术,尤其是光子计算技术的研究,重庆市“鸿雁计划”人才,西安电子科技大学研究生兼职企业导师,奇波科技创始人。2008年获同济大学学士学位,2013年获国家纳米科学中心博士学位。2013年9月至2019年3月在湖南城市学院工作,历任讲师/副教授/物理与光电工程系主任。2015年获得国家留学基金资助在比利时根特大学从事博士后研究工作。2019年4月加入重庆联合微电子中心(CUMEC),2020年入选重庆市“鸿雁人才”计划,2022年3月进入西安微电子技术研究所工作,担任光电混合计算课题组长。曾带领团队首次完成基于国内自主硅光工艺线的有源光子人工智能芯片设计流片,提出了赝实数光子矩阵计算,kramers-kronig非线性激活等一系列原创性光计算方案。曾主持和参与科技部国家重点研发计划,国家自然科学基金,JKW创新特区,重庆市自然科学基金等项目多项。
项水英:西安电子科技大学教授/博士生导师,国家级青年人才,国家重点研发计划项目负责人,西安市光电计算与类脑智能重点实验室主任。长期从事光神经形态计算与光脉冲神经网络研究,以第一/通信作者在Optica、Laser&Photonics Reviews、PhotoniX、Opto-Electronic Advances、IEEE Transcations on Neural Networks and Learning systems、Photonics Research 等发表SCI检索论文140余篇(中科院1区、2区80余篇),应邀撰写光神经形态计算领域综述10篇,连续3年入选“全球前2%顶尖科学家榜单”,2025年获中国光学工程学会自然科学一等奖(排名第一)。曾入选2016年度国家博士后创新人才支持计划(合作导师:郝跃院士)。主持国家重点研发计划项目,国家自然科学基金5项(1重点+1优青+2面上+1青年),JKW前沿探索项目2项等。
郝跃:西安电子科技大学微电子学院教授,博士生导师,中国科学院院士。中国电子学会常务理事,陕西省半导体行业协会理事长,九三学社第十四届中央委员会常委和九三学社陕西省委主委、陕西省科学技术协会副主席。”核心电子器件、高端通用芯片和基础软件产品”国家科技重大专项实施专家组组长、国家自然科学基金委员会信息科学部主任、国务院第七届和八届学科评议组电子科学与技术一级学科召集人、高等院校电子信息类专业教学指导委员会主任委员、国家重大基础研究计划(973计划)项目首席科学家。长期从事新型宽禁带半导体器件和材料、新型微纳米半导体器件与材料等方面的科学研究与人才培养。在氮化镓和碳化硅第三代(宽禁带)半导体功能材料和微波毫米波器件、半导体短波长光电材料与器件、微纳米CMOS器件新结构、新器件和可靠性失效机理研究等方面取得了系统的创新成果。他是《电子学报》和《光子学报》主编,《西安电子科技大学学报》编委会主任,《Fundamental Research》副主编。
本文出处
发表于:PhotoniX
论文链接:
文献检索:
PhotoniX 6, 45(2025).https://doi.org/10.1186/s43074-025-00182-7
原文:https://mp.weixin.qq.com/s/mFRfnofmjAMWRZicUAiN5g
作者 PhotoniX