Nature | 降低光源品质可提升光计算性能
撰稿:董博维 牛津大学、周文 西安交通大学
人工智能的快速发展对芯片的算力和能效提出了新的挑战。与传统电芯片相比,光计算芯片使用光子在波导中的传输特性执行运算,有望将算力和能效提升数个量级。目前,中国在光计算芯片领域处于国际领先地位。清华大学、北京大学、华中科技大学、上海交通大学、复旦大学、浙江大学、西安交通大学、西安电子科技大学、香港中文大学等高校的研究团队都在积极推动光计算芯片的科研进展。曦智科技、光本位、光子算数、交芯科作为高科技初创企业正努力推动光计算芯片的产业化落地。
然而,大规模光计算芯片需使用多波长光源,如激光器阵列或光频梳。同时,光信号处理硬件也需要实现对波长和相位的精准调控。这类似往水池中的不同位置同时丢下多个石块,并要求在特定的观测点能够观测到固定的水纹。其精准调控虽然理论上可行,但调控和校准复杂,且需要巨大的调控成本,限制了大规模光计算芯片的发展。
近日,牛津大学Harish Bhaskaran教授(英国皇家工程院院士)课题组董博维(Bowei Dong)博士等研究人员,展示了一种新方法,使用单一光源即可运行大规模光计算芯片,无需复杂光源及片上波长、相位调控。该成果发表在Nature,题为“Partial coherence enhances parallelized photonic computing”。
研究人员发现,通过降低光源的相干性,可以有效消除光计算芯片中的相位噪声问题,避免复杂的相位调控,同时通过提升带宽利用率,可大幅提升光计算算力。研究人员在基于相变存储材料的存内光计算芯片和硅光电吸收调制器阵列光计算芯片两个平台内展示了这一新方法的优越性,并应用于处理卷积神经网络判别帕金森综合症患者的步态信息和图像分类。与现有技术相比,这项新技术有望将光芯片算力提升两个数量级,且通过降低系统控制复杂度大幅降低系统能耗。
反其道而行之:降低光源相干性
光学相干性可以粗浅地理解为光的波长一致性和相位可知性。从光谱上看,高品质相干光的线宽可窄至10-15米。激光是高相关性光源的代表:任意时刻波长一致、相位可知。过去的一个世纪内,科学家们专注于实现对光源波长和相位的精准控制,提升光学相干性(图1)。光学相干性的提高使得众多新兴应用成为可能:高品质显示、光通信及光互联、激光雷达、光计算等。因此,使用高相干性激光是实现新兴光应用的基本思路。已报道的光计算系统皆使用高品质激光作为光源。
图1: 提升光源相干性与光应用的发展
图源:董博维
最新发表在Nature上的工作,打破了使用高品质相干光光源这一思维惯性,反常规地探究了降低光源相干性对光计算芯片性能的影响,展示了低品质光源可提高光计算性能。
从原理上看,如图2所示,高相干光会发生干涉,对相位噪音极为敏感,需要精准的系统相位调控,使得光计算芯片难以往大型化发展。使用非相干光源(图2中)可以彻底消除相位噪音敏感性,但由于占用了整个频谱资源,无法通过波分复用的方式,进行并行光计算。本文提出了使用介于相干光和非相干光的中间态:部分相干光,在消除相位敏感性的同时依然可以利用光的波长复用优势。
图2: 不同光源相干性对相位噪声的敏感度
图源:Nature
大规模光芯片仅需一个低品质光源
为避免相位噪声所引起的干涉影响,现有方案是每个输入通道使用不同波长的光源(图3左),即波长数量等于输入通道数量。这些光源需要精准的波长控制。更重要的问题在于由于有限的带宽,光芯片的可用波长是有限的。假设光计算芯片的工作带宽是80纳米,多波长光源信道间隔为0.8纳米,进行数据传输,光计算芯片最多支持100个波长。这意味着此光计算芯片只能支持100个输入端口,且无法通过波分复用执行并行运算。
通过降低光源相干性,使用部分相干光源,相位敏感性可被彻底消除,一个窄带部分相干光即可应对多个输入通道(图3右)。这一方法解耦了波长数量与输入通道数量的关联性。依旧假设光计算芯片的工作带宽为80纳米,部分相干光源的线宽为0.8纳米,如果光源输出功率足够强,此时输入通道数可为任意大小,且计算并行度可高达100,从而提供比传统相干光源光计算系统更高的算力。
研究人员通过实验验证了这一假设。如图4a所示,若在光计算系统的多输入通道中使用单一激光,由干涉会引发明显的强度扰动,影响计算结果(图4b)。若使用单个部分相干光光源,通过分束和引入光程差,当光程差大于相干长度时,部分相干光信号不会产生干涉现象,从而在光芯片的输出端观测到强度扰动被彻底消除,得到稳定的计算结果(图4c)。图4c中使用的部分相干光源是将掺铒光纤放大器(EDFA)的电泵浦噪音通过光学解复用器过滤获得的,占用带宽为0.8纳米。
图4: 部分相干光彻底消除干涉引起的光强扰动,使单一光源驱动任意大小的光计算芯片成为可能
图源:Nature
医疗监测和图像处理应用
研究人员构建了两个使用部分相干光光源的光计算系统,并展示了其在医疗检测和图像处理中的应用。图5a展示了硅光电吸收调制器阵列光计算芯片,包括9个输入通道和3个输出通道。该芯片每通道的数据加载率为2 GSa/s (每通道每秒输入2×109个数据),可执行总共0.108 TOPS (每秒108×109次乘加运算)的高速图像卷积处理,预估能效为1 TOPS/W(每次运算消耗10-12焦耳),针对MNIST手写数字数据集的分类准确率达到93.9%。图5b展示了基于相变存储材料的存内光计算芯片,包括3个输入通道和3个输出通道,针对十个帕金森综合症患者的步态分辨准确率达到92.2%。
图5: 用于高速图像处理的硅光电吸收调制器阵列光计算芯片和用于医疗监测的存内光计算芯片
图源:Nature
总结
该工作通过反常识地降低光源品质,可提升光计算性能。通过使用部分相干光源驱动光计算系统可实现:
(1)避免大量激光器的使用,大幅降低了光源的制造和控制成本。
(2)消除系统的相位敏感性,无需片上相位控制,简化了系统操作,降低了系统控制能耗。
(3)解耦输入带宽和输入通道数量的关联性,仅用一个部分相干光源即可对应任意输入通道数量的光计算芯片,大幅提升系统总算力。
这一工作表明了低品质、低成本的光源可用于实现更高性能的光计算芯片,进一步增强了光计算芯片的产业化潜力。消除系统相位敏感性及解耦带宽和通道数的相关性,使得大规模光计算芯片成为可能,有望赋能大模型人工智能神经网络硬件。这一工作指出,传统观点所认为的新兴光应用需要高品质相干光源未必是必须的,低品质光源或许是更优的选择。
论文信息
Dong, Plückelmann, et al. Partial coherence enhances parallelized photonic computing. 632, 55-62, Nature(2024).
免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间联系我们,我们将协调进行处理,最终解释权归旭为光电所有。