喜报
近日
我校数学与统计学院
周声龙教授、罗自炎教授
在 Nature 子刊
国际顶级人工智能期刊
Nature Machine Intelligence
在线发表重要创新成果
该研究成果以“Preconditioned Inexact Stochastic ADMM for Deep Models”为题,得到了国家重点研发计划和国家自然科学基金的支持。周声龙教授为第一作者和通讯作者。
这是一项怎样的研究?
交交通通这就为大家介绍——
基础大模型的快速发展正在全球范围内引发范式转变,重塑众多领域。长期以来,用于训练这些模型的主流优化器都是基于随机梯度下降算法开发的,所以存在固有局限,如收敛速度慢,以及对收敛要求苛刻的假设。尤其在分布式环境中出现的数据异质性,会对这些算法的理论分析和数值性能带来巨大挑战。
本文提出了一种新算法:预条件非精确随机交替方向乘子法(PISA),突破了深度学习优化领域的四大核心瓶颈:收敛效率低、强假设依赖、计算复杂度高、泛化性不足。该算法在有界区域上梯度李普希兹连续这一弱假设下,即可线性收敛,有效解决了数据异质性难题。其核心创新在于通过预条件化框架整合二阶信息、动量与正交化技术,支持高效并行计算。衍生变体SISA/NSISA在视觉模型、大语言模型、强化学习、生成对抗网络等训练/微调中,收敛速度、精度与稳定性超越主流优化器。通过多维度实验验证(数据异质性场景、多模型架构、多任务类型),变体SISA/NSISA在多个数据集上,面对标签偏斜等异质性问题时准确率提升显著,如在MNIST 1-label完全偏斜场景下,准确率从54.33%提升至94.97%;在训练大语言模型时,随参数量增加优势扩大,如全量微调GPT2-XL(15亿参数)时间至少缩短一半。
核心发现
理论突破
PISA仅需“有界区域上梯度Lipschitz连续性”这一弱假设即可收敛,无需数据独立同分布、梯度有界、方差有界等强约束,能有效处理数据异质性;
算法创新
预条件化框架可灵活整合二阶信息、二阶矩、正交化动量等,显著提升优化效率,且支持并行计算,适配大规模场景;
泛化性强
变体SISA(二阶矩预条件)和NSISA(牛顿-舒尔茨正交化动量预条件)计算高效,在视觉模型、大语言模型、生成对抗网络等多种架构上泛化性强;
计算高效
通过不精确求解子问题和随机梯度替代,大幅降低计算复杂度,解决了传统ADMM难以适配大规模深度学习的痛点;
性能优异
在数据异质性场景下,算法性能优势远超联邦学习优化器;在其他深度学习任务中,收敛速度、预测精度和稳定性超越主流优化器。如在训练生成对抗网络时,SISA的测试FID值(用来衡量生成图像与真实图像接近程度)为85.07,较Adam的95.06,降幅约为10.5%。
文章链接:https://doi.org/10.1038/s42256-026-01182-3
代码链接:https://github.com/Tracy-Wang7/PISA
周声龙
北京交通大学
数学与统计学院教授
博士生导师
英国南安普顿大学博士,于2007和2011年分别获得北京交通大学本科和硕士学位,于2018年获得英国南安普顿大学博士学位,之后在该校担任副研究员和讲师。于2021至2023年在伦敦帝国理工担任副研究员。研究方向为最优化理论与方法,以及在机器学习、人工智能、信号处理等领域中的应用。在国际顶级和权威期刊发表SCI论文50余篇,如人工智能和机器学习顶刊Nat Mach Intell、IEEE TPAMI、JMLR,最优化顶刊MOR、SIOPT、SISC、ACHA,信号处理顶刊IEEE TSP。入选2022年国家级青年人才计划、获批2023年国家重点研发计划青年科学家项目。
罗自炎
北京交通大学
数学与统计学院教授
博士生导师
中国运筹学会数学规划分会副秘书长,中国运筹学会女性工作委员会委员,中国运筹学会算法软件与应用分会理事,中国高等教育学会教育数学专业委员会资深理事。曾访问美国斯坦福大学、新加坡国立大学、香港理工大学、英国南安普顿大学等。主要从事张量优化、稀疏优化及统计优化的理论、算法及应用研究,在Nat Mach Intell、SIOPT、MP、MOR、IEEE TSP、IEEE TWC、JMLR等顶级期刊发表学术论文,合著SIAM出版社英文专著1部,曾获教育部自然科学奖二等奖、中国运筹学会青年科技奖提名奖、2023年入选国家级青年人才计划。

为实现高水平科技自立自强
推进强国建设、民族复兴历史伟业
贡献交大智慧!