CCF新闻 ( ) • 2022-11-30 09:46

在即将于今年12月8-10日全线上举办的CNCC2022期间,118个涵盖计算+行业、人工智能、云计算、教育、安全等30个热门专业领域的技术论坛上,700余位专家将着力探讨计算技术与未来宏观发展趋势,并由各领域深具影响力的重磅学者专家担纲论坛主席。


本专题力邀CNCC2022技术论坛主席亲自撰稿,深度围绕论坛话题分享独家观点,带你提前走进CNCC,领略其特殊专业魅力!



图片


本期特别嘉宾:

刘鑫  国家并行计算机工程技术研究中心 研究员






智能加速科学计算,探索原理和数据驱动的新科学范式

作者:刘鑫

科学范式最早由美国科学哲学家库恩提出,哲学角度是形而上思辨,社会学角度是科学习惯和社会传统,科研角度是科研方法之方法论,是人工或构造的范式。


传统科学范式







人类最早的科学研究,主要以记录和描述自然现象为特征,称为“科学实验”(第一范式),以实验为主,从原始的钻木取火,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,开启了现代科学之门,主要用于描述自然现象。之后,科学家们通过演算进行归纳总结,这就是“理论研究”(第二范式),牛顿三大定律成功解释了经典力学,麦克斯韦理论成功解释了电磁学,但随着验证理论的难度和经济投入越来越高,理论研究开始显得力不从心。20世纪中叶,冯·诺依曼提出了现代电子计算机架构,利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,对复杂问题通过模拟仿真推演出越来越复杂的现象,比如核试验模拟和天气预报等。随着计算机仿真越来越多地取代实验,科学计算逐渐成为科研的常规方法,即第三范式。随着大数据和人工智能的出现,引发了基于数据驱动的第四范式,适用于基本原理不完备、缺少原始先验知识,但真实数据可大量获得的问题,如深度学习模型从数据中寻找特征和规律、解决现实问题,该类范式的瓶颈在于难以处理信息不完备问题,缺少完整的、可解释的泛化模型。 


图片


科学发现新的范式

——基于原理驱动的范式







随着问题规模的扩大和用户需求的拓展,很多传统科学计算类应用面临“维度灾难”问题,需要引入新的科学方法。这些科学计算应用的基本原理完备,但计算模型公式的内在变量过多,维数增加后计算量呈指数增长,现有高性能计算机依靠传统科学计算方法算不起。因此,很多学者开展新的基于原理驱动的智能方法加速科学计算研究,主要从已知的基本原理中获得先验知识,产生精准数据训练,使用人工智能加速计算和科学发现;或者通过强化学习自动搜索最优算法。如2020年“戈登·贝尔奖”获奖应用DeePMD[1]使用深度神经网络训练从原子坐标到原子势能的函数模型,基于顶点超算整机完成1.27亿铜原子计算,规模提升100倍、计算速度提高1000倍;2021年世界超算大会应用TensorKMC[2],将原子系统结构信息转换为卷积神经网络输入,基于新一代神威超算系统实现了54万亿原子的动力学模拟,计算规模进一步提升;2022年世界超算大会应用PEPS++[3]将量子多体问题的系统结构信息转换为卷积神经网络输入,通过迁移学习针对自旋系统从6x6网格迁移至36x36网格尺度,实现了自旋系统达2^1296的量子多多体模拟,同时针对费米子系统也实现了3^144的量子多体模拟。


图片


科学发现新的范式

——部分原理驱动+部分数据驱动的范式







我们也看到,对于某些基本原理不完备、不清楚的应用,基于原理驱动的科学范式很难奏效。比如传统计算方法精度差、有局限性,需要引入假设、简化模型的应用,湍流(经典力学难题)、密度泛函(量子力学难题)、蛋白质结构预测(生物计算难题)等,存在经验参数获取难、简化模型难以完全描述等问题,可能需要引入“部分原理驱动+部分数据驱动”的新范式。该类范式使用智能方法构建模型、学习实验数据间的隐含变量,修正传统模型的误差和问题,逐渐逼近真实机理。如DeepMind公司的蛋白质结构预测AlphaFold2[4]和电子结构预测应用DM21[5],其中AlphaFold2引入注意力机制,从大量计算数据和实验数据中学习预测蛋白质旋转和三维坐标,同时基于蛋白质结构的物理和生物学原理进行修正,蛋白质结构数量拓展到2亿个,时间开销降至分钟级;DM21基于2335个化学反应示例数据进行学习,同时使用电子结构计算的基本原理和数学模型修正,解决了传统密度泛函理论无法表示分数电荷和分数自旋的问题,首次揭示了电子密度与相互作用能量之间映射的确切本质。


图片

电子结构预测- DM21


参考文献

[1]Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning. SC 2020

[2]TensorKMC: kinetic Monte Carlo simulation of 50 trillion atoms driven by deep learning on a new generation of Sunway supercomputer,SC 2021 

[3]2^1296 Exponentially Complex Quantum Many-Body Simulation via Scalable Deep Learning Method. arxiv:2204.07816 2022

[4]Highly accurate protein structure prediction with AlphaFold. Nature 2021

[5] Pushing the frontiers of density functionals by solving the fractional electron problem. Science 2021


本年度CNCC大会拟组织第二届“人工智能在大规模科学计算领域的应用探索”技术论坛,从事大规模科学计算和智能计算研究的一线科学家们将齐聚一堂,这里面既有基于原理驱动的智能加速计算研究,也有部分原理驱动+部分数据驱动的智能加速计算研究,给大家带来领域交叉的深度研讨,敬请关注。


图片


论坛名称:第二届“人工智能在大规模科学计算领域的应用探索”


主席:刘鑫  国家并行计算机工程技术研究中心 研究员


会议日程:



顺序

主题

主讲嘉宾

单位

1

密码算法分析与设计的智能化

王美琴

山东大学

2

深度学习在地球系统科学中的应用与挑战

黄小猛

清华大学

3

机器学习给原子尺度模拟带来的机遇和挑战

陈默涵

北京大学

4

面向空天动力的超声速湍流燃烧智能仿真

安健

清华大学

5

基于机器学习与数值模式融合的海洋与气候预测预报探索研究

宋振亚

自然资源部第一海洋研究所


图片


CCF推荐

【精品文章】








CNCC是级别高、规模大的高端学术会议,探讨计算及信息科学技术领域最新进展和宏观发展趋势,展示计算领域学术界、企业界最重要的学术、技术成果,搭建交流平台,促进科技成果转换,是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士,还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家,CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是:算力、数据、生态。


CNCC2022将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动,让参会者畅快交流,燃爆全场。如此盛会,岂能缺席!等你来,马上行动,欢迎参会报名!



图片

图片