优享资讯 | 智能加速科学计算，探索原理和数据驱动的新科学范式

CCF新闻 ( ) • 2022-11-30 09:46

在即将于今年12月8-10日全线上举办的CNCC2022期间，118个涵盖计算+行业、人工智能、云计算、教育、安全等30个热门专业领域的技术论坛上，700余位专家将着力探讨计算技术与未来宏观发展趋势，并由各领域深具影响力的重磅学者专家担纲论坛主席。

本专题力邀CNCC2022技术论坛主席亲自撰稿，深度围绕论坛话题分享独家观点，带你提前走进CNCC，领略其特殊专业魅力！

本期特别嘉宾：

刘鑫 国家并行计算机工程技术研究中心研究员

智能加速科学计算，探索原理和数据驱动的新科学范式

作者：刘鑫

科学范式最早由美国科学哲学家库恩提出，哲学角度是形而上思辨，社会学角度是科学习惯和社会传统，科研角度是科研方法之方法论，是人工或构造的范式。

传统科学范式

人类最早的科学研究，主要以记录和描述自然现象为特征，称为“科学实验”（第一范式），以实验为主，从原始的钻木取火，发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段，开启了现代科学之门，主要用于描述自然现象。之后，科学家们通过演算进行归纳总结，这就是“理论研究”（第二范式），牛顿三大定律成功解释了经典力学，麦克斯韦理论成功解释了电磁学，但随着验证理论的难度和经济投入越来越高，理论研究开始显得力不从心。20世纪中叶，冯·诺依曼提出了现代电子计算机架构，利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及，对复杂问题通过模拟仿真推演出越来越复杂的现象，比如核试验模拟和天气预报等。随着计算机仿真越来越多地取代实验，科学计算逐渐成为科研的常规方法，即第三范式。随着大数据和人工智能的出现，引发了基于数据驱动的第四范式，适用于基本原理不完备、缺少原始先验知识，但真实数据可大量获得的问题，如深度学习模型从数据中寻找特征和规律、解决现实问题，该类范式的瓶颈在于难以处理信息不完备问题，缺少完整的、可解释的泛化模型。

科学发现新的范式

——基于原理驱动的范式

随着问题规模的扩大和用户需求的拓展，很多传统科学计算类应用面临“维度灾难”问题，需要引入新的科学方法。这些科学计算应用的基本原理完备，但计算模型公式的内在变量过多，维数增加后计算量呈指数增长，现有高性能计算机依靠传统科学计算方法算不起。因此，很多学者开展新的基于原理驱动的智能方法加速科学计算研究，主要从已知的基本原理中获得先验知识，产生精准数据训练，使用人工智能加速计算和科学发现；或者通过强化学习自动搜索最优算法。如2020年“戈登·贝尔奖”获奖应用DeePMD^[1]，使用深度神经网络训练从原子坐标到原子势能的函数模型，基于顶点超算整机完成1.27亿铜原子计算，规模提升100倍、计算速度提高1000倍；2021年世界超算大会应用TensorKMC^[2]，将原子系统结构信息转换为卷积神经网络输入，基于新一代神威超算系统实现了54万亿原子的动力学模拟，计算规模进一步提升；2022年世界超算大会应用PEPS++^[3]，将量子多体问题的系统结构信息转换为卷积神经网络输入，通过迁移学习针对自旋系统从6x6网格迁移至36x36网格尺度，实现了自旋系统达2^1296的量子多多体模拟，同时针对费米子系统也实现了3^144的量子多体模拟。

科学发现新的范式

——部分原理驱动+部分数据驱动的范式

我们也看到，对于某些基本原理不完备、不清楚的应用，基于原理驱动的科学范式很难奏效。比如传统计算方法精度差、有局限性，需要引入假设、简化模型的应用，湍流（经典力学难题）、密度泛函（量子力学难题）、蛋白质结构预测（生物计算难题）等，存在经验参数获取难、简化模型难以完全描述等问题，可能需要引入“部分原理驱动+部分数据驱动”的新范式。该类范式使用智能方法构建模型、学习实验数据间的隐含变量，修正传统模型的误差和问题，逐渐逼近真实机理。如DeepMind公司的蛋白质结构预测AlphaFold2^[4^]和电子结构预测应用DM21^[5]，其中AlphaFold2引入注意力机制，从大量计算数据和实验数据中学习预测蛋白质旋转和三维坐标，同时基于蛋白质结构的物理和生物学原理进行修正，蛋白质结构数量拓展到2亿个，时间开销降至分钟级；DM21基于2335个化学反应示例数据进行学习，同时使用电子结构计算的基本原理和数学模型修正，解决了传统密度泛函理论无法表示分数电荷和分数自旋的问题，首次揭示了电子密度与相互作用能量之间映射的确切本质。

电子结构预测- DM21

参考文献

[1]Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning. SC 2020

[2]TensorKMC: kinetic Monte Carlo simulation of 50 trillion atoms driven by deep learning on a new generation of Sunway supercomputer，SC 2021

[3]2^1296 Exponentially Complex Quantum Many-Body Simulation via Scalable Deep Learning Method. arxiv:2204.07816 2022

[4]Highly accurate protein structure prediction with AlphaFold. Nature 2021

[5] Pushing the frontiers of density functionals by solving the fractional electron problem. Science 2021

本年度CNCC大会拟组织第二届“人工智能在大规模科学计算领域的应用探索”技术论坛，从事大规模科学计算和智能计算研究的一线科学家们将齐聚一堂，这里面既有基于原理驱动的智能加速计算研究，也有部分原理驱动+部分数据驱动的智能加速计算研究，给大家带来领域交叉的深度研讨，敬请关注。

论坛名称：第二届“人工智能在大规模科学计算领域的应用探索”

主席：刘鑫国家并行计算机工程技术研究中心研究员

会议日程：

顺序

主题

主讲嘉宾

单位

密码算法分析与设计的智能化

王美琴

山东大学

深度学习在地球系统科学中的应用与挑战

黄小猛

清华大学

机器学习给原子尺度模拟带来的机遇和挑战

陈默涵

北京大学

面向空天动力的超声速湍流燃烧智能仿真

安健

清华大学

基于机器学习与数值模式融合的海洋与气候预测预报探索研究

宋振亚

自然资源部第一海洋研究所

CCF推荐

【精品文章】

CNCC是级别高、规模大的高端学术会议，探讨计算及信息科学技术领域最新进展和宏观发展趋势，展示计算领域学术界、企业界最重要的学术、技术成果，搭建交流平台，促进科技成果转换，是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra，以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家，CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是：算力、数据、生态。

CNCC2022将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动，让参会者畅快交流，燃爆全场。如此盛会，岂能缺席！等你来，马上行动，欢迎参会报名！