科学智能(AI4S)全球发展观察与展望.pdf

资源描述

科学智能(AI4S)全球发展观察与展望 2023 版 AI for Science Global Outlook 2023 Edition 2 AI4S global outlook 2023 Edition This version is updated on Aug 9,2023 3 AI4S global outlook 2023 Edition 前言：AI for Science 已进入加速涌现期 2022 年底，ChatGPT 横空出世，并以超过 iPhone,微信,抖音等科技产品的速度在短短数周的时间内达到 1 亿用户。在随后的 2023 年，GPT 和其他生成式 AI 技术品类占据了科技讨论的绝对中心。从国内到国外，从几个人的初创企业到十万人的科技巨头，AI 的赛道上摩肩接踵。2022 年的秋天，我们发布的第一版AI for Science 全球发展观察与展望（简称展望），获得了来自各界的认可和支持。在 AI 大发展的 2023 年，各界也在敦促我们对过去一年的发展进行追踪并阐述其如何影响 AI for Science 的发展路径。响应读者的热情，我们决定对展望进行重构，新增一倍的新内容，并对已有内容进行大幅更新，以反映相关技术、产品、产业、政策的演化，并以全新的框架重新梳理 AI for Science 的要素、沿革、展望，并详尽描述其在各行各业的实践。10 年前的耶鲁大学礼堂上，Peter Thiel 说到：“We wanted flying cars,instead we got 140 characters.”10 年后的今天，这句话依然成立。千禧年以来，海量的科学人才涌入互联网科技行业，带来生产和协作方式的变革，创造了巨量的财富。而随着互联网热潮渐渐褪去，人们重新把目光聚焦回科学本身，以及它们所映射的实体经济领域上。科学技术是第一生产力。科技革命的历史波澜壮阔。过去三百年间，科学行进经历过数次系统性危机，正是这些危机的解决才带来了科学的突破，新科学经由新工具的应用和普及，进而带来生产力的大幅提升。时至今日，随着数字化时代的到来，科技创新转化为直接生产力的速度越来越快。面对纷繁复杂的现实世界，虽然数据越来越丰富，但是寻求简单、漂亮的洞见却变得越来越难；各行业的技术专家也深受困扰：控制和设计的自由度越来越多，“炒菜式”的试错和喊口号式的攻坚也越来越难以解决实际问题此时，AI 来了。从艾伦图灵的系统思考开始，伴随着算法、算力、数据的融合发展，AI 在计算机视觉、自然语言处理，自动驾驶等领域大放异彩。但AI 若想从一套“数据处理”工具，走向更加通用的“智慧”，则无法绕开“科学”这一人类智慧结晶中最精华的一部分。于是，一群人先行者开始探索用 AI 学习科学原理，解决科学问题的路径。他们发现，当下AI 取得成就的本质原因是在算力和数据基础之上算法对高维函数处理能力的大幅提升，这一能力是应对当下系统性危机的关键；他们发现，AI 是驱散Science 各领域的乌云的法宝，AI for Science（AI4S）会是 AI 的下一个主战场，它将极大地拓展Science 和 AI 的边界；他们发现，AI4S 将赋能技术和工业的方方面面，帮助我们加快走完科学研究和技术创新之间的最后一公里，也将帮助科学家从纷乱的自然和社会特征之中抽丝剥茧，发现事物背后作用着的关键规律。AI4S 的未来正在走向流行。AI 求解薛定谔方程、AI求解控制论方程、AI 加速分子模拟、AI 预测蛋白结构、AI 赋能药物和材料设计在 2022 年版展望发表不到一年的时间中，AI for Science 的发展依然超出了我们的预期：在国内，2023 年科技部会同自然科学基金委启动“人工智能驱动的科学研究”（AI for Science）专项部署工作，布局“人工智能驱动的科学研究”前沿科技研发体系。科技创新 2030“新一代人工智能”重大 4 AI4S global outlook 2023 Edition 项目也将 AI for Science 作为人工智能的重要发展方向进行安排。在指南中，部署了“重大科学问题研究的 AI 范式”任务，面向地球科学、空间科学、化学和材料科学、生物医药科学等领域重大科学问题开展创新研究。同时，面向国际竞争激烈的蛋白质结构预测领域，支持国内优势团队开展科研攻关。在平台支撑方面，科技部正在加快推动公共算力开放创新平台建设，将为 AI for Science 发展打造智能算力基座。国际上，Elon Musk 官宣 x.ai，其理念为“建立理解自然规律的人工智能系统(understand the true nature of the universe)”；前谷歌掌门人 Eric Schmidt 宣布捐出 1.48 亿美元成立 AI for Science 博后奖学金，已布局 9 所大学；微软宣布成立专门的 AI4science 部门；英伟达联合 IIT 发布 AI for Science 公开课程；龙头药企赛诺菲宣布“all-in”AI for(life)science；美国能源部联合 5 大国家实验室发布 AI for Science,Energy&Security 先进科研课题指引；OECD 面向全球政策制定者发布 AI in Science 的综述与政策建议.从学界到业界，从产业到政府，从生命科学的 RFDiffusion、到化工领域的 Open Catalyst、到材料科学的 Uni-Mol，各行各业的优秀 AI for Science 应用正在加速涌现，AI for Science 已成燎原之势。AI4S 发展路上也将充满挑战。它呼唤各行各业的人们打破壁垒、凝聚共识、创造连接、形成迭代。拨云见日的路上，真理与泡沫、洞见与偏见差别，均在毫厘之间。站在这个科技革命的时代转角，北京科学智能研究院（AISI）、深势科技、全球最大AI4S 开源社区 DeepModeling 的核心开发者与 AI4S产业实践的先行者，和 AI4S 传播者络绎科学一道，整理了数十家领先企业和科研机构的经验方法，编写成册。道阻且长，行则将至。希望这份 2023 版展望将陪伴每一个关心与关注 AI for Science 的人度过每个春秋，见证这场发生在当下的科技革命，从花开花落走向硕果累累。5 AI4S global outlook 2023 Edition 目录前言：AI FOR SCIENCE 已进入加速涌现期.3 出品团队.11 PART I：AI FOR SCIENCE 原理与发展框架.12 第一章：AI FOR SCIENCE 的“四梁N柱“.13 1.1 什么是 AI for Science(AI4S).14 1.2 AI与科学研究范式的变迁.16 I.模型驱动：AI 加速计算求解.17 II.数据驱动：AI 处理科学大数据.20 III.模型与数据的融合：AI for Science 的系统工程.21 1.3 大语言模型（LLM）：AI 与 Science 共生的桥梁.22 I.AI 作为人与知识交互接口的可能性.22 II.如何评估和提高AI 对科学知识的处理能力.24 III.科学哲学引导我们对 AI 的理解和使用.26 小结：可预见的未来，LLM 无法取代自然科学大模型.28 1.4 AI4S的相关要素.30 I.机器学习算法/预训练模型.31 II.算力基础设施：异构计算/云计算/超算中心.32 III.软硬件数据基础设施.34 IV.科学计算与工业仿真软件.36 V.先进表征手段/科学数据集.39 VI.AI for Science 算法核心：实现物理约束的强弱形式.40 VII.高通量实验/自动化实验室.43 VIII.从小作坊到开放式平台：跨学科复合能力人才与大规模协作.44 IX.长期主义的产业政策与产业资本.46 1.5 AI4S的发展阶段.47 6 AI4S global outlook 2023 Edition I.概念导入期（2016-2021）.48 表1.2016-2021 AI4S代表性成果（摘选）.49 II.大规模基础设施建设期（2021-2026）.50 III.成熟应用期（2026年及以后）.51 IV.AI4S的长期愿景是发现新的科学原理.52 1.6 2023版展望核心观点：AI4S“四梁 N 柱”的发展框架与新基建思路.54 I.基本原理与数据驱动的算法模型和软件系统.56 II.高效率、高精度的实验表征系统.60 III.替代文献的数据库与知识库系统.64 IV.高度整合的算力平台系统.69 PART II:AI FOR SCIENCE 的产研实践.73 第二章：AI FOR LIFE SCIENCE 原理与实践.74 2.1 生命科学中的AI4S.75 2.1.1 生命科学走入AI时代.75 2.1.2 AI4S推动生物机理的探索.77 表2：AI4S在多组学中的应用.81 2.1.3 基因+AI4S在靶标发现和精准医疗中的利用.82 2.2 AI4S驱动的药物研发.86 2.2.1 药物研发的现状与挑战.86 2.2.2 AI4S药物研发新范式.89 表3：药物研发流程中的各步骤的挑战和AI4S范式.89 I.靶点蛋白结构解析、功能机理探索和理性设计.93 II.AIGC：基于靶点空间构象的分子设计.100 III.从 Docking 到 FEP：AI增强”靶点-药物配体”亲和力评估与高通量筛选.102 IV.预训练大模型驱动 ADME/T 等药物分子性质预测.105 V.合成预测及自动化实验.107 VI.CMC药剂学优化.107 AI4S实践（1）：AIGC 推动蛋白理性设计，David Baker 团队发表 RFDiffusion.109 AI4S实践（2）：Uni-RNA 预训练大模型在广泛下游任务达到 SOTA 性能.110 2.2.3 AI4S驱动制药行业的 De Novo Design.112 2.3 合成生物学与现代农业.114 2.3.1 AI4S在合成生物学中的应用实践.114 2.3.2 AI4S在现代农业的应用.118 7 AI4S global outlook 2023 Edition 第三章：AI FOR MATERIAL SCIENCE 原理与实践.121 3.1 材料研发的核心是建立准确的构效关系.122 图表4：材料研发领域的多尺度问题和AI4S示例.125 AI4S实践（3）：深势团队荣获领域最高荣誉“Gordon Bell Prize”；并不断突破极限，实现170亿原子的第一性建模，将分子动力学带入新时代.126 AI4S实践（4）：DPA 原子间势能预训练大模型驱动性质预测和新科学发现.128 3.2 金属材料中的AI4S应用.129 3.2.1 合金材料.129 AI4S实践（5）：Nature 正刊报道AI4S 助力高熵合金纳米颗粒的设计与工艺仿真.130 AI4S实践（6）：DP+CALYPSO自主方案将结构搜索能力提高万倍，助力合金理性研发.131 3.2.2 催化材料.132 AI4S实践（7）：Parrinello 团队使用 AI4S 对百年化学工艺“铁催化-哈勃法“进行探究.133 AI4S实践（8）：Meta AI+CMU Open Catalyst 项目提供 AI4S“四梁“支柱.135 3.3 高分子材料的AI4S应用.136 AI4S实践（9）：聚合物结构和溶液中动态性能数据驱动粗粒度建模.137 3.4 陶瓷和无机材料的AI4S应用.139 3.4.1 陶瓷.139 AI4S实践（10）：ACS Nano 收录哈工大团队陶瓷结晶过程模拟仿真算法.140 3.4.2 水泥.142 3.4.3 纳米材料.143 I.人造钻石.144 II.石墨烯.145 III.碳纳米管.146 IV.碳炔.147 V.MXenes二维过渡金属碳化物等衍生材料.147 3.4.4 金属有机框架（MOF）.150 AI4S实践（11）：IBM Research 使用 AI4S 研究“MOF 捕获CO2”命题，助力绿色未来.151 3.5 复合材料的AI4S应用.152 AI4S实践（12）：自然通讯收录Monash大学复合材料原位纳米析出机理研究.153 3.6 AI4S赋能材料研发的 De Novo Design.154 第四章：AI FOR ENERGY SCIENCE 原理与实践.155 4.1 能源行业的现状和挑战.156 8 AI4S global outlook 2023 Edition 4.2 化石能源与AI4S.157 I.AI4S+流体力学/燃烧流体仿真.157 II.AI4S+燃烧反应过程.159 III.AI4S+燃烧污染机理研究.160 IV.AI4S+高能材料.162 表5.燃烧中的科学问题与AI4S实践.164 AI4S科研实践（13）：DeepFlame “AI4S原生”的燃烧流体仿真.166 AI4S科研实践（14）：自然通讯收录华东师范大学团队航空发动机燃烧反应路径研究.167 4.3 电池与AI4S.168 4.3.1 电池研发的特点：多场景，多尺度，多技术栈.168 4.3.2 AI4S 解决电池研发的”多尺度”与”干湿结合”难题，加快能源新材料开发应用效率.170 表6：主要电池材料体系的理论优势、技术难点和AI4S的实践示例.174 AI4S实践（15）：AI4S帮助中科院物理所、字节跳动等开发新型硫化物固态电解质.176 AI4S实践（16）：AI4S先进科研平台助力北京大学许审镇组在顶刊JACS发表复杂固态电解质界面 SEI 机理研究.178 AI4S实践（17）：三星研究院(SRC-B)使用 AI4S 实现SEI 形成过程超长仿真.179 4.3.3”Beyond Lithium”-AI4S赋能钠电池的基础理论建设.180 AI4S实践（18）：Energy Environ.Sci等期刊收录AI4S钠电池固态电解质研究，发现提高核心参数电导率的新理论思路.181 4.4 太阳能与AI4S.182 AI4S实践（19）：DeePKS 基于钙钛矿带隙预测的高通量筛选技术路线.185 4.5 核能与AI4S.186 AI4S实践（20）：DeepMind 更新其核聚变物理仿真能力，等离子体控制精度高达65%.188 4.6 氢能源与AI4S.189 4.7 热电技术与AI4S.190 4.8 储能技术与AI4S.191 I.化学储能.192 II.热储能.192 第五章：AI FOR ELECTRONIC ENGINEERING&COMPUTER SCIENCE原理与实践 193 5.1 半导体材料与工艺.194 表7：半导体设计与工艺中的AI4S.196 5.1.1“More Moore”-AI4S 为硅半导体先进制程开发提供新工具.197 9 AI4S global outlook 2023 Edition AI4S实践（21）：湖南大学利用AI4S方法将半导体掺杂工艺仿真速度提高数万倍.199 AI4S实践（22）：ACS Appl.Mater.Interfaces报道原子层沉积(ALD)的化学反应动力学模拟，推动半导体工艺仿真的数字孪生.200 AI4S实践（23）：AI4S模拟仿真硅基半导体在太空等极端工况条件下辐照损伤.201 AI4S实践（24）：AFM 报道高k材料ZrO2反铁电效应在工况中工作与失效机理.202 5.1.2“More than Moore”-AI4S探索第三代半导体技术路线.203 AI4S实践（25）：从量子力学到有限元，多尺度研究 GaN-BAs 高性能功率半导体器件.205 5.2 显示材料.206 AI4S实践（26）：Advanced Optical Materials报道基于自然科学大模型的高通量 OLED 材料配方筛选工作流.207 5.3 信息存储和传输.209 AI4S实践（27）：AI4S构建二维铁电材料精确力场，为FeRAM的发展增加理论储备.210 5.4“AI设计芯片”与“AI专用芯片”.211 AI4S实践（28）：npj Computational Materials收录湖南大学利用非冯架构加速AI分子动力学模拟的工作.213 第六章：AI FOR EARTH&ENVIRONMENTAL SCIENCE 原理与实践.214 6.1 地质学.215 6.1.1 地球物理学（Geophysics）.216 AI4S实践（29）：自然通讯报道 AI赋能基础科学研究地球内核对地震的影响.217 6.1.2 同位素地球化学（Isotope geochemistry）.219 6.2 环境科学.221 6.2.1天气预测.221 AI4S实践（30）：从 DeepMind 到华为、AI for Science 不断突破气象预测.222 AI4S实践（31）：自然通讯报道AI4S 助力宏观气象现象的微观机理研究.225 6.2.2 污染治理与碳中和.226 AI4S实践（32）：Science收录加州大学伯克利团队成果：揭示并模拟影响空气质量和气候的关键原理过程，为解决酸雨等问题提出新理论.229 6.2.3 海水淡化.230 第七章：浅谈AI FOR 工业仿真的机遇.233 7.1 生成式设计.233 AI4S实践（33）：Autodesk Research 使用 AIGC 将公共卫生需求融入房屋设计.235 10 AI4S global outlook 2023 Edition 7.2 逆设计/逆问题.236 7.3 设计验证（正向模拟仿真）.238 PART III：AI FOR SCIENCE 应用案例和产业观点.241 宁德时代：拥抱 AI4S 攻坚电池、光伏能源新材料.243 中国石化石油化工科学研究院：结合 AI4S 与化工催化场景.248 多氟多：AI4S干湿结合，形成纳电掺杂问题科研生产力.250 金羽新能：AI4S 驱动高通量筛选工作流.252 英矽智能：端到端AI4S实现”First-in-class”药物的高效研发.253 晶泰科技：AI 药物发现+自动化实验.254 剂泰医药：AI+药物递送.256 未知君：LLM+微生物基因组.258 德睿智药：AI 加速药物发现.259 青云瑞晶：结构解析.260 中国人民大学高瓴人工智能学院.261 北邮网络与交换技术全国重点实验室.262 浙江大学材料学院.263 厦门大学信息材料与工业智能实验室.264 西湖大学人工智能与科学仿真发现实验室.268 清流资本：投资像AI4S这样的前沿科学领域是一种“双赢”策略.271 元璟资本：AI能更大幅度的推动人类社会的发展.272 九合创投：AI for Science有望推动更多技术平台的诞生.273 创世伙伴：加速跨学科“合作共赢”的规模化成果.274 结语：理性之光再次照亮科学大地.275 附录 1：学术及产业各界声音*.276 附录2：AI4S相关论文索引*.281 11 AI4S global outlook 2023 Edition 出品团队联席主编张林峰孙伟杰李鑫宇王小佛*科学顾问鄂维南内容团队白晓矿陈帜戴付志邓杰高志峰胡太平李航刘杰欧琪许审镇王一博王晓旭王冬冬王宇航王涵王沁蕊文通其温瀚向上谢莹莹宋宁孙晓琦张天汉张与之朱正诞联合发布北京科学智能研究院深势科技络绎科学首席发布媒体新华网 -特别鸣谢北京市科学技术委员会北京大学声明:本报告最终解释权归深势科技所有，侵权必究*申请授权请致信 prdp.tech PART 1：12 AI4S global outlook 2023 Edition PART I：AI for Science 原理与发展框架 13 AI4S global outlook 2023 Edition 第一章：AI for Science 的“四梁 N 柱“14 AI4S global outlook 2023 Edition 1.1 什么是 AI for Science(AI4S)2023 年这个夏天，全球遭受前所未有热浪、野火和洪水的极端天气攻击。面对这些挑战，英伟达采用 AI 技术，构建名为地球 2 号的“数字地球模型”，以更精确地预测这些极端事件。地球 2 号依赖于 FourCastNet AI模型，利用了数十 TB 的地球系统数据，能以数千倍速度提高预测准确性，预测未来两周的天气状况。与一般只能生成大约 50 种未来一周预测的天气预测系统相比，FourCastNet 能预测出成千上万种可能性，准确捕捉罕见而致命的灾难风险，从而给弱势群体争取宝贵的准备和疏散时间。事实上，气象科学仅是受益于 AI 发展的众多科学学科之一。AI 的出现正在带动科学研究的激动人心的转变，并且影响正在扩散到实验室之外，深入到我们所有人的生活中。如果我们能明智地采取行动，制定合适的监管措施，并适当支持 AI 在解决科学最紧迫问题方面的创新应用，AI 就有可能彻底改变科学过程。这样的愿景，我们称之为 AI for Science。我们期待一个由 AI 驱动的未来，在这个未来，AI 工具可以解放我们从繁琐乏味和耗时的劳动中，同时引导我们进行创新性的发明和发现，促使本应需要几十年的突破提前实现。近期，AI 的讨论几乎等同于大型语言模型(LLM)的讨论。随着 GPT 在各行各业的爆发，“是否能将 LLM 用于科研场景”成为了一个水到渠成的问题。当 ChatGPT 超越大部分人类在高考、SAT、美国法考、医考等领域取得令人咋舌的高分后，人们对于 LLM 驱动科研的兴趣愈发高涨。一方面，LLMs 使得知识的提取和综合变得高效、便捷。通过解密和呈现复杂的科学信息，LLM 大大降低了学者进入新领域的门槛，推动交叉学科的发展。另一方面，LLMs 可以加速并改进知识贡献的过程。利用 LLMs 进行多步推理和决策的能力，研究人员可以在科学文献的迷宫般的广度中找到最相关的论文。同时，LLMs 能提供语言方面的帮助，帮助构建逻辑叙述并确保连贯性，使得研究人能更从容的驾驭复杂的观点表述，从而促进世界范围科学的异步交流效率和规模。然而，对 AI for Science 的讨论远不止步于 LLM 在科学领域的应用。究其根本，LLM 面向的是一维的字符串数据结构，而科学领域的数据类型纷繁多样，即有一维的基因序列，也有二维的分子图、三维的分子坐标、N 维的波函数。因此，在具体的科学领域中，使用专门的模型架构很可能比使用基于 LLM 的迁移模型更为直接有效。在过去的十年中，科学领域的大部分进步都源自于针对特定问题的模型。最近，人们开始使用融合专业领域知识和深度学习/预训练策略来构建更强大的领域专用模型。举例来说，McMaster 和 MIT 的科学家利用 AI 模型成功识别出了一种抗生素，该抗生素能够对抗世界卫生组织认为是对住院患者最危险的抗生素耐药细菌之一的致病菌。谷歌 DeepMind 的一个模型成功控制了核聚变反应中的等离子体，为清洁能源革命的到来更近一步。在医疗保健领域，美国 FDA 已经批准了 523 种使用 AI 的设备，其中 75%用于放射学。1 这些令人兴奋的研究，并不是无源之水，更不是“拿着锤子找钉子”的 AI 万能论。首先，将复杂的科学问题表述为 0101 的计算机语言本身就是极难的任务，需要能融合“基本原理与数据驱动的算法模型和软件系统”；同 15 AI4S global outlook 2023 Edition 时，为了给 AI 提供高质量的训练数据，我们也需要高效率、高精度的实验表征系统；第三，我们需要最大化利用 LLM 给科研效率带来的提升，建立“替代文献的数据库与知识库系统”；第四，以上的智能系统都需要运行在“高度整合的算力平台系统”之上。以上的考量，我们将其概括称为 AI for Science 的“四梁”，而将 AI for Science 落地于各个学科和交叉学科领域的系统性工程，我们讲其统称为“N 柱”。后续的章节会围绕着“四梁 N 柱“进行详尽的讨论。而完成”四梁 N 柱”的系统建设，一来要面临着高度抽象化的领域知识门槛，二来要摆脱“作坊模式”推动科研想“平台模式”转变，这其中科学问题与工程问题相互交织，相互影响，因此推动科学家与工程师的充分协作是高效实现 AI for Science 时代科研基础设施建设的关键因素。前计算机时代（400BC-1946）计算机时代(1946-2020)AI4S 时代(2020-)主要科研方式数学推演（纸笔）“假设”-“实验“将部分复杂科学问题转换为相对简单的计算问题实现粗粒度建模，在此基础上进行大量实验验证 2 利用 AI 求解高维函数的优势实现高精度高效建模、高通量筛选，并有针对性的进行实验验证主要成就经典物理模型、量子力学的雏形微观世界的初步探索、宏观尺度科学成果的大规模应用（航空、汽车、能源、通讯等）微观世界的多尺度探索、宏观+微观尺度科学成果的应用（新材料、新能源、生化、信息）主要瓶颈缺少高效计算手段维度灾难“四梁”Source:1 source:https:/ University,https:/www.princeton.edu/hos/Mahoney/articles/mathnat/mathnatfr.html 16 AI4S global outlook 2023 Edition 1.2 AI 与科学研究范式的变迁自文艺复兴以来，科学研究基本上是按照“开普勒范式”和“牛顿范式”这两种不同的范式展开：开普勒范式是一种数据驱动的研究方式，通过对数据的分析寻找科学规律并解决实际问题，其经典案例是行星运动的开普勒定律；随着统计方法和机器学习的发展，数据驱动的“开普勒范式”研究方法已经成为一种非常强大的工具。数据驱动的研究方法能有效地帮助我们在缺乏明确原理的场景解决具体问题。但是该类方法的可解释性较弱，很难解释结论背后的原因。牛顿范式是一种基于第一性原理的研究方式，其目标是发现物理世界的基本原理，其经典案例包括牛顿、麦克斯韦、玻尔兹曼、爱因斯坦、薛定谔等人的理论工作。1 对第一性原理的追求很大程度上驱动了物理学的发展。1929 年，随着量子力学的建立，这条道路出现了一个重大转折点：正如狄拉克1 所宣称的那样，有了量子力学，除一些极端尺度下的情形以外，我们已经掌握了大多数工程和自然科学所需要的基本原理。即便如此，当人们希望使用这些原理来求解真实场景的复杂物理模型时，往往发现所需的计算量过大，而陷入“空有原理缺无法有效使用”的境地。从启蒙运动到工业革命到如今，上述两种泛式支撑了人类文明的演进并形成了今日丰富灿烂的经济社会。而在未来的发展中，AI 能扮演的角色，即是进一步推进科学在这两个泛式下的发展速度和高度。17 AI4S global outlook 2023 Edition I.模型驱动：AI 加速计算求解“牛顿范式”中，基于第一性原理的研究方法旨在从最基本的层面理解事物。对第一性原理的追求很大程度上驱动了物理学的发展。1929 年，随着量子力学的建立，这条道路出现了一个重大转折点：正如狄拉克2所宣称的那样，有了量子力学，除一些极端尺度下的情形以外（如核物理），我们已经掌握了大多数工程和自然科学所需要的第一性原理。然而，也正如狄拉克所指出的那样，描述量子力学基本原理的数学问题异常复杂。困难之一在于它是一个多体问题：每加上一个电子，问题的维数便增加了三。事实上，第一性原理方法经常面临的困境是：尽管它很深刻，但它不太有用。因此，在实践中，我们常常不得不放弃严格优雅的理论，而采取经验的、非系统的近似方法。我们为此付出的代价不仅仅是丢失了严格和优雅，还有结果的可靠性和普适性。二十多年前，多尺度、多物理建模的想法曾经给该问题的解决带来一线希望：通过将小尺度下的无关紧要的自由度整合起来，人们应当能够直接使用更可靠的微观尺度模型，为我们感兴趣的宏观尺度过程提出更为有效的算法。然而不同微观尺度模型本身也并不总是可靠，同时虽然多尺度方法能够大幅减少微观模拟所需时间，但仍然超出了目前的能力。这就意味着我们仍需要处理物理模型的新方法来应对“维度灾难”问题。量子力学的奠基人之一 1933 年与薛定谔一起获得诺贝尔物理学奖的 Paul Dirac 曾这样表述科学研究的困境：“The underlying physical laws necessary for the mathematical theory of a large part of physics and the whole of chemistry are thus completely known,and the difficulty is only that the exact application of these laws leads to equations much too complicated to be soluble.”18 AI4S global outlook 2023 Edition 不严谨的比喻一下，就是“我们有了打开科学大门的钥匙，却没有力气去把我们有了打开科学大门的钥匙，却没有力气去把门推开“门推开“而“推不动”的原因，就是“维度灾难”“维度灾难”是指在某些问题的求解中，随着维数的增加，计算代价会呈指数增长2。例如使用密度泛函理论（Density functional theory，DFT）求解势函数的计算代价会随着体系规模的增加而指数增长3。因此密度泛函理论的方法虽然准确，但难以应用到大规模体系的问题求解中。物理学中的基本原理不仅广泛适用，而且简洁优雅。薛定谔方程就是一个很好的例子。不幸的是，正如前面所指出的那样，使用这些模型来解决实际问题是一项极其困难的任务。因此，寻求简化模型一直是物理学乃至所有科学领域的一个永恒的主题。然而，正如我们在湍流模型中所经历的那样，如果不采取经验近似，我们通常很难提出这样的简化模型。机器学习即将大大提高我们开发这种物理模型的能力。这其实已经以三种不同的方式发生了。第一，它提供了可以帮助我们把多尺度建模的梦想变为现实的工具。这个工具正是以前缺乏的。第二，它提供了直接从数据开发模型的框架。第三，顺着数据同化的思路，它将提供一个整合物理模型与观察数据的非常强大的工具。然而，拟合数据是一回事，构建可解释且真正可靠的物理模型则是另外一回事。让我们首先讨论可解释性的问题。众所周知，机器学习模型有着“黑箱子”的名声，这为使用机器学习来帮助开发物理模型带来了心理障碍。为克服这一障碍，首先我们需要注意到可解释性并不是绝对的。以空气动力学中的欧拉方程为例。这些方程本身具有很清晰的解释，因为它们仅代表质量，动量和能量的守恒。但是，能否解释状态方程的细节则是另外一回事。事实上，复杂气体的状态方程可能是由一些实验数据经样条插值得到的，它以一个子程序的形式呈现。我们并不真正关心这些样条函数的系数是否可解释。相同的原则应当也适用于基于机器学习的模型。我们的目标应该是：这些模型的基本出发点和基本结构是可解释的，这些模型中代表本构关系的一些函数的具体形式未必都得可解释。现在来谈谈可靠性问题。理想情况下，我们希望基于机器学习的模型和普通物理模型（如纳维斯托克斯方程）一样可靠。要做到这一点，有两点至关重要。第一点是基于机器学习的模型必须满足所有物理约束，例如来自对称性和守恒律的约束。第二点是，我们用于训练模型的数据必须能充分代表实际中遇到的所有物理状态。由于对数据进行标记几乎总是非常昂贵的，因此选择一个既尽可能地小又具有充分代表性的优质数据集是此类模型开发过程中的一个非常重要的组成部分。我们将在下一节中对此做更多阐述。Paul Dirac,Picture credit:AIP Emilio Serg Visual Archives 19 AI4S global outlook 2023 Edition 这些想法已经被成功地应用到许多问题，包括分子动力学和稀薄气体动力学。以分子动力学为例，通过将机器学习与高性能计算相结合，我们能够以从头计算（ab initio）的精度来模拟数亿个原子的系统，这相比此前有五个数量级的提升。分子动力学应用非常广泛，比如如果我们想要预测一种新型纳米材料的性质，就需要计算其海量原子间的相互作用。传统分子动力学在计算势函数的时候依赖经验力场，导致结果不准确；第一性原理的方法通过量子力学模型计算，虽然可靠但是效率低，难以大规模使用。而基于机器学习的分子动力学方法，依靠量子力学模型提供训练数据，用深度神经网络对高维势函数进行拟合，就可以同时保证算法的准确性和高效性。这种将物理模型、机器学习和高性能计算深度结合的方法，为我们展示了非常巨大的想象空间。深度势能训练过程示意图 Source:Deep Modeling 20 AI4S global outlook 2023 Edition II.数据驱动：AI 处理科学大数据传统数据处理方法主要是针对小规模数据，以统计模型为基础寻找数据中的规律。然而基于小规模数据所建立的模型，其表达能力受限于数据规模，只能进行粗粒度的模拟与预测，在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型。近来各个领域可获取数据种类和数量都有显著提升，为这个问题的解决提供了数据基础。然而随着数据量的提升，数据噪声逐渐增大，信噪比越来越低。而传统数据处理方式面对海量数据时会遭遇“维度灾难”问题，即无法有效在可控时间内利用海量数据建立高精度的模型。这就意味着我们需要全新的数据处理方法来应对维度灾难问题。这个方向目前最成功的例子是 AlphaFold2 5。蛋白折叠问题是一个典型的高维问题，AlphaFold2 通过 AI 的方式彻底改变了蛋白折叠的技术路线，有效的解决了这个问题。图.AlphaFold2 训练策略 21 AI4S global outlook 2023 Edition III.模型与数据的融合：AI for Science 的系统工程 AI for Science 的第三条实现途径是将模型驱动和数据驱动的方法深度融合。在科学领域，从“数据”中可以提炼出经验性“原理”，也可以使用“原理”来仿真模拟出“数据”。因此可以说，科学领域的“数据”和“原理”一定程度上是可以接近无损转化的，这一点是 AI for Science 相比于语言大模型(LLM)等其他领域的独特优势。这个领域的主要挑战很多，比如“数据同化”、“观测和模型的同步学习”、“强化学习”、“理性实验设计”等。参考语音模型领域中 Langchain 的成功经验，AI for Science 在模型与数据融合的过程也更像是一个系统化的工程，不仅需要原理层面的创新，也需要从基础设施到产品到具体场景交互的全方面变革。每一个场景可能都需要一个庞大的团队来完成，当然这也意味着巨大的空间和机会。Figure credit:DP Technology 22 AI4S global outlook 2023 Edition 1.3 大语言模型（LLM）：AI 与 Science 共生的桥梁 2023 年，随着 GPT 在各行各业的爆发，“是否能将 GPT 用于科研场景”成为了一个水到渠成的问题。当 ChatGPT 超越大部分人类在高考、SAT、美国法考、医考等领域取得令人咋舌的高分后，人们对于 GPT 驱动科研的兴趣愈发高涨。截止本报告发布时间（2023 年 8 月），LLM 在科研领域的实践已出具端倪，应用生态愈发丰富。在人类的历史长河中，科学以其神秘的魅力吸引着我们，不断引领着我们探索未知的世界，解答生命的奥秘，推动社会的进步与文明的发展。而如今，当人工智能技术正在改变人们日常生活的同时，它也开始影响人类对科学边缘的探索。我们正处在这样一个交汇点人工智能与科学探索开始相互碰撞并融合。在这个交汇点的中心，大语言模型（Large Language Models，LLMs）正作为全新的媒介

展开阅读全文