用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

2023-05-29 0 413

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

如果生物学家们能介绍电子零件在大分子中的公益活动,所以她们就能预估所有人表达方式的犯罪行为,包括试验抗生素与高温超导体体。

译者 | 古巨基

撰稿 | 陈彩娴

「AI+X」越发热火朝天。

前段时间,权威性学术研究传播方式 QuantaMagazine 刊登了一则该文,如是说了 DeepMind 其中的许多科学研究项目组正使用机器学习演算法攻陷力学应用领域领域的两个知名痛点——表面积自由对象方式论。

她们试图通过机器学习演算法来找寻第二级表面积自由对象的方程组,找寻人类文明难以用微积分叙述的电子零件犯罪行为,进而冲破电子零件在大分子中的公益活动技术细节。这对抗生素辨认出、超导体科学研究与幽灵金属材料的科学研究象征意义关键性。

在生物学家们直言,这是几项重要的、令人振奋的科学研究,因为表面积自由对象方式论是两个经典之作的量子场论方式论,而从表面积自由对象出发,她们可望在大分子与生物化学等有关应用领域领域获得关键性成果,实现人工智慧新锐梦幻的又一民间传说。

所以,机器学习演算法与力学怎样能梦幻呢?我们来看一看 QuantaMagazine 的关键点如是说。

1

表面积自由对象方式论是什么?

表面积泛函方式论的英语名叫「Density Functional Theory」,全称「DFT」,始自1960二十世纪,是一种科学研究多电子零件管理体系下电子零件结构的方式,在力学与生物化学上有广为的应用领域,特别用以科学研究大分子和磁学物理性质,是磁学力学排序金属材料学和排序生物化学应用领域领域最常见的方式之一。

这样说似乎还有点抽象。举一些形象的例子:

众所周知,近年来超算出奇迹。而2018年美国超级排序机集群的三大应用领域,排名第一的便是表面积自由对象,其次才是夸克和其他亚原子粒子的科学研究,气候模拟也只能排第三。

更往前一点,2014年10月,Nature整理出100篇有史以来引用数量最高的科学研究论文,其中有12篇论文都与表面积自由对象方式论有关。这是 Nature 当时的叙述是:

「我们地球世界中的所有人表达方式都取决于电子零件的运动——因此,DFT 就是所有人的基础。」

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

图注:表面积自由对象方式论揭示了电子零件在大分子(如2,3-(S,S)-二甲基环氧乙烷)中的公益活动

几十年来,科学研究人员利用 DFT 对表达方式进行预估:2014年,生物化学家 Christopher H Hendon 等人用 DFT 方式论量化物种常见的咖啡酸、咖啡因与代表性风味成分丁香酚的热力学结合能,由此掌握了咖啡味道形成的奥妙;2017年,天文学家又用 DFT 方式论预估木星核心的稠度,有关论文刊登在了顶刊《Geophysical Research Letters》上。

英国牛津大学的金属材料力学学家 Feliciano Giustino 评价:「本质上,DFT 是一种使不可能的微积分变得简单的近似。」

要通过考虑每个电子零件和每个原子核怎样与每个电子零件和原子核相互作用以科学研究硅晶体中的电子零件犯罪行为,科学研究人员需要分析 16 万亿 (1021) TB 的数据,这远远超出了任何人的处理能力。而排序机将 DFT 的数据需求减少到只有几百 KB,完全在标准笔记本电脑的容量范围内。这昭示了排序机科学与DFT的合作基础。

另一方面,DFT 为生物学家们提供了一条捷径,可以预估电子零件的去向,进而预估原子、大分子和其他披着电子零件的物体将怎样行动。长期以来,力学学家和生物化学家一直利用深厚的力学专业知识来使她们的方程组更好地反映所有电子零件共有的复杂公益活动。

介绍电子零件就是介绍它们构成的原子、大分子和金属材料。自 1920 二十世纪欧文·薛定谔刊登他的同名方程(「薛定谔波动方程」)以来,力学学家已经彻底理解了电子零件。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

图注:薛定谔波动方程

但在分析大量电子零件时,薛定谔方程几乎毫无用处,原因就在于电子零件比粒子更多团。它们在空间中扩散,以多种方式与其他电子零件重叠并相互挤压。随着电子零件数量的增加,使用薛定谔波动方程来解释所有电子零件之间的不断接触的难度也呈指数级增长。

来自加州大学伯克利分校的磁学力学学家杰弗里·尼顿 (Jeffrey Neaton) 便提出这样的观点:「即使是只有几个粒子,你也需要用更多的磁盘空间才能把波函数写入硬盘。」

2

从DFT到通用表面积自由对象

多年来,表面积自由对象方式论的强大吸引着无数科学研究者躬身其中。在她们当中,我们不得不提到1998年获得诺贝尔生物化学奖的力学学家 Walter Kohn。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

图注:Walter Kohn

Walter Kohn 出生于奥地利维也纳,1945年获微积分和力学学学士学位,1946年于多伦多大学获应用领域微积分硕士学位,1948年在哈佛大学获博士学位。曾任哈佛大学力学系教员,卡内基-梅隆大学(CMU)助教和教授,加利大学圣地亚哥分校力学系教授、系主任,1979年到加利大学圣巴巴拉分校先后任方式论力学所所长和力学系教授。

1964 年,他与另一位力学学家 Pierre Hohenberg 找到了一种方式,证明通过将大分子的电子零件粘在一起,形成一些点更厚、一些点更薄的液体,就可以完美地捕捉到大分子的每两个方面。这种电子零件液体(electron soup)的表面积包含大分子复杂波函数的所有信息,使力学学家实现了对电子零件进行单独的、原先以为绝无可能完成的任务。非常了不起。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

图注:科学研究人员使用基于表面积自由对象方式论的工具来预估 DNA 碱基对周围的电子零件在被激光脉冲击中时怎样反应。

Hohenberg 和 Kohn 证明了存在两个强大的主方程,即「通用表面积自由对象」。该方程将以「电子零件液体」为例排序其能量,引导力学学家采用能量最低且最自然的电子零件排列。从这个角度看,通用表面积自由对象具有很强的普遍性,原则上可以叙述从硅砖到水大分子的所有系统。

唯一的问题是没有人知道这个方程组是什么样的。

很快,1965年,Kohn和另一位力学学家 Lu Jeu Sham 首次写出了可用的表面积自由对象方程组。在这个过程中,她们知道,想要写出捕捉电子零件犯罪行为所有微妙表现的精确函数难度极高,因此她们将痛点一分为二:一半是已知部分,它提供了一组只能平均感知彼此的电子零件的能量;一半是未知部分,比如拜占庭量子效应和非局部相互作用产生的多余能量,统一放进两个被称为交换和有关函数的容差系数中。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

目前,Kohn对DFT的两篇科学研究论文分别在Nature的这100篇论文中排名第34位和第39位。Kohn意识到,他可以通过假设每个电子零件对所有其他(不是单个的)电子零件的反应,以模糊的平均值来排序系统的属性,比如它的最低能态。原则上,微积分是简单明了的;系统的犯罪行为就像两个连续的流体,其表面积随点而变化。这一方式论也因此得名。

这个方式将我们对通用自由对象的未知降到了最低。在接下来的几十年里,生物学家们基于 Kohn 和Sham 的工作,采用越来越聪明的方式来估计容差系数,进而使得表面积自由对象成为理解电子零件的实用方式。

在实际应用领域中,科学研究人员使用这个方式来预估原子捕获或释放电子零件、大分子振动的方式(比如好奇号探测器用以找寻火星上的生命迹象)、晶格中原子的排列、 声音在金属材料中等等。1998年,Kohn还凭借该方式论的广为应用领域赢得了诺贝尔生物化学奖。

3

用AI找寻通用自由对象的近似值

科学研究人员要求更高的 DFT 精确度,就必须考虑到自由对象交换和有关项的无关性,打磨函数的技术细节,使它更符合通用表面积自由对象。

找寻更通用的自由对象方程,特别是自由对象方程的近似值,成为「DFT 狂热者」的新目标。

天普大学的力学学家约翰·珀杜(John Perdew)是这方面的先驱者。他将通向通用自由对象的道路叙述为「在梯子上攀爬」。在每个梯级上,力学学家都在函数中添加新成分。最简单的成分就是每个位置的「电子零件炖菜」(electron stew)的厚度。在下两个梯级上,自由对象还考虑了从两个地方到另两个地方的厚度变化速度,进而使这项科学研究更加精确。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

图注:John Perdew

Perdew 的策略核心是使用了力学推理,进而保证通用自由对象的近似值一定会遵守某些微积分属性,即所谓的「精确约束」。越高的阶梯要满足越多的约束条件,因此科学研究人员就必须更努力地找寻满足所有这些约束条件的方程。

Perdew 的项目组于 1999 年开始处理混合六种成分的第二级自由对象。2015年,她们年发布了当时最先进的名叫「SCAN 」的自由对象。这是他的第八次尝试,也是自由对象第一次符合与第二级有关的所有 17 条已知约束。SCAN 适用于大分子和固体应用领域领域,已证明是迄今为止辨认出的通用自由对象最强大的近似之一。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

「第二级函数的可能性非常大。弄清楚什么是重要的,什么是有效的,需要时间。」Perdew谈道。

这时,机器学习就派上了用场。

4

机器学习入场

当 Perdew 基于力学直觉改进表面积自由对象时,一场革命正在酝酿:演算法能否找寻人类文明难以用微积分叙述的电子零件犯罪行为的模式?

2012 年,来自美国UC Irvine大学的 Kieron Burke 及项目组首次尝试将机器学习应用领域于一组简化的电子零件。他所提出的一维原型驱使了他和其他科学研究者思考能采用机器学习演算法来找寻表面积函数。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

论文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.108.253002

2021年初,Burke项目组又获得了冲破:他与合译者为两个玩具问题建立了两个神经网络,采用了两个此前大多数工作都会忽略的方式来跟踪表面积误差和能量误差。有关工作刊登在了《Physical Review Letters》上。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

论文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.036401

卢森堡大学的方式论生物化学家 Alexandre Tkatchenko 说:“要获得既能提供密度又能提供能量的自由对象,需要两个非常灵活的架构,单纯依靠人脑写出两个函数式是很难的。”

石溪大学的 Fernández-Serra 也是科学研究将机器学习演算法用于找寻自由对象的学者之一。她使用类似的策略设计了两个神经网络,科学研究一系列大分子和能量,并找寻服从大多数已知约束的第二级函数,本质上就是使用一台机器来追溯 Perdew 的足迹。

正如她和Sebastian Dick在 2021年秋季《Physical Review B》中报道的一样,由此产生的交换和有关函数在预估不熟悉大分子的能量方面比SCAN高出了大约10%,但这轻微的增益表明Perdew的科学研究已经接近于第二级自由对象的天花板。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

https://journals.aps.org/prb/abstract/10.1103/PhysRevB.104.L161109

「力学直觉几乎耗尽了人类文明所能达到的所有智慧。在不使用机器学习的情况下,Perdew的自由对象科学研究真的是尽善尽美。」Fernández-Serra 评论。

5

DeepMind「盯上」DFT

但是想要爬得更高,就需要更复杂的输入,以及能理解这些输入的演算法。

DeepMind 的方式论生物化学家阿隆·科恩 (Aron Cohen) 也对找寻更通用的自由对象方程十分感兴趣。为了深入方式论量子生物化学的抽象观点,他随身带着两个3d打印的蓝色玩具,形似幸运饼干,弯曲描绘出了两个自由对象函数的确切形状。它仅适用于最简单的系统叙述,比如任意两个原子间共享的两个电子零件的信息,但也时刻提醒着 Cohen:这个世界上可能存在一种能处理任意数量电子零件和原子的通用自由对象。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

图注:这个玩具函数叙述了任意两个原子之间共享的两个电子零件。球轴承表示能量最低的排列、倾斜模型则会改变原子。

DFT 科学研究的主要目标之一是找到该通用自由对象的更准确的近似值。

众所周知,DeepMind在科学研究出围棋系统Go之后,便一直在找寻新的挑战,特别将目光集中在了「科学机器学习」的问题上。于是,Cohen便提议科学研究 DFT,此前他也花了数年时间科学研究简单系统的精确自由对象,但这些系统并不足以反映现实的世界。

回顾科恩的科学研究历程,DFT 的两个核心弱点大大阻碍Cohen:电流表面积自由对象通常会过多地涂抹电子零件。这个问题在不平衡的系统中特别明显。电子零件应该主要聚集在两个大分子上,但 DFT 偏偏将电子零件汁均匀地分布在两个大分子上。当这种连带问题出现在生物化学反应中时,DFT 就难以为粒子合并和分离提供正确的能量,即使是像氢原子这种简单的情况也是如此。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

为了设计下一代函数,Cohen和DeepMind项目组选择不再纠结于满足一长串的力学原则。相反,她们依赖大量的数据,首先从数据库中搜索出数千个已知能量的分子(使用薛定谔方程或类似方式以高成本排序),然后再使用超级排序机来处理数百个额外大分子的能量(其中许多大分子需要几天的时间来排序)。

当科学研究小组收集了详尽的大分子样本时,Cohen和其他生物化学家再决定怎样构造这些自由对象。

她们找到了一种万能的方式:当以一种方式排序某一函数的80%的能量,再以另一种方式排序剩下的20%的能量时,就会出现两个最佳点。这一方式是科学研究人员经过多年的反复试验找到的,用以估计部分交换和有关函数。

长期以来,科学研究人员一直犹豫下一步是不是让大分子周围的点按照80/20的比例随点变化,但目前还没有人能完全获得成功做到这一点。

1998年 Burke 在其刊登于 ACS 期刊的“Exchange-Correlation Energy Density from Viral Theorem” 中如是说了这种类型的函数。但是,他说:“人们可能已经在100篇论文中尝试应用领域这种形式的函数,但她们还没有创造出每个人都能用的东西。也许这对两个人来说太难了。”

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

凭借大量的样本大分子和DeepMind项目组的机器学习专业知识,该项目组所提出的神经网络能训练出一种灵活的第四级函数——DM21 ,可以比SCAN和其他顶级竞争对手更好地估计各种大分子的能量,因为它能更准确地定位电子零件,更好地叙述它们的自旋。据如是说,她们所提出的自由对象是第两个能处理生物化学键断裂和形成的通用自由对象。去年12月9日,该工作刊登在了《Science》上。

用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼

但不可否认,DM21 也有两个明显的缺点,就是只训练了元素周期表的前三行大分子,尽管数据更丰富,但也意味着它学到的电子零件犯罪行为可能难以转移到金属原子或固体金属材料上,而这两者却对于分析铜基高温超导体管理体系列至关重要。目前,这两个应用领域领域的通用自由对象技术细节还在用 SCAN 和其他自由对象做逼近。

6

结语

目前,机器学习在科学应用领域领域的「辅助」才刚刚崭露头角。AI 演算法能为科学科学研究带来多大的冲破,仍是两个未知数。

但正如 QuantaMagazine所评价,Fernández-Serra 和 DeepMind 等项目组对新自由对象的科学研究已经表明,机器学习可以成为探索通用表面积自由对象新应用领域领域的强大工具,特别是大分子和生物化学的有关应用领域领域。

Tkatchenko评价,机器学习有助于调整生物化学空间,使自由对象尽可能高效。

不过,改进后的生物化学自由对象是否能有效揭示从原子到金属材料等表达方式的通用特征,还有待观察。

Perdew 便表示,他会继续找寻新的直观特性,以进一步完善传统科学研究路径。但他可能不会在机器学习方面投入大量时间,「因为尽管机器可以学习,但它们还不能向我们解释它们学到了什么。」

但 Cohen 认为已经可以从 DM21 中看到可能成为未来近似值的持久元素的通用特征,无论这些特征是由人类文明大脑生成的、还是由神经网络生成的。

「函数是十分复杂的,所以对它进行任何尝试都是好的。理想情况下,我们希望将它们都统一起来。」Cohen说。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务