机器学习势函数在计算表面与界面科学中的应用与挑战
1. 项目概述:当机器学习“遇见”表面与界面
在材料科学和化学物理的前沿,我们每天都在与“表面”和“界面”打交道。无论是电池电极与电解液之间电荷穿梭的微观战场,还是催化剂表面分子键断裂与重组的精妙舞台,亦或是新型二维材料层与层之间电子云的交织与耦合,这些发生在几个原子厚度范围内的物理化学过程,从根本上决定了材料的宏观性能与器件的最终命运。作为一名长期泡在实验室和计算集群里的研究者,我深知,想要“看清”并“设计”这些纳米尺度的世界,传统的实验表征手段常常力有不逮,而纯粹的理论计算又往往受限于巨大的计算成本。
过去几十年,密度泛函理论(DFT)是我们的“主力军”,它基于量子力学第一性原理,无需经验参数,理论上可以预测任何材料的性质。但在面对表面和界面这类“特殊”体系时,DFT的局限性就凸显出来了。表面打破了三维周期性,产生了悬挂键、表面态、电荷重排等一系列复杂效应;而界面更是两种不同材料的“握手区”,涉及晶格失配、化学键合、电荷转移等多重相互作用。用标准的DFT泛函(比如常用的GGA)去算一个包含数百甚至上千个原子的表面超胞,不仅计算耗时以周甚至月计,其精度也常常令人挠头——能量差异在几个毫电子伏(meV)的竞争结构,可能就决定了最终哪种表面重构是稳定的,而这恰恰是DFT的误差范围。
正是在这种“算不动”又“必须算”的矛盾中,机器学习(ML)和数据驱动方法像一剂强心针,注入了计算表面与界面科学领域。它的核心思路非常直观:既然从头算一遍太贵,那我们能不能用已经算好的、相对少量的高精度数据(来自DFT或更高级别的量子化学方法),去“训练”一个快速的代理模型(Surrogate Model)?这个模型学会了从原子构型(输入)到能量、力、乃至电子性质(输出)的复杂映射关系后,就能以近乎零成本的方式,对海量的候选结构进行快速筛选、预测和模拟。这不仅仅是速度的提升,更是一种范式的转变——从“计算密集型”转向“数据+智能密集型”。
目前,最成功的应用莫过于机器学习势函数(MLIPs)。它本质上是一个用神经网络、高斯过程等ML模型拟合出的、精度接近DFT的原子间相互作用势。有了它,我们就能进行纳秒甚至微秒尺度的分子动力学模拟,观察表面吸附、扩散、反应等动态过程,这是传统DFT-MD无法企及的时间尺度。但ML在表面科学中的应用远不止于此。从全局搜索最稳定的表面重构,到预测在不同温度、压力下的表面相图;从直接学习电子态密度、能带结构,到加速寻找化学反应的过渡态和能垒,ML正在重塑我们研究表面与界面的每一个环节。
然而,这条路并非一片坦途。高质量数据的稀缺是首要瓶颈。表面科学体系千变万化,覆盖元素多、结构复杂,建立一个像Materials Project那样通用且高质量的表面数据库,难度极大。其次,模型的可迁移性与外推能力。一个在金属铜表面上训练好的模型,拿去预测氧化物表面的性质,很可能“水土不服”。再者,如何将物理约束(如旋转不变性、平移不变性、周期性边界条件)巧妙地嵌入模型架构,以及如何设计更数据高效的主动学习策略,都是亟待解决的核心挑战。
本文,我将结合领域内最新的研究进展和我个人的一些实操体会,深入拆解机器学习在计算表面与界面科学中的关键应用场景、技术实现细节以及那些“踩过坑”才明白的注意事项。无论你是刚踏入这个交叉领域的研究生,还是希望将ML工具引入自己课题组的计算化学家,相信这些来自一线的经验与思考,都能为你提供有价值的参考。
2. 核心方法解析:机器学习如何“学习”表面与界面
要让机器学习模型在表面与界面科学中发挥作用,首要任务是教会它“看”懂原子世界。这与处理图像或文本数据截然不同。原子体系的核心是几何结构与相互作用,模型输入必须满足基本的物理对称性:无论你如何旋转、平移整个体系,或者交换两个同种原子的标签,模型预测的总能量、原子受力等性质必须保持不变。这就引出了机器学习在此领域的两个基石:描述符(Descriptor)与模型架构(Model Architecture)。
2.1 原子体系描述符:模型的“眼睛”
描述符的任务是将原子的几何排布转化为一组固定长度、且满足对称性的数学向量(即特征)。一个糟糕的描述符会导致模型难以学习,或泛化能力极差。
2.1.1 传统手工描述符
早期工作大量依赖于基于原子局部环境的手工设计描述符,例如:
- 对称函数(Symmetry Functions):如Behler-Parrinello神经网络中使用的径向和角向对称函数。它们通过计算中心原子与邻居原子的距离、夹角的高斯展宽和,来构建对旋转、平移和置换不变的特征。其优势是物理意义相对明确,计算速度快。
- 平滑重叠原子位置(SOAP):通过将原子邻域的密度用球谐函数和高斯函数展开,得到一个功率谱,作为描述符。SOAP描述符信息丰富,对几何变化敏感,是目前非常流行和强大的选择。
- 原子层间势(ACE)描述符:基于原子簇展开,提供了一种系统性的、完备的基组来描述原子环境,理论上可以逼近任何满足对称性的函数。
实操心得:描述符的选择与超参数调试在构建表面模型时,描述符的“截断半径”设置至关重要。对于表面体系,垂直于表面的方向是非周期的。如果截断半径设置过大,一个位于表面的原子可能会“看到”其下方真空区域外的镜像原子(如果使用了不恰当的周期性边界条件),这会导致描述符计算错误。我的经验是,对于表面计算,通常需要仔细处理Z方向的边界条件,并确保截断半径小于真空层厚度的一半。此外,描述符的复杂度(如角向函数的阶数、径向函数的数量)需要与训练数据量匹配。数据少时,过于复杂的描述符容易过拟合。
2.1.2 基于图的端到端学习
近年来,图神经网络(GNNs)已成为主流。在这种范式下,体系被天然地表示为一个图:原子是节点,原子间的连接(通常基于距离截断)是边。模型通过消息传递机制,让节点(原子)与其邻居交换信息,迭代更新节点的特征向量。最终,每个原子的特征被汇总(例如,通过加和)得到体系总能量。
- 代表性模型:SchNet, DimeNet++, PaiNN, GemNet, Equiformer等。这些模型内置了等变性(Equivariance)约束,例如PaiNN和Equiformer v2是E(3)等变的,意味着它们不仅能输出不变标量(如能量),还能直接输出等变向量(如原子受力),这大大提升了力预测的精度和训练效率。
注意事项:表面与界面体系的图构建对于界面,特别是异质界面,两种材料的晶格常数和化学性质不同。在构建图时,界面两侧原子的连接需要特别小心。一种常见做法是将界面模型视为一个整体超胞,基于原子间的绝对距离(考虑周期性)来构建边。要确保截断半径能覆盖到关键的界面相互作用,但又不能太大以至于包含不相关的次近邻原子,增加计算开销和噪声。对于范德华(vdW)主导的界面,可能需要考虑更长的相互作用距离。
2.2 主流机器学习势函数(MLIPs)框架与选型
选择一个合适的MLIP框架是项目成功的第一步。下表对比了几个在表面科学中常用或具有潜力的框架:
| 框架名称 | 核心模型/描述符 | 主要特点 | 适用场景与表面科学考量 |
|---|---|---|---|
| DeePMD-kit | 深度势能(Deep Potential) | 国产优秀框架,社区活跃,与LAMMPS等MD引擎集成极好,支持大规模并行。使用自定义的网络架构和描述符。 | 非常适合大规模、高性能的分子动力学模拟,如表面催化反应路径采样、高温表面重构动力学。其效率在超算上表现优异。 |
| ANI(ANAKIN-ME) | 基于原子中心对称函数的神经网络 | 最初为有机分子设计,但已扩展至元素周期表大部分元素。模型较小,推理速度极快。 | 适合快速筛选大量分子在表面的吸附构型,或作为更精确计算(如DFT)的预筛选器。对于含有机分子的表面界面体系有潜力。 |
| GAP(QUIP) | 高斯过程回归 + SOAP描述符 | 基于贝叶斯框架,能提供预测不确定性估计,这对主动学习至关重要。SOAP描述符精度高。 | 非常适合数据稀缺的初期探索阶段。其不确定性量化可用于指导下一步该算哪个结构,高效构建训练集。在复杂、低对称性的表面缺陷研究中很有用。 |
| MACE | 等变消息传递神经网络 | 最新的等变架构,精度高,特别是对于力、偶极矩等方向性属性的预测。 | 在处理需要高精度力场的表面振动谱计算、铁电表面极化预测等任务中表现出色。其等变性天然适合物理性质的学习。 |
| Allegro | 等变不可约标量/向量网络 | 强调严格的等变性和可扩展性,在保持高精度的同时实现了近乎线性的缩放。 | 适用于超大规模表面/界面体系(数万原子)的模拟,例如研究纳米颗粒催化剂的整体形貌演化,或复杂界面处的位错运动。 |
选型建议:
- 初探与主动学习:如果你的体系非常新颖,数据点很少(<1000),且需要知道模型在哪里“没把握”,GAP是首选。它的不确定性估计能帮你最有效地花掉宝贵的DFT计算资源。
- 大规模分子动力学:如果你的目标是进行纳秒级以上的动力学模拟,体系规模较大(>1000原子),DeePMD-kit或Allegro是目前在性能和精度上最稳健的选择,社区支持也好。
- 高精度与复杂性质:如果你不仅需要能量和力,还关心体系的电子性质(如偶极矩、极化)、或需要极高的力预测精度来寻找过渡态,MACE或PaiNN这类等变模型值得尝试。
- 快速筛查与代理:如果你需要处理成千上万个可能的吸附位点或表面重构模型,进行快速初筛,ANI或一些基于简单描述符的轻量级模型(如使用
scikit-learn训练的模型)可能更合适。
2.3 训练流程与数据生成策略
构建一个可靠的MLIP,其工作流远不止“跑一个训练脚本”。一个严谨的流程如下:
2.3.1 初始训练集构建:多样性至上初始数据集的代表性决定了模型的天花板。对于表面/界面体系,绝不能只采样平衡构型。
- 必须包含的构型:
- 体相(Bulk):分别获取界面两侧材料的体相晶体数据(不同晶格常数下的能量-体积曲线),这有助于模型学习材料的本征弹性性质。
- 清洁表面(Clean Surfaces):不同米勒指数的表面 slab 模型,并进行不同程度的弛豫。
- 缺陷表面:引入点缺陷(空位、替代)、台阶、晶界等。
- 吸附体系:分子/原子在不同高对称性位点(顶位、桥位、洞位)的吸附构型,以及不同覆盖度下的结构。
- 扰动构型:对上述稳定构型施加随机原子位移(如0.03 Å RMSD),并计算其单点能和力。这是让模型学习力场“形状”的关键,数据量应占较大比重。
- 分子动力学快照:对关键体系进行短时间的DFT-MD模拟(NVT系综,在感兴趣的温度下),每隔几步取一个快照。这能采样到有限温度下的相空间。
2.3.2 主动学习(Active Learning)循环这是用最少数据训练出稳健模型的核心技术。基本循环是:训练模型 -> 用模型探索 -> 找出模型不确定的构型 -> 用DFT计算这些构型 -> 加入训练集 -> 重新训练。
- 不确定性度量:对于GAP这类贝叶斯模型,可以直接得到预测方差。对于神经网络,常用委员会模型(Committee Models)法:训练多个结构相同但初始化不同的模型,用它们预测的方差作为不确定性估计。
- 探索策略:
- 分子动力学驱动:用当前MLIP跑MD,当原子受力或能量的不确定性超过阈值时,中止模拟,将当前构型送去DFT计算。
- 全局结构搜索驱动:用MLIP辅助的全局优化算法(如贝叶斯优化、遗传算法)搜索新结构,将搜索过程中遇到的新奇或能量低的候选结构进行DFT验证。
- 针对反应路径:用MLIP运行NEB寻找过渡态,对路径上的图像进行不确定性评估,对高不确定性点进行DFT精修。
2.3.3 损失函数与训练技巧损失函数通常是能量、力和应力的加权均方误差(MSE)之和:Loss = w_E * MSE(E) + w_F * MSE(F) + w_S * MSE(S)
- 权重调整:力的权重(
w_F)通常要设得比能量(w_E)大很多(例如100-1000倍),因为力的数据点更多(原子数×3),且力的准确对MD模拟的稳定性至关重要。 - 归一化(Normalization):务必对输入特征(描述符)和输出标签(能量、力)进行归一化。将能量减去体系平均原子能量,可以提升训练稳定性。
- 验证与测试:严格区分训练集、验证集和测试集。测试集应包含从未在训练循环中出现过的、具有代表性的“出分布”构型,如一种全新的吸附分子或一种不同的表面重构类型,以真实评估模型的泛化能力。
3. 关键应用场景实战剖析
掌握了核心方法,我们来看看ML如何具体解决表面科学中的经典难题。我将结合文献案例和自己的理解,深入几个关键场景。
3.1 场景一:复杂表面重构的全局结构预测
问题:给定一个化学计量和基底取向,表面原子会如何重新排列以降低能量?这可能涉及大规模原子位移、形成超胞、甚至改变表面化学计量。传统方法如模拟退火结合DFT,计算成本高到无法承受。
ML增强方案:
- 构建初始MLIP:使用一个较小的、包含体相、不同终端表面以及一些猜测的可能重构模型(来自文献或对称性分析)的数据集,训练一个初步的MLIP。
- 迭代全局搜索:使用这个初步MLIP驱动全局优化算法。常用的有:
- 遗传算法(GA):如USPEX、CALYPSO。将表面slab的原子位置编码为“基因”,通过选择、交叉、变异操作进化出低能量结构。MLIP用于快速评估成千上万个候选个体的能量。
- 贝叶斯优化(BO):如GOFEE、BEACON。将结构搜索视为一个黑盒函数优化问题(输入是结构,输出是能量)。高斯过程回归(GPR)��为代理模型,不仅预测能量,还给出不确定性。算法倾向于探索高不确定性区域(可能发现新结构)或开发低预测能量区域(找到最低点)。
- 主动学习精炼:将全局搜索中找到的低能量候选结构,以及搜索过程中代理模型最不���定的结构,用DFT进行精确计算。将这些新数据加入训练集,更新MLIP。然后用更精确的MLIP开始新一轮搜索。如此迭代2-4轮,通常能以比纯DFT搜索少1-2个数量级的计算成本,找到全局或近全局最小结构。
案例与心得:在预测某过渡金属氧化物表面重构时,我们曾使用类似SAMPLE的策略。初始数据集仅包含50个DFT计算的随机扰动表面结构。用GPR模型结合主动学习,在搜索了约2000个候选结构(仅对其中150个进行了DFT计算)后,成功预测出了与实验吻合的(√3×√3)R30°重构。关键点在于:初始数据虽少,但必须包含足够的“物理扰动”,并且主动学习的选择标准要平衡“探索”和“利用”。过于贪婪地只算低能量预测点,可能会陷入局部极小;而只算高不确定性点,则收敛速度慢。
3.2 场景二:覆盖度依赖的吸附热力学与相图
问题:在催化或传感应用中,表面吸附物的覆盖度(θ)是关键变量。不同覆盖度下,吸附物之间会产生相互作用,形成有序或无序的吸附层,甚至引发表面重构。如何预测在不同温度(T)和压力(p)下最稳定的表面相?
ML增强方案:
- 构建构型空间:对于一个给定的覆盖度,可能存在海量的吸附构型(吸附位点排列组合)。ML用于快速评估这些构型的能量。例如,使用簇展开(Cluster Expansion)的ML变体。将吸附体系能量表示为一系列簇(单点、对、三角等)作用的求和,系数用线性回归或更复杂的ML模型拟合少量DFT数据得到。
- 高效采样与相图计算:有了快速的能量评估器,就可以用蒙特卡洛(MC)模拟来研究吸附层的有限温度行为。通过巨正则蒙特卡洛(GCMC)模拟,可以直接得到在不同化学势(μ,对应不同的气相压力)和温度下的平衡覆盖度和有序度。
- 构建表面相图:结合ab initio热力学,计算每个稳定吸附相的表面自由能 γ(θ, T, p)。对于吸附体系 A on surface S,其表面自由能可近似为:
γ(θ, T, p) ≈ [E_total(θ) - N_S * E_bulk(S) - N_A * μ_A(T, p)] / Area其中,E_total是MLIP预测的总能量,E_bulk是基底体相每个原子的能量,μ_A是吸附物A在气相中的化学势(与温度压力相关)。绘制不同(T, p)条件下表面自由能最低的相,即得到表面相图。
避坑指南:
- 长程相互作用:对于带有电荷的吸附物或极性分子,偶极-偶极相互作用可能是长程的。简单的簇展开(只考虑近邻)可能失效。此时,可以考虑在描述符或模型中显式加入静电描述项,或者使用能学习长程相互作用的GNN模型。
- 基底弛豫:吸附可能导致基底表面原子显著弛豫。在构建训练集时,必须包含基底原子弛豫后的构型。一个偷懒但危险的做法是固定基底原子,这会导致模型严重低估吸附能。
- 振动熵贡献:在精确计算自由能时,振动熵(特别是低频的吸附模式和平行于表面的振动)的贡献不可忽略。MLIP可以用于计算力常数矩阵,进而估算振动自由能,但这需要模型对力的预测非常精确。
3.3 场景三:反应能垒预测与动力学模拟加速
问题:催化反应速率由反应能垒(活化能)决定。寻找过渡态(TS)是计算成本最高的步骤之一,因为需要精确计算能量对原子位置的二阶导数(Hessian矩阵),并进行复杂的路径搜索。
ML增强方案:
- ML-NEB(机器学习助推的弹性带方法):这是目前最实用的方案。传统NEB需要频繁调用DFT计算路径上所有“图像”的力和能量。
- 流程:先用较粗糙的方法(如经验势或少量DFT点)初始化一条反应路径。用初步训练的MLIP计算所有图像的力和能量。然后,不是用MLIP的力直接优化,而是利用MLIP预测的不确定性。选择不确定性最大的那个图像,用DFT进行精确计算。用这个新的高精度数据点更新MLIP。重复此过程,MLIP在反应路径关键区域的精度会迅速提升,最终用很少的DFT计算(通常比传统NEB少一个数量级)就能收敛到精确的过渡态。
- 优势:DFT计算只用在“刀刃”上,即MLIP最没把握的地方。Garrido Torres等人的工作表明,对于复杂表面扩散反应,力评估次数可减少90%以上。
- 直接能垒预测模型:这是一个更激进但极具潜力的方向。目标是绕过过渡态搜索,直接输入反应物和产物的结构,由模型预测活化能。这需要模型能深刻理解反应坐标的物理化学特征。
- 方法:通常将反应物和产物的结构信息(通过描述符或GNN)同时输入模型,或者设计一种能表征“反应对”差异的描述符。Singh等人使用特征工程结合线性回归,在特定催化反应上取得了不错效果。更先进的图模型如GemNet-OC,通过建模原子对和原子三联体之间的相互作用,理论上具备直接学习反应能垒的能力。
- 挑战与展望:直接预测的泛化能力是巨大挑战。一个针对CO加氢反应训练的模型,很难用于NO分解反应。未来的方向可能是开发更大的、涵盖多种反应类型的预训练模型(“反应基础模型”),再针对特定体系进行微调。
实战技巧:
- 初始路径的质量至关重要:ML-NEB的收敛速度强烈依赖于初始路径。一个完全离谱的初始猜测会导致MLIP在错误区域学习,浪费DFT计算。建议先用经验势或简化的DFT泛函跑一个粗略的NEB,或者使用IDPP(Image Dependent Pair Potential)方法生成一个合理的初始路径。
- 关注“ climbing image”:在ML-NEB中,对最高能量点(通常是过渡态附近)的图像应给予更高的采样权重或不确定性惩罚,因为该区域的精度对能垒影响最大。
- 验证过渡态:即使用ML-NEB找到了一个 saddle point,也必须用DFT计算其Hessian矩阵进行验证,确保有且仅有一个虚频,并且该虚频对应的振动模式指向预期的反应物和产物。
4. 前沿挑战与未来方向
尽管ML在表面科学中已取得瞩目成就,但真正走向“常规武器”仍面临几座大山。这些挑战也是领域内最活跃的研究方向。
4.1 数据困境:稀缺、不一致与偏差
挑战:表面科学缺乏像QM9(分子)或Materials Project(体相晶体)那样大规模、高质量、标准化的数据库。现有数据分散在不同研究组,计算标准不一(泛函、赝势、收敛阈值等),导致“数据孤岛”。此外,DFT本身对表面/界面体系的系统误差(如范德华作用、强关联效应描述不准)也会被ML模型继承。
应对思路:
- 社区协作与标准化:推动建立表面科学社区数据库,制定统一的计算协议。类似OC20(Open Catalyst 2020)数据集是一个良好开端,它包含了多种吸附物在多种金属表面的吸附构型。
- 迁移学习与预训练模型:利用在大规模体相或分子数据上预训练的“基础模型”(如MACE-MP, CHGNet),在少量表面特异性数据上进行微调。这能有效缓解数据稀缺问题。
- 多精度学习:同时使用高精度(如CCSD(T)、RPA)但昂贵的数据和低精度(如GGA-DFT)但丰富的数据进行训练。模型学习不同精度数据间的关联,从而用低成本数据提升高精度区域的预测能力。
4.2 电子性质预测:从能量到电子结构
挑战:绝大多数MLIP只学习原子核之间的相互作用(势能面),而表面科学的许多核心性质(功函数、能带对齐、电荷转移、光谱信号)直接依赖于电子结构。直接学习电子密度、哈密顿量或��谱是更前沿的课题。
当前进展:
- 学习哈密顿量:如DeepH模型,它学习从原子结构到紧束缚哈密顿量矩阵元的映射。一旦得到哈密顿量,就可以通过对角化快速得到能带、态密度等。这为高通量筛选界面电子性质(如异质结能带偏移)提供了可能。
- 学习电子密度:如SALTED方法,用高斯过程回归直接学习电子密度的展开系数。这对于研究界面处的电荷重分布、电双层结构至关重要。
- 学习光谱:用ML模型将结构直接映射到XPS、XAS等光谱。这可以用于辅助实验谱图的指认,甚至从光谱“反推”可能的结构。
个人见解:电子性质ML模型的门槛远高于MLIP。首先,训练数据获取成本极高(需要保存波函数或电荷密度信息)。其次,电子性质对基组、泛函等计算设置极其敏感。短期内,最可行的路径可能是发展“混合”工作流:用超快的MLIP进行结构采样和动力学模拟,然后对少数关键帧(Key Frames)进行精确的DFT电子结构计算,再用插值或简单的ML模型弥合其间。
4.3 可解释性与物理约束
挑战:深度神经网络常被诟病为“黑箱”。在表面科学中,我们不仅想要预测,更想理解“为什么”——为什么这个吸附位点更稳定?这个反应能垒的物理起源是什么?此外,如何将更多的物理定律(如长程静电、范德华相互作用、电荷守恒)硬编码到模型架构中,以提升其外推性和物理合理性。
发展方向:
- 可解释性工具:利用输入梯度(Gradient-based)或归因方法(如Integrated Gradients),分析模型的预测对输入原子位置的敏感度,从而识别出对能量贡献最大的关键原子或结构特征。
- 物理信息嵌入架构:
- 长程相互作用:在GNN中显式引入Ewald求和或多极子展开项来处理静电作用;使用专门的范德华核函数。
- 等变性(Equivariance):如前所述,E(3)等变网络已成为标准,这本身就是对物理对称性的硬约束。
- 全局守恒量:在输出层施加约束,使模型预测的体系总电荷等于各原子电荷之和。
4.4 软件生态与工作流集成
挑战:一个完整的表面科学研究,往往涉及结构建模、DFT计算、ML训练、MD/NEB模拟、数据分析等多个环节。目前工具链仍显碎片化,缺乏一个端到端的、用户友好的集成平台。
社区趋势:
- 工作流自动化:基于Python的框架如
ASE、pymatgen已成为标准粘合剂。像FLARE、CHGNet等MLIP框架都提供了与ASE无缝对接的接口,可以轻松嵌入到复杂的采样、优化工作流中。 - 云原生与可复现性:利用Jupyter Notebook、容器化技术(Docker)和可复现工作流工具(如
nextflow,snakemake),将整个研究流程(从数据生成到模型部署)打包,促进研究的透明和复现。 - 面向实验的接口:开发能将实验表征数据(如STM图像、XRD谱)与ML模型生成的理论数据进行直接对比和迭代优化的工具,真正实现“计算驱动实验”。
机器学习正在将计算表面与界面科学从“艺术”(依赖于研究者的经验和直觉)部分地转变为“工程”(基于数据和自动化流程)。这个过程不是替代理论家的深度思考,而是将他们从重复性的、繁重的计算劳动中解放出来,去关注更本质的物理问题和更富创造性的设计。作为一名实践者,我的体会是,拥抱这个趋势的关键不在于成为ML专家,而在于成为一个“通才”——深刻理解表面科学的核心问题,同时懂得如何将ML作为强大的工具来运用。从一个小而具体的问题开始,构建一个高质量的数据集,训练一个哪怕只在这个小问题上可靠的ML模型,其带来的效率提升和新的洞察,都将是实实在在的回报。这个领域方兴未艾,最大的挑战也意味着最大的机遇。
