当前位置：首页 > news >正文

机器学习势函数在计算表面与界面科学中的应用与挑战

news 2026/7/17 14:22:38

1. 项目概述：当机器学习“遇见”表面与界面

在材料科学和化学物理的前沿，我们每天都在与“表面”和“界面”打交道。无论是电池电极与电解液之间电荷穿梭的微观战场，还是催化剂表面分子键断裂与重组的精妙舞台，亦或是新型二维材料层与层之间电子云的交织与耦合，这些发生在几个原子厚度范围内的物理化学过程，从根本上决定了材料的宏观性能与器件的最终命运。作为一名长期泡在实验室和计算集群里的研究者，我深知，想要“看清”并“设计”这些纳米尺度的世界，传统的实验表征手段常常力有不逮，而纯粹的理论计算又往往受限于巨大的计算成本。

过去几十年，密度泛函理论（DFT）是我们的“主力军”，它基于量子力学第一性原理，无需经验参数，理论上可以预测任何材料的性质。但在面对表面和界面这类“特殊”体系时，DFT的局限性就凸显出来了。表面打破了三维周期性，产生了悬挂键、表面态、电荷重排等一系列复杂效应；而界面更是两种不同材料的“握手区”，涉及晶格失配、化学键合、电荷转移等多重相互作用。用标准的DFT泛函（比如常用的GGA）去算一个包含数百甚至上千个原子的表面超胞，不仅计算耗时以周甚至月计，其精度也常常令人挠头——能量差异在几个毫电子伏（meV）的竞争结构，可能就决定了最终哪种表面重构是稳定的，而这恰恰是DFT的误差范围。

正是在这种“算不动”又“必须算”的矛盾中，机器学习（ML）和数据驱动方法像一剂强心针，注入了计算表面与界面科学领域。它的核心思路非常直观：既然从头算一遍太贵，那我们能不能用已经算好的、相对少量的高精度数据（来自DFT或更高级别的量子化学方法），去“训练”一个快速的代理模型（Surrogate Model）？这个模型学会了从原子构型（输入）到能量、力、乃至电子性质（输出）的复杂映射关系后，就能以近乎零成本的方式，对海量的候选结构进行快速筛选、预测和模拟。这不仅仅是速度的提升，更是一种范式的转变——从“计算密集型”转向“数据+智能密集型”。

目前，最成功的应用莫过于机器学习势函数（MLIPs）。它本质上是一个用神经网络、高斯过程等ML模型拟合出的、精度接近DFT的原子间相互作用势。有了它，我们就能进行纳秒甚至微秒尺度的分子动力学模拟，观察表面吸附、扩散、反应等动态过程，这是传统DFT-MD无法企及的时间尺度。但ML在表面科学中的应用远不止于此。从全局搜索最稳定的表面重构，到预测在不同温度、压力下的表面相图；从直接学习电子态密度、能带结构，到加速寻找化学反应的过渡态和能垒，ML正在重塑我们研究表面与界面的每一个环节。

然而，这条路并非一片坦途。高质量数据的稀缺是首要瓶颈。表面科学体系千变万化，覆盖元素多、结构复杂，建立一个像Materials Project那样通用且高质量的表面数据库，难度极大。其次，模型的可迁移性与外推能力。一个在金属铜表面上训练好的模型，拿去预测氧化物表面的性质，很可能“水土不服”。再者，如何将物理约束（如旋转不变性、平移不变性、周期性边界条件）巧妙地嵌入模型架构，以及如何设计更数据高效的主动学习策略，都是亟待解决的核心挑战。

本文，我将结合领域内最新的研究进展和我个人的一些实操体会，深入拆解机器学习在计算表面与界面科学中的关键应用场景、技术实现细节以及那些“踩过坑”才明白的注意事项。无论你是刚踏入这个交叉领域的研究生，还是希望将ML工具引入自己课题组的计算化学家，相信这些来自一线的经验与思考，都能为你提供有价值的参考。

2. 核心方法解析：机器学习如何“学习”表面与界面

要让机器学习模型在表面与界面科学中发挥作用，首要任务是教会它“看”懂原子世界。这与处理图像或文本数据截然不同。原子体系的核心是几何结构与相互作用，模型输入必须满足基本的物理对称性：无论你如何旋转、平移整个体系，或者交换两个同种原子的标签，模型预测的总能量、原子受力等性质必须保持不变。这就引出了机器学习在此领域的两个基石：描述符（Descriptor）与模型架构（Model Architecture）。

2.1 原子体系描述符：模型的“眼睛”

描述符的任务是将原子的几何排布转化为一组固定长度、且满足对称性的数学向量（即特征）。一个糟糕的描述符会导致模型难以学习，或泛化能力极差。

2.1.1 传统手工描述符

早期工作大量依赖于基于原子局部环境的手工设计描述符，例如：

对称函数（Symmetry Functions）：如Behler-Parrinello神经网络中使用的径向和角向对称函数。它们通过计算中心原子与邻居原子的距离、夹角的高斯展宽和，来构建对旋转、平移和置换不变的特征。其优势是物理意义相对明确，计算速度快。
平滑重叠原子位置（SOAP）：通过将原子邻域的密度用球谐函数和高斯函数展开，得到一个功率谱，作为描述符。SOAP描述符信息丰富，对几何变化敏感，是目前非常流行和强大的选择。
原子层间势（ACE）描述符：基于原子簇展开，提供了一种系统性的、完备的基组来描述原子环境，理论上可以逼近任何满足对称性的函数。

实操心得：描述符的选择与超参数调试在构建表面模型时，描述符的“截断半径”设置至关重要。对于表面体系，垂直于表面的方向是非周期的。如果截断半径设置过大，一个位于表面的原子可能会“看到”其下方真空区域外的镜像原子（如果使用了不恰当的周期性边界条件），这会导致描述符计算错误。我的经验是，对于表面计算，通常需要仔细处理Z方向的边界条件，并确保截断半径小于真空层厚度的一半。此外，描述符的复杂度（如角向函数的阶数、径向函数的数量）需要与训练数据量匹配。数据少时，过于复杂的描述符容易过拟合。

2.1.2 基于图的端到端学习

近年来，图神经网络（GNNs）已成为主流。在这种范式下，体系被天然地表示为一个图：原子是节点，原子间的连接（通常基于距离截断）是边。模型通过消息传递机制，让节点（原子）与其邻居交换信息，迭代更新节点的特征向量。最终，每个原子的特征被汇总（例如，通过加和）得到体系总能量。

代表性模型：SchNet, DimeNet++, PaiNN, GemNet, Equiformer等。这些模型内置了等变性（Equivariance）约束，例如PaiNN和Equiformer v2是E(3)等变的，意味着它们不仅能输出不变标量（如能量），还能直接输出等变向量（如原子受力），这大大提升了力预测的精度和训练效率。

注意事项：表面与界面体系的图构建对于界面，特别是异质界面，两种材料的晶格常数和化学性质不同。在构建图时，界面两侧原子的连接需要特别小心。一种常见做法是将界面模型视为一个整体超胞，基于原子间的绝对距离（考虑周期性）来构建边。要确保截断半径能覆盖到关键的界面相互作用，但又不能太大以至于包含不相关的次近邻原子，增加计算开销和噪声。对于范德华（vdW）主导的界面，可能需要考虑更长的相互作用距离。

2.2 主流机器学习势函数（MLIPs）框架与选型

选择一个合适的MLIP框架是项目成功的第一步。下表对比了几个在表面科学中常用或具有潜力的框架：

框架名称	核心模型/描述符	主要特点	适用场景与表面科学考量
DeePMD-kit	深度势能（Deep Potential）	国产优秀框架，社区活跃，与LAMMPS等MD引擎集成极好，支持大规模并行。使用自定义的网络架构和描述符。	非常适合大规模、高性能的分子动力学模拟，如表面催化反应路径采样、高温表面重构动力学。其效率在超算上表现优异。
ANI(ANAKIN-ME)	基于原子中心对称函数的神经网络	最初为有机分子设计，但已扩展至元素周期表大部分元素。模型较小，推理速度极快。	适合快速筛选大量分子在表面的吸附构型，或作为更精确计算（如DFT）的预筛选器。对于含有机分子的表面界面体系有潜力。
GAP(QUIP)	高斯过程回归 + SOAP描述符	基于贝叶斯框架，能提供预测不确定性估计，这对主动学习至关重要。SOAP描述符精度高。	非常适合数据稀缺的初期探索阶段。其不确定性量化可用于指导下一步该算哪个结构，高效构建训练集。在复杂、低对称性的表面缺陷研究中很有用。
MACE	等变消息传递神经网络	最新的等变架构，精度高，特别是对于力、偶极矩等方向性属性的预测。	在处理需要高精度力场的表面振动谱计算、铁电表面极化预测等任务中表现出色。其等变性天然适合物理性质的学习。
Allegro	等变不可约标量/向量网络	强调严格的等变性和可扩展性，在保持高精度的同时实现了近乎线性的缩放。	适用于超大规模表面/界面体系（数万原子）的模拟，例如研究纳米颗粒催化剂的整体形貌演化，或复杂界面处的位错运动。

选型建议：
初探与主动学习：如果你的体系非常新颖，数据点很少（<1000），且需要知道模型在哪里“没把握”，GAP是首选。它的不确定性估计能帮你最有效地花掉宝贵的DFT计算资源。
大规模分子动力学：如果你的目标是进行纳秒级以上的动力学模拟，体系规模较大（>1000原子），DeePMD-kit或Allegro是目前在性能和精度上最稳健的选择，社区支持也好。
高精度与复杂性质：如果你不仅需要能量和力，还关心体系的电子性质（如偶极矩、极化）、或需要极高的力预测精度来寻找过渡态，MACE或PaiNN这类等变模型值得尝试。
快速筛查与代理：如果你需要处理成千上万个可能的吸附位点或表面重构模型，进行快速初筛，ANI或一些基于简单描述符的轻量级模型（如使用scikit-learn训练的模型）可能更合适。

2.3 训练流程与数据生成策略

构建一个可靠的MLIP，其工作流远不止“跑一个训练脚本”。一个严谨的流程如下：

2.3.1 初始训练集构建：多样性至上初始数据集的代表性决定了模型的天花板。对于表面/界面体系，绝不能只采样平衡构型。

必须包含的构型：
1. 体相（Bulk）：分别获取界面两侧材料的体相晶体数据（不同晶格常数下的能量-体积曲线），这有助于模型学习材料的本征弹性性质。
2. 清洁表面（Clean Surfaces）：不同米勒指数的表面 slab 模型，并进行不同程度的弛豫。
3. 缺陷表面：引入点缺陷（空位、替代）、台阶、晶界等。
4. 吸附体系：分子/原子在不同高对称性位点（顶位、桥位、洞位）的吸附构型，以及不同覆盖度下的结构。
5. 扰动构型：对上述稳定构型施加随机原子位移（如0.03 Å RMSD），并计算其单点能和力。这是让模型学习力场“形状”的关键，数据量应占较大比重。
6. 分子动力学快照：对关键体系进行短时间的DFT-MD模拟（NVT系综，在感兴趣的温度下），每隔几步取一个快照。这能采样到有限温度下的相空间。

2.3.2 主动学习（Active Learning）循环这是用最少数据训练出稳健模型的核心技术。基本循环是：训练模型 -> 用模型探索 -> 找出模型不确定的构型 -> 用DFT计算这些构型 -> 加入训练集 -> 重新训练。

不确定性度量：对于GAP这类贝叶斯模型，可以直接得到预测方差。对于神经网络，常用委员会模型（Committee Models）法：训练多个结构相同但初始化不同的模型，用它们预测的方差作为不确定性估计。
探索策略：
- 分子动力学驱动：用当前MLIP跑MD，当原子受力或能量的不确定性超过阈值时，中止模拟，将当前构型送去DFT计算。
- 全局结构搜索驱动：用MLIP辅助的全局优化算法（如贝叶斯优化、遗传算法）搜索新结构，将搜索过程中遇到的新奇或能量低的候选结构进行DFT验证。
- 针对反应路径：用MLIP运行NEB寻找过渡态，对路径上的图像进行不确定性评估，对高不确定性点进行DFT精修。

2.3.3 损失函数与训练技巧损失函数通常是能量、力和应力的加权均方误差（MSE）之和：Loss = w_E * MSE(E) + w_F * MSE(F) + w_S * MSE(S)

权重调整：力的权重（w_F）通常要设得比能量（w_E）大很多（例如100-1000倍），因为力的数据点更多（原子数×3），且力的准确对MD模拟的稳定性至关重要。
归一化（Normalization）：务必对输入特征（描述符）和输出标签（能量、力）进行归一化。将能量减去体系平均原子能量，可以提升训练稳定性。
验证与测试：严格区分训练集、验证集和测试集。测试集应包含从未在训练循环中出现过的、具有代表性的“出分布”构型，如一种全新的吸附分子或一种不同的表面重构类型，以真实评估模型的泛化能力。

3. 关键应用场景实战剖析

掌握了核心方法，我们来看看ML如何具体解决表面科学中的经典难题。我将结合文献案例和自己的理解，深入几个关键场景。

3.1 场景一：复杂表面重构的全局结构预测

问题：给定一个化学计量和基底取向，表面原子会如何重新排列以降低能量？这可能涉及大规模原子位移、形成超胞、甚至改变表面化学计量。传统方法如模拟退火结合DFT，计算成本高到无法承受。

ML增强方案：

构建初始MLIP：使用一个较小的、包含体相、不同终端表面以及一些猜测的可能重构模型（来自文献或对称性分析）的数据集，训练一个初步的MLIP。
迭代全局搜索：使用这个初步MLIP驱动全局优化算法。常用的有：
- 遗传算法（GA）：如USPEX、CALYPSO。将表面slab的原子位置编码为“基因”，通过选择、交叉、变异操作进化出低能量结构。MLIP用于快速评估成千上万个候选个体的能量。
- 贝叶斯优化（BO）：如GOFEE、BEACON。将结构搜索视为一个黑盒函数优化问题（输入是结构，输出是能量）。高斯过程回归（GPR）��为代理模型，不仅预测能量，还给出不确定性。算法倾向于探索高不确定性区域（可能发现新结构）或开发低预测能量区域（找到最低点）。
主动学习精炼：将全局搜索中找到的低能量候选结构，以及搜索过程中代理模型最不��定的结构，用DFT进行精确计算。将这些新数据加入训练集，更新MLIP。然后用更精确的MLIP开始新一轮搜索。如此迭代2-4轮，通常能以比纯DFT搜索少1-2个数量级的计算成本，找到全局或近全局最小结构。

案例与心得：在预测某过渡金属氧化物表面重构时，我们曾使用类似SAMPLE的策略。初始数据集仅包含50个DFT计算的随机扰动表面结构。用GPR模型结合主动学习，在搜索了约2000个候选结构（仅对其中150个进行了DFT计算）后，成功预测出了与实验吻合的(√3×√3)R30°重构。关键点在于：初始数据虽少，但必须包含足够的“物理扰动”，并且主动学习的选择标准要平衡“探索”和“利用”。过于贪婪地只算低能量预测点，可能会陷入局部极小；而只算高不确定性点，则收敛速度慢。

3.2 场景二：覆盖度依赖的吸附热力学与相图

问题：在催化或传感应用中，表面吸附物的覆盖度（θ）是关键变量。不同覆盖度下，吸附物之间会产生相互作用，形成有序或无序的吸附层，甚至引发表面重构。如何预测在不同温度（T）和压力（p）下最稳定的表面相？

ML增强方案：

构建构型空间：对于一个给定的覆盖度，可能存在海量的吸附构型（吸附位点排列组合）。ML用于快速评估这些构型的能量。例如，使用簇展开（Cluster Expansion）的ML变体。将吸附体系能量表示为一系列簇（单点、对、三角等）作用的求和，系数用线性回归或更复杂的ML模型拟合少量DFT数据得到。
高效采样与相图计算：有了快速的能量评估器，就可以用蒙特卡洛（MC）模拟来研究吸附层的有限温度行为。通过巨正则蒙特卡洛（GCMC）模拟，可以直接得到在不同化学势（μ，对应不同的气相压力）和温度下的平衡覆盖度和有序度。
构建表面相图：结合ab initio热力学，计算每个稳定吸附相的表面自由能 γ(θ, T, p)。对于吸附体系 A on surface S，其表面自由能可近似为：γ(θ, T, p) ≈ [E_total(θ) - N_S * E_bulk(S) - N_A * μ_A(T, p)] / Area其中，E_total是MLIP预测的总能量，E_bulk是基底体相每个原子的能量，μ_A是吸附物A在气相中的化学势（与温度压力相关）。绘制不同（T, p）条件下表面自由能最低的相，即得到表面相图。

避坑指南：
长程相互作用：对于带有电荷的吸附物或极性分子，偶极-偶极相互作用可能是长程的。简单的簇展开（只考虑近邻）可能失效。此时，可以考虑在描述符或模型中显式加入静电描述项，或者使用能学习长程相互作用的GNN模型。
基底弛豫：吸附可能导致基底表面原子显著弛豫。在构建训练集时，必须包含基底原子弛豫后的构型。一个偷懒但危险的做法是固定基底原子，这会导致模型严重低估吸附能。
振动熵贡献：在精确计算自由能时，振动熵（特别是低频的吸附模式和平行于表面的振动）的贡献不可忽略。MLIP可以用于计算力常数矩阵，进而估算振动自由能，但这需要模型对力的预测非常精确。

3.3 场景三：反应能垒预测与动力学模拟加速

问题：催化反应速率由反应能垒（活化能）决定。寻找过渡态（TS）是计算成本最高的步骤之一，因为需要精确计算能量对原子位置的二阶导数（Hessian矩阵），并进行复杂的路径搜索。

ML增强方案：

ML-NEB（机器学习助推的弹性带方法）：这是目前最实用的方案。传统NEB需要频繁调用DFT计算路径上所有“图像”的力和能量。
- 流程：先用较粗糙的方法（如经验势或少量DFT点）初始化一条反应路径。用初步训练的MLIP计算所有图像的力和能量。然后，不是用MLIP的力直接优化，而是利用MLIP预测的不确定性。选择不确定性最大的那个图像，用DFT进行精确计算。用这个新的高精度数据点更新MLIP。重复此过程，MLIP在反应路径关键区域的精度会迅速提升，最终用很少的DFT计算（通常比传统NEB少一个数量级）就能收敛到精确的过渡态。
- 优势：DFT计算只用在“刀刃”上，即MLIP最没把握的地方。Garrido Torres等人的工作表明，对于复杂表面扩散反应，力评估次数可减少90%以上。
直接能垒预测模型：这是一个更激进但极具潜力的方向。目标是绕过过渡态搜索，直接输入反应物和产物的结构，由模型预测活化能。这需要模型能深刻理解反应坐标的物理化学特征。
- 方法：通常将反应物和产物的结构信息（通过描述符或GNN）同时输入模型，或者设计一种能表征“反应对”差异的描述符。Singh等人使用特征工程结合线性回归，在特定催化反应上取得了不错效果。更先进的图模型如GemNet-OC，通过建模原子对和原子三联体之间的相互作用，理论上具备直接学习反应能垒的能力。
- 挑战与展望：直接预测的泛化能力是巨大挑战。一个针对CO加氢反应训练的模型，很难用于NO分解反应。未来的方向可能是开发更大的、涵盖多种反应类型的预训练模型（“反应基础模型”），再针对特定体系进行微调。

实战技巧：
初始路径的质量至关重要：ML-NEB的收敛速度强烈依赖于初始路径。一个完全离谱的初始猜测会导致MLIP在错误区域学习，浪费DFT计算。建议先用经验势或简化的DFT泛函跑一个粗略的NEB，或者使用IDPP（Image Dependent Pair Potential）方法生成一个合理的初始路径。
关注“ climbing image”：在ML-NEB中，对最高能量点（通常是过渡态附近）的图像应给予更高的采样权重或不确定性惩罚，因为该区域的精度对能垒影响最大。
验证过渡态：即使用ML-NEB找到了一个 saddle point，也必须用DFT计算其Hessian矩阵进行验证，确保有且仅有一个虚频，并且该虚频对应的振动模式指向预期的反应物和产物。

4. 前沿挑战与未来方向

尽管ML在表面科学中已取得瞩目成就，但真正走向“常规武器”仍面临几座大山。这些挑战也是领域内最活跃的研究方向。

4.1 数据困境：稀缺、不一致与偏差

挑战：表面科学缺乏像QM9（分子）或Materials Project（体相晶体）那样大规模、高质量、标准化的数据库。现有数据分散在不同研究组，计算标准不一（泛函、赝势、收敛阈值等），导致“数据孤岛”。此外，DFT本身对表面/界面体系的系统误差（如范德华作用、强关联效应描述不准）也会被ML模型继承。

应对思路：

社区协作与标准化：推动建立表面科学社区数据库，制定统一的计算协议。类似OC20（Open Catalyst 2020）数据集是一个良好开端，它包含了多种吸附物在多种金属表面的吸附构型。
迁移学习与预训练模型：利用在大规模体相或分子数据上预训练的“基础模型”（如MACE-MP, CHGNet），在少量表面特异性数据上进行微调。这能有效缓解数据稀缺问题。
多精度学习：同时使用高精度（如CCSD(T)、RPA）但昂贵的数据和低精度（如GGA-DFT）但丰富的数据进行训练。模型学习不同精度数据间的关联，从而用低成本数据提升高精度区域的预测能力。

4.2 电子性质预测：从能量到电子结构

挑战：绝大多数MLIP只学习原子核之间的相互作用（势能面），而表面科学的许多核心性质（功函数、能带对齐、电荷转移、光谱信号）直接依赖于电子结构。直接学习电子密度、哈密顿量或��谱是更前沿的课题。

当前进展：

学习哈密顿量：如DeepH模型，它学习从原子结构到紧束缚哈密顿量矩阵元的映射。一旦得到哈密顿量，就可以通过对角化快速得到能带、态密度等。这为高通量筛选界面电子性质（如异质结能带偏移）提供了可能。
学习电子密度：如SALTED方法，用高斯过程回归直接学习电子密度的展开系数。这对于研究界面处的电荷重分布、电双层结构至关重要。
学习光谱：用ML模型将结构直接映射到XPS、XAS等光谱。这可以用于辅助实验谱图的指认，甚至从光谱“反推”可能的结构。

个人见解：电子性质ML模型的门槛远高于MLIP。首先，训练数据获取成本极高（需要保存波函数或电荷密度信息）。其次，电子性质对基组、泛函等计算设置极其敏感。短期内，最可行的路径可能是发展“混合”工作流：用超快的MLIP进行结构采样和动力学模拟，然后对少数关键帧（Key Frames）进行精确的DFT电子结构计算，再用插值或简单的ML模型弥合其间。

4.3 可解释性与物理约束

挑战：深度神经网络常被诟病为“黑箱”。在表面科学中，我们不仅想要预测，更想理解“为什么”——为什么这个吸附位点更稳定？这个反应能垒的物理起源是什么？此外，如何将更多的物理定律（如长程静电、范德华相互作用、电荷守恒）硬编码到模型架构中，以提升其外推性和物理合理性。

发展方向：

可解释性工具：利用输入梯度（Gradient-based）或归因方法（如Integrated Gradients），分析模型的预测对输入原子位置的敏感度，从而识别出对能量贡献最大的关键原子或结构特征。
物理信息嵌入架构：
- 长程相互作用：在GNN中显式引入Ewald求和或多极子展开项来处理静电作用；使用专门的范德华核函数。
- 等变性（Equivariance）：如前所述，E(3)等变网络已成为标准，这本身就是对物理对称性的硬约束。
- 全局守恒量：在输出层施加约束，使模型预测的体系总电荷等于各原子电荷之和。

4.4 软件生态与工作流集成

挑战：一个完整的表面科学研究，往往涉及结构建模、DFT计算、ML训练、MD/NEB模拟、数据分析等多个环节。目前工具链仍显碎片化，缺乏一个端到端的、用户友好的集成平台。

社区趋势：

工作流自动化：基于Python的框架如ASE、pymatgen已成为标准粘合剂。像FLARE、CHGNet等MLIP框架都提供了与ASE无缝对接的接口，可以轻松嵌入到复杂的采样、优化工作流中。
云原生与可复现性：利用Jupyter Notebook、容器化技术（Docker）和可复现工作流工具（如nextflow,snakemake），将整个研究流程（从数据生成到模型部署）打包，促进研究的透明和复现。
面向实验的接口：开发能将实验表征数据（如STM图像、XRD谱）与ML模型生成的理论数据进行直接对比和迭代优化的工具，真正实现“计算驱动实验”。

机器学习正在将计算表面与界面科学从“艺术”（依赖于研究者的经验和直觉）部分地转变为“工程”（基于数据和自动化流程）。这个过程不是替代理论家的深度思考，而是将他们从重复性的、繁重的计算劳动中解放出来，去关注更本质的物理问题和更富创造性的设计。作为一名实践者，我的体会是，拥抱这个趋势的关键不在于成为ML专家，而在于成为一个“通才”——深刻理解表面科学的核心问题，同时懂得如何将ML作为强大的工具来运用。从一个小而具体的问题开始，构建一个高质量的数据集，训练一个哪怕只在这个小问题上可靠的ML模型，其带来的效率提升和新的洞察，都将是实实在在的回报。这个领域方兴未艾，最大的挑战也意味着最大的机遇。

查看全文

http://www.jsqmd.com/news/883028/