DeFecT-FF:机器学习力场加速半导体缺陷高通量筛选与建模
1. 项目概述:当机器学习力场遇上缺陷物理
在薄膜太阳能电池,尤其是CdSeTe这类II-VI族半导体材料的研究中,有一个核心问题长期困扰着材料科学家和器件工程师:缺陷。这些原子尺度上的“不完美”——比如一个缺失的镉原子(空位)、一个不该存在的铜原子(间隙杂质),或者一个砷原子取代了碲原子的位置(替位缺陷)——就像是材料内部的“陷阱”。它们会捕获光生载流子,引发非辐射复合,直接导致器件的开路电压(Voc)远低于理论极限,严重制约了电池的最终转换效率。
要理解并“驯服”这些缺陷,传统武器是第一性原理计算,特别是精度较高的混合泛函密度泛函理论(如HSE06)。它能告诉我们缺陷的形成能、电荷态、以及在能带中的能级位置。但问题在于,现实世界太复杂了。CdSeTe不是单一材料,而是硒(Se)和碲(Te)的合金,成分(x值)可以连续变化;每种成分下,缺陷的种类(空位、间隙、替位、复合体)、电荷态(+2, +1, 0, -1, -2)以及它们在晶格中可能占据的对称不等价位点,组合起来是一个天文数字。用HSE06去逐一优化这些结构?一个缺陷可能就要耗费8-9个小时的超级计算机时。想系统性地扫描整个成分-缺陷-电荷空间?这几乎是一个“不可能完成的任务”,计算资源和时间成本都无法承受。
这就是我们开发DeFecT-FF框架的初衷。我们想回答一个核心问题:能否用机器学习的力量,在保持接近DFT精度的前提下,将缺陷筛选和优化的速度提升几个数量级?我们的答案是肯定的。DeFecT-FF(Defectmodeling withForceFields)不是一个单一的模型,而是一套结合了晶体图神经网络(CGNN)、主动学习(Active Learning)和机器学习力场(MLFF)的完整工作流。它从海量的、多层次的DFT数据(包括快速的PBE和精确的HSE06计算)中学习,最终能够像经验丰富的计算材料学家一样,“秒级”预测任意新缺陷结构的能量和原子受力,并驱动快速的几何优化。
简单来说,DeFecT-FF的目标用户,是那些受困于传统DFT计算瓶颈的研究者和工程师。无论你是想快速筛选CdSeTe太阳能电池中最佳的钝化掺杂剂(比如比较Cu、As、Cl等),还是想探究晶界或位错核心处复杂的缺陷复合行为,这个框架都能将原本需要数周甚至数月的探索性计算,压缩到几天甚至几小时内完成,让你能把宝贵的时间和计算资源,聚焦在最关键、最有趣的物理问题上。
2. 核心思路拆解:为何是“晶体图神经网络+主动学习+力场”的三重奏?
要构建一个高效可靠的缺陷建模工具,我们不能只做一个“黑箱”预测器。它必须理解材料的晶体结构、化学键合,并能处理带电体系的复杂性。DeFecT-FF的设计哲学,正是基于对这三个核心挑战的深入思考。
2.1 基石:用晶体图神经网络理解材料的“社交网络”
传统描述材料结构的方法(如原子坐标、键长键角列表)对于机器学习模型来说并不“友好”。我们需要一种能天然蕴含晶体周期性、对称性和化学环境的表示方法。这就是我们选择晶体图(Crystal Graph)作为模型输入的原因。
你可以把晶体结构想象成一个社交网络。每个原子是一个“节点”,原子之间的化学键是“边”。晶体图神经网络(我们采用了ALIGNN架构)不仅考虑节点(原子)的特征(如元素种类),还考虑边(键)的特征(如键长),甚至三体相互作用(键角)。通过多层图卷积,模型能够捕捉从短程到长程的原子间相互作用,从而对材料的整体能量(我们称之为晶体形成能,Crystal Formation Energy, CFE)做出精准预测。
实操心得:在构建训练数据集时,我们不仅包含了最终的优化结构,还纳入了几何优化轨迹中的所有中间构型。这一点至关重要。因为力场训练需要学习能量随原子位置变化的“地形图”,而不仅仅是能量最低点。这些中间构型提供了丰富的力(能量梯度)信息,是训练出稳健MLFF的关键。
2.2 引擎:用主动学习高效探索未知的化学空间
Cd/Zn-S/Se/Te的缺陷化学空间广阔无垠。我们不可能,也没必要用DFT计算所有可能的缺陷构型。主动学习(AL)在这里扮演了“智能导航员”的角色。
我们的流程是这样的:
- 初始化:用一个相对较小的、覆盖部分化学空间的DFT数据集(PBE级别)训练一个ALIGNN模型(我们称之为ALIGNN-1)。
- 探索与评估:用这个模型去预测整个目标空间(例如,所有CdSexTe1-x合金中的AsTe缺陷)中成千上万个未计算构型的能量。同时,模型会给出每个预测的不确定性(Uncertainty)。
- 智能采样:我们不会随机选择新点做DFT计算。而是选择那些模型最不确定(预测方差最大)的构型。这些点通常位于训练数据分布之外或边界,是模型知识的“盲区”。
- 迭代增强:对这些高不确定性的构型进行DFT计算,将得到的新数据加入训练集,重新训练模型(ALIGNN-2)。如此循环,模型的预测能力会像滚雪球一样,用最少的DFT计算成本,快速覆盖并精通整个复杂的化学空间。
注意事项:主动学习中的“采集函数(Acquisition Function)”选择是关键。我们测试了多种策略(如最大不确定性、预期改进等),发现对于缺陷能量预测这种回归任务,最大不确定性(Maximum Uncertainty)策略最为简单有效。它能最直接地标识出模型认知的薄弱环节。
2.3 飞跃:从能量预测到力场驱动的几何优化
ALIGNN能快速预测能量,但它是一个“静态”模型。给定一个结构,它输出一个能量值。而真正的材料模拟,尤其是寻找缺陷的最稳定构型,需要几何优化——即根据原子受力不断调整原子位置,直至找到能量极小值。
这就需要机器学习力场(MLFF)。我们基于M3GNet架构训练了MLFF模型。与ALIGNN不同,MLFF模型的训练目标不仅是总能量,还包括每个原子上的受力(Forces)和体系的应力(Stress)。一旦模型训练好,它就像一个经典力场(如Lennard-Jones势)一样,可以输入原子坐标,输出能量和每个原子的受力向量。
有了受力的信息,我们就可以使用快速的梯度下降算法(如FIRE算法)进行几何优化。这个过程与DFT优化完全类似,但速度要快上千倍。MLFF优化得到的结构,其能量和原子排布与DFT优化结果高度一致,这为我们后续进行精确的(但昂贵的)单点HSE06+SOC计算,提供了近乎完美的初始结构。
3. 数据基石:构建跨越精度与尺度的DFT数据集
任何机器学习模型的性能上限,都取决于其训练数据的质量和广度。对于DeFecT-FF,我们构建了一个多层次、多尺度的DFT数据库,这是整个项目的“燃料库”。
3.1 双精度策略:PBE的广度与HSE06的深度
我们采用了两层数据策略来平衡计算成本与精度需求:
- GGA-PBE层(广度):这是我们的基础数据集,包含了超过10,000个结构。它覆盖了从二元(CdTe, CdSe, ZnTe等)到三元(CdSexTe1-x, CdxZn1-xTe)、四元合金的体相、缺陷、界面甚至位错核心结构。所有结构都计算了多种电荷态(+2, +1, 0, -1, -2)。PBE计算相对快速,使���们能够以可承受的成本生成海量数据,用于训练初版的ALIGNN和MLFF模型,特别是让模型学习复杂的化学和结构环境。
- HSE06层(深度):这是我们的精修数据集。我们从PBE数据集中挑选了最具代表性的构型(约5000个),用更精确但昂贵百倍的HSE06杂化泛函重新计算其能量。这部分数据有两个关键作用:(1) 用于训练高精度的HSE级MLFF模型,使其预测能量直接对标“金标准”;(2) 作为测试基准,验证我们整个工作流的最终精度。
3.2 缺陷构型的系统化生成:告别“手动猜测”
缺陷研究的一个常见陷阱是陷入局部能量极小值。一个缺陷(如As替位Te)在晶格中可能有多个对称不等价的位置,且每个位置经过扰动后可能弛豫到不同的稳定构型。传统研究往往只测试一两个“看起来合理”的构型,可能错过真正的基态。
在我们的流程中,我们利用Doped和ShakeNBreak等工具包,对每一种缺陷类型,在每个合金成分中,系统性地生成至少10个对称不等价位点,并对每个初始位点施加至少15种不同的对称性破缺扰动(如随机原子抖动、键长拉伸)。以CdSe0.5Te0.5中的本征空位缺陷为例,这会产生(12种缺陷类型) * (10个位点) * (15种扰动) = 1800个初始结构用于MLFF快速筛选。这确保了我们的搜索能够逃离局部极小,有更高概率找到全局或近全局的能量最低构型。
踩坑实录:早期我们尝试用简单的随机位移生成初始结构,发现MLFF优化后很多结构会收敛到非常相似的能量。引入基于对称性分析和键畸变的
ShakeNBreak方法后,构型空间的采样多样性显著提升,成功发现了传统DFT弛豫容易错过的一些亚稳态,例如Te空位(VTe)附近形成的Te-Te二聚体,这对理解缺陷的电子态至关重要。
3.3 关键数据标签:不止于总能量
对于每个DFT计算的结构,我们提取并存储以下关键信息,构成训练数据的“标签”:
- 总能量(Total Energy):用于计算晶体形成能(CFE)和缺陷形成能(DFE)。
- 原子受力(Atomic Forces):3N维向量(N为原子数),是训练MLFF的核心。
- 应力张量(Stress Tensor):用于考虑晶胞形状的弛豫(虽然在本工作中我们主要固定晶胞体积)。
- 电荷密度(可选):用于后续分析电子结构,但非MLFF训练必需。
晶体形成能(CFE)的计算公式为:CFE = [E(supercell) - Σ(n_i * E(element_i))] / N_atoms其中,E(supercell)是超胞的总能,n_i和E(element_i)分别是元素i的原子数和该元素在标准态下的单原子能量,N_atoms是超胞总原子数。CFE是一个归一化的能量,便于比较不同大小超胞、不同成分结构的稳定性。
4. 模型训练与优化:细节决定成败
有了高质量的数据,下一步就是“教”机器学习模型。这里面的技巧和陷阱,直接决定了DeFecT-FF是“玩具”还是“利器”。
4.1 ALIGNN模型训练:预测能量的“快速评估员”
我们首先训练ALIGNN模型来直接预测CFE。这是一个回归任务。我们采用了以下关键设置:
- 数据集划分:60%训练,20%验证,20%测试。验证集用于早期停止(Early Stopping)防止过拟合,测试集用于最终评估泛化能力。
- 模型架构:使用4层图卷积层和4层线图卷积层,以充分捕获原子环境的层次化信息。
- 截断半径:设置为6 Å,并考虑每个原子最近的12个邻居来构建晶体图。这个范围足以涵盖II-VI族半导体中主要的相互作用。
- 损失函数:均方误差(MSE)损失。
- 优化器:AdamW,初始学习率0.001,并配合学习率调度器。
一个重要的发现是:单独用体相数据训练的模型,在预测缺陷能量时误差很大(RMSE > 50 meV/atom)。而将体相和缺陷数据混合训练的模型,对两者的预测误差都很小(~1-8 meV/atom)。这说明缺陷引入了强烈的局部晶格畸变,模型必须“见过”这种畸变,才能学会预测它。因此,训练数据的多样性比单纯的数量更重要。
4.2 M3GNet-MLFF模型训练:学习原子间的“推拉”之力
训练MLFF比训练能量预测模型更复杂,因为目标变量多了很多(从1个总能量变为3N+1+6个量:3N个力分量,1个能量,6个应力分量)。我们的策略是:
- 分电荷态训练:我们为每个电荷态(q=+2, +1, 0, -1, -2)分别训练了一个MLFF模型。这是因为带电缺陷会显著改变周围的电子密度和原子间相互作用势,用一个模型拟合所有电荷态会显著增加难度、降低精度。
- 损失函数加权:总损失
L = w_E * RMSE_E + w_F * RMSE_F + w_S * RMSE_S。我们设置w_E=1, w_F=1, w_S=0.01。力的误差权重与能量相同,因为力的准确性直接决定几何优化的质量;应力权重较低,因为本工作中晶胞弛豫不是重点。 - 两阶段训练与困难样本挖掘:
- 预热阶段:用均匀采样训练几十个epoch,让模型先学到数据的大致分布。
- 重加权阶段:用预热后的模型在训练集上做预测,计算每个样本的预测误差(能量+力)。给预测误差大的样本(“困难样本”)分配更高的采样权重。在后续训练中,这些“难学”的构型会被更频繁地抽取到,迫使模型重点优化对这些构型的拟合。我们每10-20个epoch更新一次权重。
核心技巧:这种“困难样本挖掘”策略效果显著。对于缺陷体系,某些特定的键合环境(如严重扭曲的四面体、缺陷复合体界面)在数据集中可能占比较少,但能量和力的变化却非常剧烈。均匀采样下模型容易忽略它们,导致在这些关键区域预测不准。重加权策略确保了模型不会“偏科”,整体预测性能更加均衡可靠。
4.3 几何优化:MLFF大显身手的舞台
训练好的MLFF模型,其核心应用就是驱动几何优化。我们使用原子模拟环境(ASE)中的FIRE优化器,收敛标准为平均原子力小于0.01 eV/Å。
与传统DFT优化对比:
- DFT-HSE06优化:对一个3x3x3超胞(~200原子)中的缺陷进行优化,通常需要50-100个离子步,每个离子步需要数十分钟到数小时(取决于体系和计算资源)。总耗时:8-12小时。
- MLFF优化:同样体系,每个离子步的能量和力评估是毫秒级的。完成一次优化(约100步)仅需1-2分钟。
这不仅仅是速度的提升,更是工作模式的变革。现在,我们可以轻松地对一个缺陷的数十甚至上百个初始扰动构型进行快速优化,从中找出能量最低的一个,然后再对这个最优构型进行单点的、高精度的HSE06计算来确认其电子结构。这个“MLFF预筛选+HSE06精修”的两步法,将全面探索缺陷构型空间从“不可行”变成了“常规操作”。
5. 电荷校正与缺陷形成能计算:跨越周期性边界条件的陷阱
在周期性边界条件下计算带电缺陷,有一个著名的“陷阱”:镜像电荷相互作用。你的超胞中心有一个带+2电荷的缺陷,它的周期性镜像在周围超胞中也是+2电荷,同性相斥,这会人为地抬高体系的���量。此外,由于引入了均匀背景电荷来保持体系电中性,还需要进行势能对齐校正。
5.1 Freysoldt校正方案详解
我们采用了被广泛验证的Freysoldt方案来进行电荷校正。校正能量E_corr包含两部分:E_corr = E_image + q * ΔV
镜像电荷校正(E_image):这部分校正点电荷与其周期性镜像之间的虚假库仑相互作用。公式为
E_image = (q^2 * α) / (2 * ε * L)。其中:q是缺陷电荷。α是马德隆常数,取决于超胞的形状(对于立方超胞,α≈2.8373)。ε是材料的静态介电常数(对于CdTe,ε约10.4)。L是超胞的有效长度(通常取体积的立方根)。 这个公式是解析的,计算瞬间完成。它的物理图像是将点电荷嵌入一个连续介电介质中,从而屏蔽了长程的库仑发散。
势能对齐校正(q * ΔV):在DFT计算中,带电缺陷超胞和中性完美超胞的静电势的绝对值没有直接可比性。我们需要找到一个远离缺陷的“体相”区域,在那里缺陷的扰动已经衰减为零。计算该区域在缺陷超胞和完美超胞中的平面平均静电势之差,即为
ΔV。q * ΔV就是将缺陷电荷置于这个势能偏移中所做的功。
5.2 在DeFecT-FF工作流中的集成
在DeFecT-FF的自动化流程中,电荷校正被无缝集成:
- MLFF优化阶段:对于带电缺陷,MLFF模型使用经过校正的总能量进行训练和预测。这意味着模型已经内化了电荷校正带来的能量偏移。
- 缺陷形成能计算:缺陷形成能
E_form的计算公式为:E_form(q, E_F) = E_defect(q) - E_perfect + Σ(n_i * μ_i) + q*(E_F + E_VBM) + E_corrE_defect(q): 带电缺陷超胞的总能(MLFF预测并经校正)。E_perfect: 完美超胞的总能。Σ(n_i * μ_i): 化学势项。n_i是缺陷形成时从环境中获得(正)或失去(负)的原子i的数量,μ_i是该原子在特定生长条件下的化学势(如Cd-rich或Te-rich)。q*(E_F + E_VBM): 电子化学势项。E_F是费米能级(相对于价带顶VBM),E_VBM是完美晶体的价带顶绝对能量。E_corr: 上述的Freysoldt校正项。
我们的Jupyter notebook工具内置了一个化学势数据库,用户只需选择生长条件(如Cd-rich),工具会自动调用相应的化学势值,结合MLFF预测的能量和用户提供的带隙、VBM信息,实时绘制出缺陷形成能随费米能级变化的E_form - E_F图。这张图是缺陷热力学的“地图”,直接告诉我们哪种缺陷在何种费米能级下最容易形成,是深能级还是浅能级。
注意事项:介电常数
ε是校正项中的关键参数。对于合金如CdSexTe1-x,其介电常数随成分x变化。在DeFecT-FF中,我们采用线性插值(Vegard定律)来估算合金的介电常数。对于精度要求极高的场合,建议使用第一性原理计算或查阅实验值来获得更准确的ε。
6. 实战演练:以CdSeTe中AsTe缺陷为例
让我们通过一个具体案例,拆解如何使用DeFecT-FF完整分析一个缺陷。目标:研究CdSe0.5Te0.5合金中,砷(As)取代碲(Te)位点(AsTe)的缺陷特性。
6.1 步骤一:构型生成与MLFF快速筛选
- 输入准备:用户上传CdSe0.5Te0.5完美晶体的CIF文件到我们的nanoHUB工具。
- 缺陷生成:工具自动识别晶格,根据用户选择的缺陷类型“As substitution on Te site”,枚举出所有对称不等价的Te位点。在一个128原子的2x2x2超胞中,这可能产生8-10个初始位点。
- 构型扰动:对每个初始AsTe位点,使用
ShakeNBreak生成15种不同的初始扰动结构(共约150个初始构型)。 - MLFF预优化:调用训练好的、针对Cd-Se-Te化学空间的MLFF模型(q=0电荷态),并行地对这150个结构进行几何优化。这个过程在CPU集群上大约需要10-15分钟。
- 能量排序:收集所有优化后结构的MLFF预测能量(CFE),进行排序。能量最低的1-3个结构被选为“候选基态构型”。
6.2 步骤二:DFT精修与电子结构计算
- DFT结构弛豫:将MLFF筛选出的最低能量候选结构,用PBE泛函进行严格的DFT几何优化,以确保原子受力完全收敛(< 0.01 eV/Å)。此步骤作为对MLFF结果的验证和微调,通常只需1-2个离子步就能收敛,耗时约1小时。
- 高精度单点能计算:将PBE优化后的最终结构,固定原子位置,使用HSE06+SOC(自旋轨道耦合)泛函进行单点能计算。这一步非常昂贵,但只做一次。对于一个~200原子的3x3x3超胞,在大型计算集群上可能需要4-6小时。这一步得到了缺陷的“黄金标准”能量。
- 缺陷形成能与能级计算:利用HSE06计算得到的完美晶体和缺陷晶体的总能量、价带顶(VBM)、导带底(CBM),结合之前提到的公式,计算AsTe在不同电荷态(+1, 0, -1)下的形成能
E_form。绘制E_form随费米能级E_F变化的曲线。 - 电荷转移能级确定:两条不同电荷态的形成能曲线的交点,即对应缺陷的电荷转移能级(ε(q1/q2))。例如,
E_form(AsTe^0)和E_form(AsTe^-1)曲线的交点,就是 AsTe的 (0/-1) 能级在带隙中的位置。如果这个能级靠近带隙中央,它就是有害的深能级复合中心;如果靠近能带边缘,则是相对无害的浅能级。
6.3 结果解读与物理洞察
通过上述流程,我们可能发现:
- AsTe在CdSe0.5Te0.5中是一个深能级缺陷。其(0/-1)能级位于距价带顶约0.4 eV处。这意味着它会成为有效的电子-空穴复合中心,降低少子寿命,从而损害电池的开路电压。
- 在富Cd生长条件下,AsTe的形成能较低。这意味着在这种工艺条件下,As杂质更容易以这种有害的形式掺入晶体。这为工艺优化提供了明确方向:可能需要控制Cd/Se/Te的比例,或引入其他补偿掺杂(如Cl)来抑制AsTe的形成。
- MLFF与HSE06的一致性:对比发现,MLFF优化出的最低能量构型与HSE06单点计算确认的构型一致,且MLFF预测的形成能趋势与HSE06结果高度吻合(误差通常在0.1-0.2 eV以内)。这证明了MLFF预筛选的可靠性。
7. 工具化与社区共享:nanoHUB上的DeFecT-FF
为了让这项技术惠及更广泛的研究社区,而不仅仅是计算专家,我们将整个DeFecT-FF工作流封装成了一个基于Jupyter Notebook的交互式网络工具,部署在nanoHUB平台上。
7.1 工具核心功能
用户友好输入:
- 晶体结构:支持直接上传CIF、POSCAR等标准格式文件,或从内置材料数据库中选择。
- 缺陷定义:通过下拉菜单选择缺陷类型(空位、间隙、替位、复合体)和掺杂元素(Cu, As, Cl, O等)。
- 计算参数:设置超胞大小、电荷态列表、化学势条件(富Cd、富Te等)、以及材料的带隙和VBM信息(可从文献或初步计算获得)。
自动化工作流执行:
- 工具后端自动调用部署好的MLFF模型,对用户定义的缺陷进行构型枚举、扰动和快速几何优化。
- 优化完成后,自动从内置化学势库中读取数据,计算缺陷形成能。
- 最终生成并可视化
E_form - E_F图,并输出包含优化后结构、能量、形成能等信息的CSV报告。
结果输出与验证:
- 可下载文件:优化后的结构文件(CIF/POSCAR)、详细的能量日志、形成能数据表。
- 重要提示:工具界面会明确标注,对于器件性能至关重要的缺陷案例,建议将MLFF优化的最低能量结构,进行最终的、目标性的HSE06(+SOC)计算验证。DeFecT-FF的核心价值在于“快速筛选和提出假设”,而最高精度的确认仍需依赖传统DFT。
7.2 使用场景与限制
- 适合场景:
- 高通量初筛:快速比较多种掺杂剂、多种合金成分下的缺陷行为。
- 构型��间探索:系统研究一个特定缺陷所有可能的对称性破缺构型,寻找全局能量最低点。
- 教学与演示:让学生直观理解缺陷形成能、电荷态、能级等概念。
- 当前限制:
- 化学空间:目前预训练的模型主要针对Cd/Zn-S/Se/Te体系。对于其他材料体系(如钙钛矿、氧化物),需要重新生成DFT数据并训练模型。
- 精度边界:MLFF的精度上限取决于其训练的DFT数据。对于强电子关联、磁性体系或激发态性质,目前框架的预测能力有限。
- 动态过程:专注于基态静态缺陷性质。对于缺陷扩散、迁移等动力学过程,需要基于MLFF进行分子动力学模拟,这属于更进阶的应用。
8. 总结与展望:加速材料发现的范式转变
回顾整个DeFecT-FF项目,其最大的价值不在于提出了某个新的算法,而在于构建了一个完整、自动化、且切实可用的工作流,将机器学习力场从学术论文中的概念,变成了材料研究者手边可以随时调用的“计算显微镜”。
从个人实践的角度来看,这套方法最让我兴奋的几点是:第一,它改变了研究节奏。以前设计一个计算实验,需要反复掂量计算资源,一个想法可能要排队数周才能验证。现在,利用MLFF的快速筛选,一天之内就能完成几十个候选方案的初步评估,快速聚焦到最有希望的2-3个方向上,然后再投入宝贵的HSE06资源进行精确认证。这极大地提升了科研的探索效率和迭代速度。第二,它降低了领域门槛。通过nanoHUB工具,即使不熟悉机器学习代码和DFT软件细节的实验组同行,也能上传他们的材料结构,快速获得缺陷性质的初步分析报告,从而更有效地指导他们的合成与表征实验。计算与实验的对话变得更加紧密和高效。第三,它指向了一个更智能的未来。DeFecT-FF目前还是一个“被动”的工具,需要用户提出问题(定义缺陷)。未来的方向是将其与逆向设计、贝叶斯优化结合。例如,给定一个目标(“在CdSeTe中找到一种掺杂剂,使其在富Se条件下形成能高,在富Cd条件下形成能低,且只产生浅能级”),让AI自动在庞大的化学和构型空间中搜索满足这些复杂约束的解决方案。这将是材料发现范式的又一次革命。
当然,这条路还很长。如何将动态性质、非平衡过程、甚至与宏观器件模拟耦合,都是充满挑战的前沿。但DeFecT-FF已经迈出了坚实的一步,它证明了将物理驱动的第一性原理与数据驱动的机器学习深度融合,是解决材料科学中复杂高通量问题的强大路径。对于从事半导体缺陷物理,特别是光伏材料研究的同行来说,现在正是拿起这个工具,开始你们自己的“加速探索”的时候。
