当前位置：首页 > news >正文

机器学习预测Ce³⁺荧光粉激发波长：从XGBoost模型到新型蓝光激发材料发现

news 2026/7/22 11:52:27

1. 项目概述：当机器学习遇见荧光粉设计

在固态照明和显示技术领域，我们每天都在与一种关键材料打交道：无机荧光粉。无论是你手机屏幕的背光，还是家中节能LED灯泡发出的白光，其核心都离不开这些能将特定波长光线高效转换成其他颜色光的“魔法粉末”。其中，以三价铈离子（Ce³⁺）作为激活剂的荧光粉尤为重要，因为它能通过4f-5d电子跃迁产生高效的宽带发射，是实现高显色性、高效率白光LED的核心材料之一。

然而，荧光粉设计，尤其是针对蓝光LED芯片（波长通常在440-470 nm）激发的荧光粉，一直是个“碰运气”的活儿。传统上，材料化学家们依赖经验规则和直觉，或者动用计算量巨大的第一性原理模拟来预测Ce³⁺的5d¹激发态能级位置，也就是它到底能被什么颜色的光有效激发。这个过程不仅耗时费力，成功率也像大海捞针。文献中绝大多数Ce³⁺荧光粉的激发带都落在紫外区，真正能被商用蓝光LED有效激发的材料凤毛麟角，这也是为什么市面上高性能白光LED的配方多年来变化不大的原因之一。

最近几年，我所在的团队开始尝试用数据驱动的方法来破局。我们思考，既然材料的激发带位置（5d¹能级）本质上是由其晶体结构、化学成分和Ce³⁺所处的局部配位环境共同决定的复杂函数，那么机器学习（Machine Learning, ML）这种擅长从高维数据中挖掘复杂模式的技术，是不是能帮我们找到这个隐藏的“函数”？于是，我们启动了这个项目：利用XGBoost算法，构建一个能够定量预测Ce³⁺荧光粉最长波长激发带（即最低能量的5d¹能级）位置的机器学习模型，并最终通过实验合成一个全新的材料来验证模型的预测能力。

这篇文章，我将详细拆解我们如何从零开始构建这个预测模型，包括数据集的艰辛收集与清洗、特征工程的思路、模型训练与优化的具体细节，以及最终如何从数万个候选材料中锁定并成功合成出Ca₂SrSc₆O₁₂:Ce³⁺这个新型蓝光激发绿色荧光粉的全过程。无论你是材料领域的研究者，还是对机器学习在科学发现中应用感兴趣的工程师，相信都能从中获得一些启发和可以直接借鉴的实操经验。

2. 核心挑战与设计思路拆解

在动手敲代码之前，我们必须先想清楚几个核心问题：我们要预测的物理量到底是什么？影响它的关键因素有哪些？以及，我们手头有什么样的数据可以用来“教”会模型？

2.1 预测目标：Ce³⁺的5d¹激发能级

Ce³⁺的发光源于其4f¹电子组态。当它吸收能量后，一个4f电子会被激发到能量更高的5d轨道。由于5d轨道受晶体场影响会发生能级分裂，其中能量最低的那个5d轨道（记为5d¹）的能级位置，就决定了材料能被多长波长的光有效激发。这个能量通常用“红移”（D）来表示，即自由Ce³⁺离子的5d能级（约6.17 eV，对应201 nm）与在具体基质中实测的5d¹能级之间的能量差。我们的目标，就是建立一个模型，输入一个给定晶体结构和Ce³⁺掺杂位点的信息，输出其5d¹能级的预测值（单位eV或对应波长）。

2.2 影响因素的物理图像：晶体场与电子云重排

为什么预测5d¹能级如此困难？因为它受到两个主要物理效应的共同影响：

** centroid shift（质心位移，或称电子云重排效应）**：配位阴离子（如O²⁻, N³⁻）会吸引Ce³⁺的5d电子云，降低电子间的排斥，从而使整个5d能级的质心向低能方向移动（红移）。这个效应主要与阴离子的电负性、极化率等化学性质有关。
** crystal field splitting（晶体场分裂）**：Ce³⁺所处的局部配位环境（配位数、配位多面体形状、键长等）会打破5d轨道的简并，使其分裂成不同能级的轨道。其中，能量最低的轨道（5d¹）的位置直接决定了激发波长。通常，配位数越低、键长越短、配位场越强，分裂能越大，5d¹能级就越低（波长越长）。

因此，一个有效的特征集必须能同时捕捉到反映基质整体化学性质的“质心位移”信息和反映局部几何结构的“晶体场分裂”信息。

2.3 数据基础：小而精的实验数据集

机器学习模型的好坏，七分靠数据。我们面临的第一个现实是：高质量、标注清晰的Ce³⁺激发带实验数据非常有限。我们花了大量时间从已发表的文献中爬梳，并结合实验室内部的测量，最终构建了一个包含357个独立Ce³⁺阳离子掺杂位点的数据集，这些数据来源于337种不同的基质材料。这个数据量在材料科学领域算是典型的“小数据集”，这对机器学习模型的选择和训练策略提出了很高要求。

数据集覆盖了从紫外到蓝绿光区域的激发波长，但分布极不均匀：仅有约4%的数据点落在商用蓝光LED的发射范围（440-470 nm）内。这恰恰印证了发现蓝光激发Ce³⁺荧光粉的难度，也意味着我们的模型必须在小样本、非均衡的数据分布下，依然能在我们最关心的“蓝光区域”做出可靠预测。

2.4 技术选型：为什么是XGBoost？

面对小规模、可能含有噪声的数据集，模型的选择至关重要。我们放弃了复杂的深度学习模型，因为它们通常需要海量数据。经过对比，我们选择了极端梯度提升树（XGBoost）算法。原因有三：

对中小数据集友好：树模型本身对数据量要求相对较低，且XGBoost通过集成多棵弱学习器（决策树）来提升性能，能有效利用有限数据。
强大的正则化能力：XGBoost内置了L1和L2正则化、子采样（subsample）、列采样（colsample_bytree）等机制，能有效防止过拟合，这对于我们只有几百个样本的情况是生命线。
可解释性：训练完成后，XGBoost可以提供特征重要性排序，这不仅能验证我们的物理直觉（比如哪些特征对预测贡献大），还能反过来指导我们对材料物理机制的理解。

基于以上分析，我们的技术路线图变得清晰：以357个实验测量的5d¹能级值为目标，构建一个融合了局部结构、整体晶体结构和化学成分信息的124维初始特征集，利用XGBoost算法进行训练，并通过严谨的验证策略和特征筛选，得到一个稳健、可解释的预测模型，最终用于高通量筛选新材料。

3. 数据工程与特征构建实战

模型的大厦建立在数据的基石上。这一部分，我将深入讲解我们如何从原始的晶体结构文件（CIF）和化学成分出发，一步步构建出那124个初始特征。这个过程充满了材料信息学的巧思和工程上的取舍。

3.1 特征来源一：局部配位环境（13个特征）

这部分特征的目标是量化Ce³⁺离子“坐”在晶体格点里所感受到的局部晶体场。我们使用Pymatgen等材料学Python库来自动化提取：

几何特征：配位多面体体积、配位数（Coordination Number, CN）、平均键长、最短/最长键长。这些直接决定了晶体场分裂的强度。例如，一个配位数为6的八面体位置，通常比配位数为12的二十面体位置产生更强的晶体场分裂，从而导致更大的红移。
对称性特征：局部点群（Point Group）。对称性高低会影响5d轨道的分裂方式。我们将其编码为分类变量。
离子尺寸匹配：Ce³⁺离子半径与它所替代的宿主阳离子半径之差。尺寸不匹配会引入晶格应变，影响局部键长和键角，从而间接改变晶体场。
高级描述符：配位多面体畸变指数（Distortion Index）、连续对称性度量（Continuous Symmetry Measure, CSM）。这些指标能更精细地描述理想多面体（如正八面体）与实际几何形状的偏差。
化学环境标识：使用ChemEnv工具包计算的化学环境类型标识符。它不仅能识别配位数，还能区分几何构型（如八面体、三棱柱等），比单纯的配位数包含更多信息。

实操心得：从CIF文件中提取这些局部特征时，必须注意原子位置无序（site disorder）的处理。很多实验报道的结构中，阳离子位点是统计占位的（比如Ca和Sr以一定比例随机占据同一个晶格位）。直接使用无序结构计算局部环境会导致特征失真。我们的做法是使用Pymatgen的OrderDisorderedStructureTransformation模块，预测一个低能量的有序超胞结构，再基于这个有序结构进行特征计算。这一步对保证特征质量至关重要。

3.2 特征来源二：整体晶体结构（14个特征）

这部分特征描述的是整个晶体框架的宏观性质，对于区分同质异形体（polymorphs）尤其重要。因为化学成分相同但晶体结构不同的材料，其性质可能天差地别。

空间群与晶胞：空间群编号、晶系、晶胞参数（a, b, c, α, β, γ）、晶胞体积、每个原子平均占有的体积、每个化学式单元（Z）占有的体积。
对称性：晶体是否具有极性轴、是否具有反演中心。这些对称性元素可能与材料的介电性质有关。
密度：计算的理论密度。

3.3 特征来源三：化学成分（95个特征）

这是特征数量最多的一部分，旨在捕捉基质的整体化学倾向，主要影响质心位移效应。我们的策略是：为组成化合物的每种元素，选取一系列基本的物理化学属性（如电负性、极化率、电子亲和能、电离能、原子量等），然后针对整个化合物的化学式，计算这些属性的五种统计量：

最大值（Max）：反映体系中“极端”元素的属性。
最小值（Min）：反映另一端的“极端”元素。
平均值（Avg）：反映整体化学倾向。平均泡林电负性后来被证明是我们模型中最重要的特征之一，因为它直接关联于阴离子对电子云的吸引能力（质心位移）。
极差（Diff，即Max-Min）：反映化合物中元素的化学多样性。
标准差（Std）：反映元素属性的离散程度。

例如，对于Ca₂SrSc₆O₁₂，我们会提取Ca、Sr、Sc、O四种元素的“极化率”值，然后计算这四个值的平均值、最大值、最小值、极差和标准差，作为5个独立的特征。我们对约20种元素属性进行了这种处理，从而衍生出大量成分特征。

3.4 特征来源四：基于机器学习的物理性质预测（2个关键特征）

除了上述直接从结构计算的特征，我们还引入了两个通过我们团队先前开发的机器学习模型预测得到的物理量作为特征，因为它们与5d¹能级有直接的物理联系：

相对介电常数（εᵣ）预测值：介电常数反映了材料屏蔽电场的能力，与电子云极化密切相关，从而影响质心位移。我们使用更新后的XGBoost模型（基于2254个实验数据训练，留一法交叉验证R²达88.7%）来预测。
质心位移（ε_c）预测值：这正是我们想要解释的物理量的一部分！我们使用另一个专门的XGBoost模型（留一法交叉验证R²达90.1%）来预测它。将预测的ε_c作为特征输入，相当于让模型直接利用了这个已知的强相关物理量。

至此，我们得到了一个包含13（局部）+ 14（结构）+ 95（成分）+ 2（预测性质）= 124个特征的初始特征集。特征虽多，但其中必然存在大量冗余或无关的特征。下一步，就是如何用这些特征去训练并优化我们的模型。

4. 模型训练、优化与特征筛选

有了数据和特征，模型训练并非一蹴而就。如何在小数据集上训练出稳健、可靠且不过拟合的模型，是这一阶段的核心任务。我们采用了“交叉验证防过拟合”和“递归特征消除提纯度”的组合拳。

4.1 交叉验证策略：留一组出法（LOGO-CV）

在材料数据集中，一个常见问题是“数据泄露”。比如，同一种化合物的不同晶型（多形体），或者同一化合物中多个不同的Ce³⁺掺杂位点，它们的特征非常相似。如果采用普通的k折交叉验证，这些高度相似的数据可能被随机分到训练集和测试集，导致模型在测试集上表现出虚假的高精度，因为它已经在训练集中“见过”非常相似的数据。

为了解决这个问题，我们采用了留一组出交叉验证（Leave-One-Group-Out Cross-Validation, LOGO-CV）。具体做法是：我们将数据按化合物组成进行分组。在每一轮验证中，我们将某一个化合物的所有数据（可能包含多个掺杂位点）作为测试集，其余所有化合物的数据作为训练集。这样确保了测试集中的材料在训练集中完全没有出现过，评估结果更能反映模型对新材料的泛化能力。我们使用LOGO-CV来进行超参数优化和最终的模型性能评估。

4.2 超参数优化与模型性能

我们使用LOGO-CV对XGBoost的11个关键超参数进行了网格搜索与贝叶斯优化，包括：

学习率（learning_rate）：控制每棵树的贡献，防止过拟合。
最大深度（max_depth）：控制单棵树的复杂度。
子样本比例（subsample）和列采样比例（colsample_bytree）：随机森林的思想，增加随机性以提升模型鲁棒性。
L1和L2正则化参数（reg_alpha, reg_lambda）：直接在损失函数中惩罚模型复杂度。

使用全部124个特征进行初始训练，LOGO-CV得到的模型平均绝对误差（MAE）为±0.159 eV，决定系数R²为84.3%。这个精度已经相当不错，考虑到实验测量本身也存在误差。但我们需要一个更精简、更可靠的模型。

4.3 递归特征消除（RFE）：寻找核心特征集

124个特征中很多是高度共线性的（比如各种元素属性的最大值、最小值、平均值之间可能存在强相关），或者对预测目标贡献甚微。保留它们不仅增加计算负担，还可能引入噪声，导致过拟合。

我们采用了递归特征消除（Recursive Feature Elimination, RFE）来精炼特征集。过程如下：

用全部特征训练一个初始XGBoost模型。
根据模型输出的特征重要性排序（基于“增益”Gain），移除重要性最低的一个（或几个）特征。
用剩余的特征重新训练模型，并在LOGO-CV下评估其MAE。
重复步骤2和3，直到特征数量减少到预设值。

我们绘制了特征数量与模型MAE的关系曲线。结果发现，当特征数量从124减少到大约40个时，模型的MAE几乎保持不变（甚至略有下降）。当特征数量少于10个时，MAE开始急剧上升。这说明有大量特征是不必要的，而保留约40个核心特征就能捕获绝大部分有效信息。

最终，我们选择了44个特征作为最优集合。分析这44个特征的重要性排名，结果非常令人振奋：

排名第一：平均泡林电负性（Avg. Pauling electronegativity）。这完全符合物理预期，因为电负性直接主导了质心位移效应。
排名第二和第四：预测的相对介电常数（εᵣ）和预测的质心位移（ε_c）。这两个由我们前期模型预测的物理量果然至关重要。
排名第五：配位数（Coordination Number）。这是影响晶体场分裂的关键几何因素。

特征重要性分析不仅没有让模型成为“黑箱”，反而强化了我们对Ce³⁺发光物理机制的理解，证明了我们构建的特征集是物理意义明确的。

4.4 最终模型性能与误差分析

使用筛选后的44个特征重新训练并优化超参数，我们得到了最终的XGBoost模型。其LOGO-CV的MAE为±0.153 eV，R²为83.8%。模型精度有小幅提升，更重要的是，特征集的精简大大降低了过拟合的风险。

这里需要特别注意误差的单位。±0.15 eV的绝对误差，在不同能量区间对应的波长误差是不同的。在紫外区（如3.6 eV，约344 nm），0.15 eV的误差只对应约12 nm的波长变化；而在我们关心的蓝光区（如2.7 eV，约459 nm），同样的能量误差则对应约25 nm的波长变化。因此，在评估模型对蓝光材料筛选的实用性时，需要结合波长标尺来看。

避坑指南：数据质量是模型的天花板。在数据清洗阶段，我们遇到了几个棘手问题，这也是所有数据驱动材料研究都会面临的：
文献数据不一致：同一化合物在不同文献中报道的激发峰位置有时相差很大。例如，CaSnO₃:Ce³⁺，有文献报道为246 nm，但我们的重复实验和晶体化学常识都表明应在378 nm附近。我们将不可靠的数据点剔除或修正。
Ce³⁺浓度的影响：激发峰位置有时会随掺杂浓度变化而移动（浓度猝灭或晶格膨胀效应）。但很多文献只报道一个“最佳”浓度下的光谱。我们的模型目前未将浓度作为特征，这可能是未来改进的一个方向。
峰位指认模糊：有些光谱中，4f→5d¹的激发峰不明显，或者与更高能的5d²峰重叠，导致指认困难。对于这类模棱两可的数据，我们选择保守处理，不予采用。

5. 模型应用：高通量筛选与新材料发现

模型训练好之后，真正的价值在于应用。我们的目标很明确：从海量的已知和无机化合物中，快速筛选出可能被蓝光LED有效激发的新型Ce³⁺荧光粉。

5.1 筛选流程设计

我们从Materials Project数据库中获取了超过15万种材料的结构信息（包括实验和计算结构），并设计了一套层层递进的启发式筛选规则：

元素过滤（化学可行性）：
- 候选掺杂位点（黄色标记）：基于文献，筛选出离子半径和配位数与Ce³⁺（CN=6时半径约1.01 Å，CN=12时约1.34 Å）相近的阳离子，如Ca²⁺, Sr²⁺, Ba²⁺, Y³⁺, Lu³⁺等。
- 基质骨架元素（蓝色标记）：限定为训练集中常见的、能形成稳定荧光粉基质的阳离子（如Al, Ga, Si, Sc等）和阴离子（O, N, S, Se等）。
- 排除元素：排除会淬灭发光的元素（如Cr³⁺, Mn²⁺, Fe³⁺）、有毒元素（Pb, Cd）和昂贵金属（Au, Pt, Ir）。经过此步，从153,188种材料中筛选出21,682种候选化合物。
带隙过滤（防止热电离猝灭）：Ce³⁺的发光需要基质的带隙大于其激发能量，否则激发态的电子会通过热电离进入基质导带，导致发光猝灭。我们设定了一个安全阈值：只保留DFT-PBE水平计算带隙大于2.1 eV的材料（因为PBE普遍低估带隙，2.1 eV的阈值对应实际带隙大于目标激发能量2.76 eV的可能性很高）。此步将候选集缩减至10,575种。
结构去重与位点枚举：移除训练集中已存在的化合物，并剔除配位数异常的结构。对于剩下的7,525种候选基质，我们枚举了其中所有可能的Ce³⁺掺杂位点（基于离子半径和电荷匹配的简单判断），共得到54,885个潜在的Ce³⁺掺杂位点。

5.2 预测结果与候选材料分析

将54,885个位点的结构信息输入我们的5d¹预测模型，得到了令人印象深刻但也符合预期的分布图：绝大多数预测的激发波长都落在紫外区，只有494个位点（约0.9%）分布在211种独特基质中，其预测激发波长落在蓝光LED范围（440-470 nm）。这不到1%的比例，直观地展示了寻找蓝光激发Ce³⁺荧光粉的挑战性。

我们进一步绘制了“预测激发波长 vs. DFT计算带隙 vs. 预测德拜温度”的三维筛选图。德拜温度是材料结构刚性的一个度量，通常与荧光粉的热稳定性（热猝灭温度）和发光量子效率正相关。我们发现：

预测激发波长与DFT带隙呈负相关趋势。带隙过宽（> 6 eV）的材料，离子性太强，导致质心位移和晶体场分裂都很弱，难以产生长波长的激发。
在蓝光激发区域，许多材料的预测德拜温度较低（≤ 500 K），意味着热稳定性可能不佳。但我们也发现了一些德拜温度高于600 K的“潜力股”，它们同时具备蓝光激发和潜在高热稳定性的可能。

5.3 目标材料选定：Ca₂SrSc₆O₁₂:Ce³⁺

在综合评估了预测的激发波长（需在蓝光区）、带隙（需足够大）、德拜温度（希望较高）以及结构新颖性（避免重复已知的石榴石或氮化物体系）后，我们锁定了Ca₂SrSc₆O₁₂这个化合物。

结构：正交晶系，Pnma空间群。结构中存在一个由Ca和Sr统计占位的8配位阳离子位点，适合Ce³⁺掺杂。
模型预测：对该位点进行预测，得到5d¹激发能量为2.94 eV，对应波长422 nm。DFT计算带隙为3.39 eV，预测德拜温度为594 K。各项指标均符合我们对高性能蓝光激发荧光粉的期待。

6. 实验验证：从预测到发光材料

预测终究需要实验的检验。我们通过高温固相反应法成功合成了Ca₂SrSc₆O₁₂:Ce³⁺样品，并进行了全面的表征。

6.1 合成与结构确认

合成采用标准的固相反应法：以CaCO₃、SrCO₃、Sc₂O₃和CeO₂为原料，按化学计量比混合。这里有一个关键细节：为了促进Ce³⁺的掺入并防止其被氧化为不发光的Ce⁴⁺，整个合成过程在流动的5% H₂/95% N₂还原气氛中进行。合成采用两步煅烧：先在1100°C预烧10小时，研磨压片后，再在1300°C下煅烧8小时。

通过同步辐射X射线粉末衍射和Rietveld精修，我们确认合成产物是纯相的Ca₂SrSc₆O₁₂，晶格参数与文献报道一致。精修时未包含Ce，因其掺杂浓度低（1 mol%），对整体衍射谱影响很小。

6.2 光学性能表征：预测 vs. 实验

最激动人心的时刻到了——测量其发光性能。

激发光谱：实验测得的激发峰最大值（λ_ex,max）位于440 nm（2.82 eV）。这与我们模型预测的422 nm（2.94 eV）仅相差18 nm（0.12 eV），完全落在模型预测的平均绝对误差（±0.153 eV）范围内。预测取得了圆满成功！
发射光谱：在440 nm蓝光激发下，该材料发出明亮的绿光，发射峰位于503 nm，半高宽非常宽，达到112 nm（4000 cm⁻¹），覆盖了从450 nm到650 nm的广阔范围。在100 K低温下，发射谱可解卷积为两个峰（497 nm和553 nm），分别对应Ce³⁺从5d¹能级到²F₅/₂和²F₇/₂基态能级的跃迁，这是Ce³⁺发光的典型特征。
温度依赖性：随着温度从100 K升至650 K，发射光谱因热展宽而发生合并，峰值略微红移至517 nm。其发光强度在室温附近仅下降约5%，T₅₀（发光强度降至50%时的温度）高达450 K，超过了美国能源部设定的423 K��准，表现出优异的热稳定性。
发光量子产率（PLQY）：初步测量的PLQY为33%，对于未经过任何优化（如使用矿化剂、后处理等）的首次合成样品来说，这是一个很有希望的起点。较低的PLQY可能源于Ce³⁺（+3价）替代Ca²⁺/Sr²⁺（+2价）引入的电荷补偿缺陷，这是未来通过共掺杂等手段可以优化的方向。

6.3 模型的其他妙用：辅助光谱解析与数据纠偏

在模型开发过程中，我们还发现了它的一些“副产物”价值：

辅助指认掺杂位点：对于具有多个可能掺杂位点的荧光粉，Ce³⁺具体占哪个位点有时难以确定。我们的模型可以作为一个强大的验证工具。例如，对于文献中报道的BaYSi₄N₇:Ce³⁺，原作者根据离子尺寸推测Ce³⁺占据Y³⁺位。但当我们用这个假设输入模型时，预测结果（445 nm）与实验值（339 nm）相差高达0.87 eV，成为最大的异常点。而当我们“强行”假设Ce³⁺占据尺寸更大但价态不同的Ba²⁺位时，模型预测值（373 nm）与实验值惊人地接近。这强烈暗示了实际的掺杂位点可能是Ba²⁺位，为实验解析提供了新思路。
发现并纠正文献数据错误：如前所述，模型在训练初期将CaSnO₃:Ce³⁺（文献值246 nm）识别为显著异常点。这促使我们重复合成了该材料，实测激发峰在378 nm，与晶体化学分析更吻合。修正数据后，该点不再异常。这体现了数据驱动方法对构建高质量数据集的反馈优化能力。

7. 总结与展望

回顾整个项目，我们从材料学中的一个具体痛点——难以预测Ce³⁺荧光粉的蓝光激发能力——出发，构建了一个基于XGBoost的机器学习预测模型。通过精心设计包含局部、全局和化学信息的124维特征集，并利用LOGO-CV和RFE确保模型的稳健性与可解释性，最终得到了一个MAE约±0.15 eV的可靠模型。

这个模型的成功，不仅在于其预测精度，更在于它打通了“计算预测-实验验证”的闭环。我们用它从数万种候选材料中筛选出Ca₂SrSc₆O₁₂，并成功合发出一种性能不俗的新型蓝光激发绿色荧光粉，这为数据驱动的材料发现提供了一个可复制的范例。

当然，模型还有改进空间。数据集的规模和质量是上限，未来需要持续扩充和清洗。引入Ce³⁺浓度、更精确的缺陷形成能计算作为特征，或许能进一步提升精度。这个模型的框架也可以尝试迁移到Eu²⁺等其他发光离子的预测上。

对我个人而言，这个项目最深的体会是：在材料研发中，机器学习和领域知识（Domain Knowledge）不是替代关系，而是“放大器”关系。机器学习模型需要物理图像清晰的特征作为输入，而模型输出的特征重要性又能反过来深化我们对物理机制的理解。它不会取代材料化学家的合成与表征工作，但能极大地提高我们探索未知材料空间的效率和命中率。当你看到模型预测的波长与实验测出的光谱峰位几乎重合时，那种感觉，就像在茫茫数据海洋中，第一次拥有了一幅可靠的藏宝图。

查看全文

http://www.jsqmd.com/news/881364/