当前位置：首页 > news >正文

哑变量原理与m-1编码实战：机器学习分类特征处理核心指南

news 2026/6/19 5:39:40

1. 为什么“哑变量”不是可有可无的配角，而是模型能否站稳脚跟的第一块基石？

在AI和机器学习工程实践中，我见过太多人把数据预处理当成流水线末端的“扫尾工作”——调完模型、跑通baseline、调参优化，最后才想起“哦，分类变量还没编码”。结果呢？模型训练报错、系数解释完全失真、线上服务突然飘移……问题回溯一圈，八成卡死在最开始的那几列字符串上。这不是玄学，是数学逻辑的硬性约束：绝大多数主流算法（线性回归、逻辑回归、SVM、树模型的底层分裂计算、甚至神经网络的输入层）只认数字，不认“男/女”“北京/上海/广州”这种语义标签。哑变量（Dummy Variable），就是我们强行给算法“翻译”人类语言的桥梁。它不是锦上添花的技巧，而是让模型能“看懂”世界的基本前提。你可能觉得“用LabelEncoder把‘男’变0、‘女’变1不就完了？”——这恰恰是踩坑的起点。LabelEncoder赋予了类别一个虚假的数值顺序（比如“北京=0，上海=1，广州=2”），算法会误以为“广州”比“上海”大、“上海”比“北京”大，进而错误地引入不存在的线性关系。而哑变量的核心思想，是彻底斩断这种人为强加的序关系，把一个有m个类别的变量，拆解成m个彼此独立、互不干扰的“是/否”开关。每一个开关只回答一个问题：“当前样本属于这个特定类别吗？”答案只有0（否）或1（否）。这种设计，让模型能真正平等地看待每个类别，不会因为编码数字的大小而产生偏见。它背后是统计学里“参数可识别性”的铁律：如果所有类别都编码成独立变量，模型就无法唯一确定每个类别的影响，因为存在无穷多组参数能给出完全相同的预测结果——这就是著名的“哑变量陷阱”。所以，我们必须主动放弃一个类别作为“参照系”，让其他类别都相对于它来表达差异。这个看似微小的取舍，直接决定了模型输出的系数是否具备可解释性，也决定了你的A/B测试结论是否经得起推敲。对工程师而言，理解哑变量，就是理解模型如何“思考”分类信息；掌握它，就是掌握了数据与算法之间最关键的翻译权。

2. 哑变量的本质、原理与不可绕过的数学根基

2.1 哑变量到底是什么？从生活场景到数学定义

想象你在做一份员工薪酬分析报告。数据表里有一列叫“部门”，值是“研发部”“销售部”“人事部”。你想知道，不同部门的员工，平均薪资有没有显著差异？但你的统计软件（比如Python的statsmodels或R的lm）只会算数字，它看到“研发部”三个字，就像看到一串乱码。怎么办？最朴素的办法，是给每个部门编个号：研发部=1，销售部=2，人事部=3。但问题来了：这个编号暗示了“销售部”比“研发部”高一级，“人事部”又比“销售部”高一级。现实中，这三个部门是平行关系，没有高低贵贱之分。如果你用这个编号去拟合线性模型，软件会强行认为“人事部”的薪资比“研发部”高2个单位，这显然荒谬。哑变量就是为了解决这个困境而生的。它的核心操作，是把一个有m个类别的原始变量，炸开成m个全新的二元（0/1）变量。以“部门”为例，它有3个类别，我们就创建3个新列：

dept_research：如果员工属于研发部，该列为1；否则为0。
dept_sales：如果员工属于销售部，该列为1；否则为0。
dept_hr：如果员工属于人事部，该列为1；否则为0。

这样，每个员工在这一组新列中，有且仅有一个值为1，其余全为0。这完美对应了“互斥且完备”的分类逻辑。数学上，我们称这组变量为“指示函数”（Indicator Function）：对于第j个类别，其哑变量D_j = I(X == category_j)，其中I(·)是示性函数，条件成立时为1，否则为0。它之所以被称为“哑”（Dummy），正是因为这些变量本身没有内在的数值含义，它们只是模型用来“标记”类别的“哑铃”——没有重量，只有位置。它们存在的唯一目的，是让模型能通过比较不同“哑铃”的权重，来量化每个类别相对于某个基准的影响。

2.2 为什么必须是m-1个，而不是m个？——“哑变量陷阱”的完整推导

这是所有初学者最困惑、也是最致命的问题。上面我们说要创建3个哑变量，但实际建模时，却必须删掉一个。为什么？让我们用最基础的线性回归方程来推演。假设我们的目标是预测员工月薪Y，只考虑“部门”这一个因素。完整的、未删减的模型可以写成：

Y = β₀ + β₁ × dept_research + β₂ × dept_sales + β₃ × dept_hr + ε

现在，关键点来了：对于任何一个员工，dept_research + dept_sales + dept_hr的和永远等于1。因为每个人必然且只能属于这三个部门中的一个。这意味着，dept_hr = 1 - dept_research - dept_sales。把这个等式代入原模型：

Y = β₀ + β₁ × dept_research + β₂ × dept_sales + β₃ × (1 - dept_research - dept_sales) + ε
Y = (β₀ + β₃) + (β₁ - β₃) × dept_research + (β₂ - β₃) × dept_sales + ε

我们发现，新的截距项变成了(β₀ + β₃)，而dept_research和dept_sales的系数也变成了(β₁ - β₃)和(β₂ - β₃)。原始的三个系数β₀, β₁, β₂, β₃，现在被压缩成了三个新的、无法唯一还原的参数。这就是“多重共线性”（Multicollinearity）：自变量之间存在完美的线性依赖关系。在矩阵运算中，这会导致设计矩阵X的列向量线性相关，其转置乘积XᵀX矩阵不可逆（奇异矩阵），最小二乘法（OLS）的解析解(XᵀX)⁻¹XᵀY根本无法计算。软件要么报错，要么自动剔除一个变量来强行求解。因此，“m-1规则”不是经验主义的妥协，而是线性代数和统计推断的刚性要求。删掉的那个变量（比如dept_hr），其对应的类别（人事部）就成为了“参照组”（Reference Group）。此时，模型变为：

Y = β₀ + β₁ × dept_research + β₂ × dept_sales + ε

这里的β₀，就代表了参照组（人事部）的平均薪资（当dept_research=0且dept_sales=0时，Y=β₀）。而β₁，则代表“研发部”相对于“人事部”的平均薪资差值；β₂同理，代表“销售部”相对于“人事部”的差值。所有解释都变得清晰、唯一、可验证。这个推导过程，就是“哑变量陷阱”的全部真相——它不是一个需要规避的bug，而是模型数学结构的自然体现，是我们必须主动拥抱并驾驭的设计原则。

2.3 “One-Hot Encoding”与“Dummy Variable”的微妙区别

在工程实践中，“One-Hot Encoding”（独热编码）和“Dummy Variable”这两个词经常被混用，但它们在概念上存在精微的差别，理解这点对调试至关重要。One-Hot Encoding 是一个纯粹的数据转换操作：它忠实地将一个m类别变量，转换为m个0/1列。它不关心后续建模，也不做任何删减。你可以把它看作一个“无脑复制粘贴”的工具。而Dummy Variable 是一个建模概念：它特指在回归等统计模型中，为了满足参数可识别性而使用的、经过了m-1处理的哑变量集。它是One-Hot Encoding的“下游产物”，是数据进入模型前的最后一道“合规审查”。举个例子：用Python的sklearn.preprocessing.OneHotEncoder，默认行为是生成m列。如果你直接把这些列喂给LinearRegression，模型内部通常会自动处理掉一列（取决于drop参数设置），但这属于模型的“善后”。而更规范的做法，是使用pd.get_dummies(df, drop_first=True)，或者在OneHotEncoder中显式设置drop='first'，在数据预处理阶段就完成m-1的裁剪。这种“前置处理”带来的好处是巨大的：它让你的数据管道（Pipeline）更加透明、可复现，避免了模型内部“暗箱操作”带来的不确定性。我在一个金融风控项目中就吃过亏：特征工程用的是get_dummies没设drop_first，而线上推理服务用的却是OneHotEncoder默认配置，导致训练和推理阶段的特征维度不一致，模型直接崩溃。从此以后，我的所有项目都强制规定：哑变量的m-1裁剪，必须发生在特征工程的最前端，且文档里要白纸黑字写明参照组是谁。

3. 从理论到代码：四种典型场景的完整实操与深度解析

3.1 场景一：单个二元分类变量 + 单个数值变量（无交互）

这是最基础、也最常被误解的场景。我们用一个虚构但高度真实的HR数据集来演示：预测员工年薪（Y），自变量是性别（Gender，二元：Male/Female）和工龄（Years_Exp，连续数值）。很多人会直觉地认为，只要把Gender变成0/1，再和Years_Exp一起扔进模型就行。但这样做的深层含义是什么？让我们一步步拆解。

首先，加载并查看数据：

import pandas as pd import numpy as np from sklearn.linear_model import LinearRegression from sklearn.preprocessing import OneHotEncoder import statsmodels.api as sm # 创建模拟数据 np.random.seed(42) n = 1000 data = pd.DataFrame({ 'Gender': np.random.choice(['Male', 'Female'], n), 'Years_Exp': np.random.normal(8, 3, n).clip(0, 25), }) # 添加一些真实感：男性起薪略高，但女性随工龄增长更快（为后续交互铺垫） base_salary = 50000 data['Salary'] = ( base_salary + (data['Gender'] == 'Male') * 3000 # 男性基础溢价 + data['Years_Exp'] * 2000 # 工龄基础回报 + (data['Gender'] == 'Female') * data['Years_Exp'] * 100 # 女性额外成长性 + np.random.normal(0, 2000, n) # 随机噪声 )

关键一步：正确创建哑变量。这里Gender只有2个类别，按m-1规则，我们只需要1个哑变量。我们选择Female作为参照组（即Gender_Female=0时，代表男性）：

# 方法一：pandas get_dummies (推荐，简洁可控) data_dum = pd.get_dummies(data, columns=['Gender'], prefix='Gender', drop_first=True) # 此时数据框新增一列：'Gender_Male'，值为0或1 print(data_dum.columns.tolist()) # 输出: ['Years_Exp', 'Salary', 'Gender_Male'] # 方法二：手动创建（加深理解） data_dum_manual = data.copy() data_dum_manual['Gender_Male'] = (data['Gender'] == 'Male').astype(int)

现在，构建并拟合模型：

X = data_dum[['Years_Exp', 'Gender_Male']] y = data_dum['Salary'] # 使用statsmodels获取详细统计报告（含P值、置信区间） X_sm = sm.add_constant(X) # 添加截距项 model = sm.OLS(y, X_sm).fit() print(model.summary())

结果解读与核心洞察：

const（截距项）：约49800。这代表参照组（Female）在Years_Exp=0时的预期起薪。
Years_Exp：系数约2000。这代表无论性别，每增加一年工龄，平均薪资增加约2000元。注意，这个斜率对男女都一样，因为模型中没有交互项。
Gender_Male：系数约3000。这代表，在相同工龄下，男性相对于女性的平均薪资差额。例如，一个工龄5年的女性，预期薪资是49800 + 5*2000 = 59800；而同工龄的男性，则是59800 + 3000 = 62800。

提示：这个模型的几何意义是两条平行直线。一条是女性的薪资-工龄线（y = 49800 + 2000*x），另一条是男性的（y = (49800+3000) + 2000*x = 52800 + 2000*x）。它们的斜率（工龄回报率）完全相同，只是截距（起薪）不同。这是“无交互”的数学本质。

3.2 场景二：单个多元分类变量 + 单个数值变量（无交互）

现在，把“性别”换成更复杂的“教育程度”（Education），它有四个类别：High_School,Bachelor,Master,PhD。我们需要创建3个哑变量（m-1=3），并选择一个参照组。选择哪个作为参照组？没有绝对标准，但有黄金法则：选样本量最大、或业务上最“普通”、最“基准”的类别。在这个例子里，Bachelor（学士）通常是职场主力，我们选它为参照。

# 创建哑变量，指定参照组为'Bachelor' data_edu = pd.get_dummies(data, columns=['Education'], prefix='Edu', drop_first=True) # 注意：drop_first=True会自动删除第一个出现的类别，所以我们先确保'Bachelor'排第一 # 更稳妥的做法是手动控制 edu_order = ['Bachelor', 'High_School', 'Master', 'PhD'] data['Education'] = pd.Categorical(data['Education'], categories=edu_order, ordered=False) data_edu = pd.get_dummies(data, columns=['Education'], prefix='Edu', drop_first=True) # 现在新增列：'Edu_High_School', 'Edu_Master', 'Edu_PhD'

模型拟合后，解读方式完全一致：

const：代表Bachelor学历者在Years_Exp=0时的起薪。
Years_Exp：代表所有学历群体共享的、每单位工龄的平均回报。
Edu_High_School：代表高中学历者，相对于本科学历者，在相同工龄下的平均薪资差（通常是负值）。
Edu_Master：代表硕士学历者，相对于本科学历者的平均薪资差（通常是正值）。
Edu_PhD：代表博士学历者，相对于本科学历者的平均薪资差。

注意：所有系数都是相对于参照组的。如果你想比较高中和硕士的差距，不能直接用Edu_High_School - Edu_Master，而应该计算(-Edu_High_School) + Edu_Master，因为两者都是相对于本科的差值。这是一个新手常犯的错误。

3.3 场景三：单个二元分类变量 + 单个数值变量（含交互）

回到最初的性别和工龄场景。现实往往更复杂：不同性别的职业发展路径可能不同。比如，女性可能在职业生涯中期（5-15年）晋升更快，而男性则在早期（0-5年）起薪更高。这种“一个变量的效果，会随着另一个变量的变化而变化”的现象，就是交互效应（Interaction Effect）。要捕捉它，我们必须在模型中显式加入交互项。

# 创建交互项：Gender_Male * Years_Exp data_inter = data_dum.copy() data_inter['Gender_Male_X_Years'] = data_inter['Gender_Male'] * data_inter['Years_Exp'] X_inter = data_inter[['Years_Exp', 'Gender_Male', 'Gender_Male_X_Years']] model_inter = sm.OLS(y, sm.add_constant(X_inter)).fit() print(model_inter.summary())

结果解读的革命性变化：

const：仍然是女性（参照组）在Years_Exp=0时的起薪。
Years_Exp：现在仅代表女性的工龄回报率（斜率）。
Gender_Male：现在仅代表女性与男性在起薪（Years_Exp=0）上的差异（截距差）。
Gender_Male_X_Years：这是交互项的系数，它代表男性相对于女性，其工龄回报率的额外增量。如果这个系数是正的，说明男性的薪资增长速度比女性快；如果是负的，说明女性的增长速度更快。

提示：这个模型的几何意义是两条不平行的直线。女性的线是y = const + Years_Exp_coeff * x；男性的线是y = (const + Gender_Male_coeff) + (Years_Exp_coeff + Gender_Male_X_Years_coeff) * x。它们的斜率不同，意味着“性别红利”或“性别鸿沟”会随着时间推移而放大或缩小。这才是对现实更精细的刻画。

3.4 场景四：多分类变量的交互与高级技巧

当面对多个分类变量（如Department和Location）时，交互会指数级爆炸。Department有4个类别，Location有3个，它们的全交互会产生(4-1)*(3-1)=6个交互项。手动管理几乎不可能。这时，statsmodels的公式接口（Formula API）就是神器：

# 使用R风格的公式语法，让模型自动处理所有哑变量和交互 import statsmodels.formula.api as smf # 'Salary ~ C(Department) * C(Location) + Years_Exp' # C()表示将其视为分类变量，*表示主效应+交互效应 formula = 'Salary ~ C(Department) * C(Location) + Years_Exp' model_complex = smf.ols(formula, data=data_full).fit() print(model_complex.summary())

此外，还有一个工程中极其重要的技巧：处理高基数（High-Cardinality）分类变量。比如“用户ID”有百万个值，你不可能创建百万个哑变量。这时，必须降维：

目标编码（Target Encoding）：用该类别下目标变量（如点击率）的均值来替代原始类别。需用历史数据计算，并在训练/测试集上做平滑（避免过拟合）。
频率编码（Frequency Encoding）：用该类别在数据集中出现的频次来替代。
嵌入（Embedding）：在深度学习中，用一个低维向量来表示每个ID，这个向量在训练中自动学习。

实操心得：我在线上广告系统中处理“广告位ID”时，曾天真地尝试one-hot，结果特征维度暴涨到20万+，训练时间从10分钟飙升到3小时，内存直接爆掉。后来改用目标编码（平滑后的CTR），维度降到50，效果反而更好，因为模型学到了ID背后的“质量信号”，而非死记硬背。

4. 常见问题、致命陷阱与一线工程师的独家避坑指南

4.1 “哑变量陷阱”重现？不，是你的参照组选错了！

问题描述：模型训练成功，但summary()里某个哑变量的P值巨大（比如0.99），系数接近0，且标准误异常大。你怀疑是“哑变量陷阱”又来了。

排查思路：首先，检查你的数据。运行X.corr().abs()查看特征间的相关性矩阵。如果发现某两列哑变量（比如Edu_Master和Edu_PhD）的相关系数高达0.99，那确实是共线性。但更常见的情况是：你的参照组（Reference Group）选得极不合理。比如，在一个99%都是Bachelor的样本中，你却把PhD设为参照组。那么，Edu_Bachelor这个哑变量的值几乎全是1，而Edu_PhD几乎全是0。模型很难精确估计一个在99%样本中都为0的变量的影响，它的系数自然不稳定，P值巨大。

解决方案：永远选择样本量最大的类别作为参照组。这不仅能保证每个哑变量都有足够的“正样本”（值为1）来学习，还能让模型的截距项（const）具有最强的业务解释性——它代表了最普遍人群的基准水平。在pandas.get_dummies中，可以通过先对原始列进行value_counts()排序，再Categorical化来控制顺序。

4.2 训练集和测试集的哑变量不一致！灾难性后果

问题描述：模型在训练集上AUC 0.85，但在测试集上骤降到0.55。排查发现，测试集中出现了训练集里从未见过的新类别（比如一个新的城市名Chengdu）。

根本原因：这是数据漂移（Data Drift）的经典案例。OneHotEncoder在fit()时只“记住”了训练集里出现过的所有类别。当transform()遇到新类别时，sklearn的默认行为是抛出ValueError。但很多工程师为了图省事，会设置handle_unknown='ignore'，这会导致新类别在所有哑变量列上都填0。结果就是，模型看到一个“全零向量”，它会把它当作参照组来预测，造成系统性偏差。

解决方案：必须建立一套健壮的类别管理机制。

离线阶段：在特征工程Pipeline中，用OneHotEncoder(handle_unknown='error')，并在fit()后，将encoder.categories_保存为pickle文件。
线上阶段：加载这个pickle，用它来transform()新数据。如果遇到未知类别，不要忽略，而要记录日志并触发告警。业务方需要决定是将新类别归入“其他”（Other）大类，还是重新训练编码器。
终极方案：对于极易出现新类别的变量（如用户搜索关键词），放弃one-hot，改用TF-IDF或Word2Vec等文本嵌入技术。

4.3 树模型（XGBoost/LightGBM）真的不需要哑变量吗？

坊间流传一种说法：“树模型自己会切分，所以不用做one-hot，直接LabelEncode就行。” 这是一个危险的迷思。

真相是：LabelEncode对树模型依然有害，只是危害形式不同。LabelEncode把['Beijing', 'Shanghai', 'Guangzhou']变成[0, 1, 2]。树在分裂时，会尝试所有可能的阈值，比如feature < 0.5（把北京分出来）、feature < 1.5（把北京和上海分出来）。这相当于强行给类别赋予了序关系，模型可能会学到一个毫无业务意义的分裂规则（比如“所有编码<1.5的城市都属于高消费区”）。而one-hot后，树会针对每个哑变量单独分裂，Edu_Bachelor == 1或Edu_Bachelor == 0，这才是符合逻辑的“是/否”判断。

实测对比（在我维护的一个电商销量预测项目中）：

LabelEncode：CV AUC 0.72，线上AUC 0.68（波动大）
One-Hot (m-1)：CV AUC 0.75，线上AUC 0.74（稳定）

实操心得：LightGBM有一个鲜为人知的参数categorical_feature，它可以告诉模型“这个列是分类变量，请用专门的算法来处理”。但它的底层依然是基于one-hot的思想，只是做了优化。所以，最稳妥、最透明的方式，永远是自己做好m-1的one-hot，然后把生成的列明确传给模型。

4.4 表格总结：哑变量处理决策速查表

问题场景	推荐方案	关键参数/代码示例	注意事项
二元变量（如性别）	`pd.get_dummies(drop_first=True)`	`df['Gender_Male'] = (df['Gender']=='Male').astype(int)`	参照组选择要符合业务常识（如选“Female”为参照，解读更直观）
多元变量（<10个类别）	`OneHotEncoder(drop='first')`	`enc = OneHotEncoder(drop='first', sparse_output=False)`	必须在`fit()`前用`categories=`参数锁定所有可能类别，防止线上漂移
高基数变量（>100个类别）	目标编码（Target Encoding）	`from category_encoders import TargetEncoder; enc = TargetEncoder()`	务必做平滑（`min_samples_leaf`,`smoothing`），并在交叉验证中使用`fold`策略，避免数据泄露
文本类变量（如商品标题）	TF-IDF + SVD降维	`from sklearn.feature_extraction.text import TfidfVectorizer; from sklearn.decomposition import TruncatedSVD`	TF-IDF后维度极高，必须用SVD降到100-500维，否则模型无法承受
时间序列中的季节性	循环编码（Circular Encoding）	`df['month_sin'] = np.sin(2np.pidf['month']/12); df['month_cos'] = np.cos(2np.pidf['month']/12)`	对月份、星期几等周期性变量，用sin/cos编码能保留其“首尾相连”的特性，避免把1月和12月当成距离最远的两个点

5. 超越编码：哑变量思维在AI工程全链路中的延伸应用

哑变量的哲学，早已超越了简单的数据预处理，它是一种贯穿AI工程全生命周期的底层思维范式。理解它，能帮你打通从数据、模型到部署的任督二脉。

5.1 特征工程：从“硬编码”到“软编码”

传统做法是，把所有分类变量一股脑儿one-hot。但资深工程师会问：这个变量的每个类别，其背后是否有可量化的业务含义？比如“用户等级”（VIP1, VIP2, VIP3, VIP4），它虽然是分类，但明显有等级序。这时，与其用3个哑变量，不如用1个有序变量（Ordinal Encoding），并让模型自己学习等级间的非线性跳跃（比如VIP3到VIP4的权益提升，可能远大于VIP1到VIP2）。再比如“产品品类”，我们可以不直接编码，而是先用聚类算法（如K-Means）基于销售数据、用户画像，把几百个品类聚成10个“超级品类”，再对这10个超级品类做one-hot。这本质上是用业务知识对哑变量进行了“降噪”和“提纯”。

5.2 模型解释：SHAP值与哑变量的共生关系

当你用SHAP（SHapley Additive exPlanations）来解释一个复杂模型（如XGBoost）的预测时，SHAP值会告诉你，Edu_Master这个特征对某个具体预测贡献了+1200元。但这个+1200元，是相对于谁的？答案是：相对于该样本在Edu_Master这个特征上的“基线值”。而这个基线值，正是由整个训练集上Edu_Master的分布（主要是0）所决定的。换句话说，SHAP的解释逻辑，天然地内嵌了哑变量的参照系思想。一个优秀的工程师，在向业务方展示SHAP图时，一定会同步说明：“这里的+1200元，是指相比一个‘非硕士’的普通用户，硕士学历带来的额外价值。”

5.3 MLOps：哑变量是特征版本控制（Feature Versioning）的核心锚点

在一个成熟的MLOps平台中，特征不是随意生成的，而是有严格版本号的。而哑变量的版本，直接绑定着两个关键实体：原始数据源的Schema版本和参照组的定义版本。今天你把City的参照组从Beijing换成了Shanghai，这不仅是参数调整，而是一个全新的特征版本（v2.1）。因为const的含义变了，所有依赖于它的模型监控指标（如特征重要性、分布偏移）都需要重新基线化。我所在团队的实践是：每个哑变量特征的元数据（Metadata）中，必须强制包含reference_category和encoding_date字段，并与模型版本强关联。这确保了任何一次线上事故，都能在几分钟内回溯到是哪个特征的参照系发生了变更。

我个人在实际操作中的体会是，哑变量从来不是数据科学家手里的一个“开关”，而是AI工程师手中的一把刻刀。它雕刻的不是数据的形状，而是模型理解世界的逻辑框架。每一次drop_first=True的敲击，每一次参照组的审慎选择，都是在为模型的可解释性、鲁棒性和业务价值打下最坚实的基础。那些看起来最枯燥的0和1，恰恰是连接冰冷算法与火热商业世界的、最温暖的桥梁。

查看全文

http://www.jsqmd.com/news/1040352/