当前位置: 首页 > news >正文

one-hot编码

我来详细介绍一下one-hot 编码(独热编码)。

什么是 One-Hot 编码?

One-Hot 编码是一种将分类变量转换为二进制向量的技术,其中每个类别都表示为一个二进制向量,只有一个元素为1("热"),其余都为0。

工作原理

假设有一个颜色类别变量:["红", "绿", "蓝"]

原始数据:

text

红 绿 蓝 红

One-Hot 编码后:

text

红 → [1, 0, 0] 绿 → [0, 1, 0] 蓝 → [0, 0, 1] 红 → [1, 0, 0]

为什么要使用 One-Hot 编码?

  1. 消除类别间的序数关系:避免机器学习模型误以为类别之间有大小顺序关系

  2. 兼容算法:许多机器学习算法(如线性回归、神经网络)需要数值输入

  3. 保持类别独立性:每个类别都成为独立的特征维度

在 Python 中的实现

方法1:使用 pandas

python

import pandas as pd # 创建示例数据 df = pd.DataFrame({'颜色': ['红', '绿', '蓝', '红', '绿']}) # 进行 one-hot 编码 one_hot = pd.get_dummies(df['颜色'], prefix='颜色') print(one_hot)

方法2:使用 scikit-learn

python

from sklearn.preprocessing import OneHotEncoder import numpy as np # 创建示例数据 data = np.array(['红', '绿', '蓝', '红', '绿']).reshape(-1, 1) # 创建编码器 encoder = OneHotEncoder(sparse_output=False) # 拟合和转换 one_hot_encoded = encoder.fit_transform(data) print(one_hot_encoded)

One-Hot 编码的优缺点

优点:

  • ✅ 简单直观,易于实现

  • ✅ 消除了类别间的虚假序数关系

  • ✅ 与大多数机器学习算法兼容

缺点:

  • 维度灾难:如果类别很多,会创建大量稀疏特征

  • 稀疏矩阵:存储效率低

  • ❌ 丢失了类别之间的关系信息(如果有的话)

替代方案

  1. 标签编码(Label Encoding):将类别转换为数字(0, 1, 2...)

  2. 目标编码(Target Encoding):用目标变量的统计量编码

  3. 二进制编码(Binary Encoding):将类别先转换为数字,再转换为二进制

实用建议

  • 当类别数量较少(如<15)时,使用 One-Hot 编码

  • 当类别数量很多时,考虑其他编码方式或特征选择

  • 在神经网络中,One-Hot 编码通常用于输入层

  • 对于有序类别,可以考虑使用有序编码而不是 One-Hot

示例:完整代码

python

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # 示例数据 data = pd.DataFrame({ '颜色': ['红', '绿', '蓝', '红', '绿', '蓝'], '尺寸': ['大', '中', '小', '中', '大', '小'], '价格': [100, 200, 150, 120, 180, 160] }) # One-Hot 编码分类变量 data_encoded = pd.get_dummies(data, columns=['颜色', '尺寸']) print("原始数据:") print(data) print("\nOne-Hot 编码后:") print(data_encoded)

One-Hot 编码是数据预处理中的基础且重要的技术,特别适用于处理名义型分类变量。

http://www.jsqmd.com/news/120417/

相关文章:

  • U9C OPENAPI开发启动
  • 调用U9C的BP服务的技巧
  • 2025年国产儿童羽绒服品牌推荐,这几款温暖又省心 - 品牌测评鉴赏家
  • 菜狗杯ctfshow web(部分
  • 环境搭建-运行前端工程(vue) - 努力-
  • Linux设备树基础
  • C#之Modbus-RTU通讯-读取输出寄存器-浮点数
  • @ant-design/colors 相似的库
  • MySQL的安装与卸载 - 努力-
  • Windows服务器中配置资源共享服务
  • 洛谷 P11459
  • [闲话]竹篮打水,不空
  • 【课程设计/毕业设计】基于Springboot的智能物流管理系统基于springboot的校园智能物流管理系统的设计与实现【附源码、数据库、万字文档】
  • U9C采购退货单-无来源的实现
  • Intellij IDEA 自动导包设置 - 努力-
  • zerotier旧网址
  • 2025年度儿童羽绒服选购指南:这些口碑品牌闭眼入 - 品牌测评鉴赏家
  • Java计算机毕设之基于Spring Boot的智慧物流系统的设计与实现基于springboot的校园智能物流管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • 用 .NET MAUI 10 + VS Copilot 从 0 开发一个签到 App(九)签到历史报表 + Excel 导出
  • 2025年童装羽绒服十大品牌盘点:宝妈选购指南与口碑单品解析 - 品牌测评鉴赏家
  • 【LangChain4J】聊天数据持久化——Redis
  • 宝妈必看|0-16岁童装羽绒服品牌全攻略,从保暖到颜值一次搞定 - 品牌测评鉴赏家
  • 环境搭建-运行前端工程(Nginx) - 努力-
  • Ant Design 色板生成算法演进之路
  • AI 领域职业发展分享总结(吴恩达新课内容分享)
  • 2025年童装羽绒服大揭秘!这十款温暖又时尚 - 品牌测评鉴赏家
  • 用 .NET MAUI 10 + VS Copilot 从 0 开发一个签到 App (十) 完结篇
  • Windows 10版本 - 努力-
  • 滑动窗口|209. 长度最小的子数组|713. 乘积小于 K 的子数组|3. 无重复字符的最长子串
  • C++20和C++23 在内存管理、并发控制和类型安全相关优化方式的详细技术分析