当前位置: 首页 > news >正文

关于敏感信息检测技术的理论知识

在之前的文章中,探索了不同的检测敏感信息的方法,并通过Demo进行了学习,对算法、模型等一些概念有一些初步认知,这片文章想更加完整的学习涉及的概念,以及知识框架。

信息识别

“敏感信息检测”本质上是一种信息识别技术,信息识别技术的技术演进路线:

规则 → 传统 ML → 深度学习(BERT/NER) → 语义(Embedding) → 推理式判断(LLM)

基于规则(pattern-based)

  • 正则表达式
  • 固定长度/固定格式
  • 词典/黑名单

优点:精准、快、成本低
缺点:只能识别格式固定的信息;对语义类几乎无效

比如:身份证、手机号、邮箱、多数证件号都能靠规则锁死。

基于传统机器学习(Classical ML-based)

传统机器学习是:靠人工特征 + 统计模型判断,不理解深层语义。需要人先总结规律经验后、喂给模型,模型依靠统计和概率输出答案。

“如果连续两个字都在姓名词典里 → 很像人名”
“如果是 11 位数字 → 更像手机号”

基于深度学习(DL-based,BERT/NER)

让机器自己阅读大量文本,自主学会语言规律(语义、结构、上下文)。不像传统 ML,需要人工设计特征,深度学习会自己从海量数据中“自动学习特征”。

BiLSTM-CR模型F(经典 NER)

流程:字符序列 → embedding → BiLSTM → CRF → 标签序列

优点:效果强于传统 ML
缺点:

  • 上下文理解有限
  • 对长文本吃力

Transformer / BERT NER(工业标准)

这是今天用得最多的敏感信息识别模型。

流程:Input → Tokenizer → BERT Encoder → Token Classification Head → 输出 BIO 标签

BERT 能理解语义上下文,例如:
“手机号:一共 11 位数字,是联系人的号码”
→ BERT 可以理解“手机号”的含义不仅来自数字结构,还来自周围语义。

工程可用的模型:

  • bert-base-chinese
  • HFL-roberta-wwm-ext
  • macbert
  • neZha
  • DeBERTa-v3-base
  • HuggingFace 现成的 token-classification pipeline

框架:

  • PyTorch(主流)
  • TensorFlow
  • HuggingFace Transformers(最推荐)

基于语义(Embedding/LLM-based)

Embedding向量语义识别

核心思想:把文本转换成向量 → 在向量空间里相似就表示语义相似。

比如“联系方式”和“手机号”向量距离很近而“发票号”则距离远。

技术包括:

  • Sentence-BERT
  • SimCSE
  • LLM Embedding(OpenAI embedding)
  • RAG(检索增强理解)

常用向量模型:

  • OpenAI text-embedding-3-large
  • bge-large-zh(国产最强)
  • SimCSE
  • SBERT
  • GTE-large (Alibaba Qwen Embeddings)

LLM 大模型推理

利用大模型的“理解、推理、上下文能力”直接判断,不用训练拿来就能用。

常见模型:

  • Qwen2.5-72B
  • GPT-4o/4.1
  • Llama-3-70B
  • DeepSeek-R1(推理强)
  • Claude

4类技术能覆盖的敏感信息范围(工程视角)

敏感数据类型 规则 ML 深度学习 NER Embedding LLM
身份证号 ✔️ ✔️ ✔️ ✔️ ✔️
手机号 ✔️ ✔️ ✔️ ✔️ ✔️
银行卡号 ✔️ ✔️ ✔️ ✔️ ✔️
姓名 ✔️ ✔️ ✔️ ✔️
地址 ✔️ ✔️ ✔️ ✔️
公司、组织名 ✔️ ✔️ ✔️ ✔️
设备号/UID ✔️ ✔️ ✔️(很强)
行为轨迹 ✔️ ✔️ ✔️(强)
上下文敏感识别 一般 非常强

知识地图

A. 信息的“特征方式”
├── 规则特征(pattern)
├── 统计特征(ML)
├── 语义特征(Embedding)
└── 生成式理解(LLM)

B. 模型与算法基础
├── Transformer(结构)
├── Embedding(向量空间)
├── NER/分类(下游任务)
└── 向量检索(ANN)

C. 工具/框架
├── PyTorch(深度学习实现框架)
├── Hugging Face(模型生态)
├── vector DB(Milvus/FAISS)
└── 各类 Embedding 模型/LLM

D. 解决方案与工程化
├── 混合检测(规则 + Embedding + NER)
├── 召回-排序-验证流水线
├── 模型评估
└── 部署与合规

http://www.jsqmd.com/news/69139/

相关文章:

  • 自定义拦截器不生效问题记录
  • 102302122许志安作业4
  • Logo设计机构权威选择指南:2025年十大战略型设计服务商深度解析
  • 2025年最新垃圾分类/处理/分拣设备实力厂家TOP5深度解析
  • 纯前端也能用大模型?我的本地推理 + 云端推理混合方案经验
  • 2025 激光焊接机权威榜单出炉!10 大厂家硬核 PK,国产化技术领跑全球
  • 揭秘姜胖胖韩式烤肉连锁加盟:高知名度与好口碑背后的秘密
  • Q:RabbitMQ 安装教程(openEuler 22.03 LTS-SP3)
  • 大学生必备App全攻略:从学习到生活,这几款神器让你轻松拿捏校园时光
  • 你的故事如何打动梦校?留学中介 TOP8 文书能力排行榜
  • 大学生必备 APP 清单,错过血亏!
  • 留学必备APP全攻略:从学习到生活,这几款神器让你轻松适应海外生活
  • 在.NET中实现一库多租户(Single Database Multi-Tenancy)模式,主要通过共享数据库但隔离数据的方式实现。
  • 全流程跟踪!留学中介排行榜TOP10把控申请节奏
  • 【RocketMQ】安装配置 - 谷粒
  • 学习机大揭秘:哪个品牌才是孩子的最佳拍档?
  • 学习机大揭秘:哪个品牌才是孩子的最佳拍档?
  • 权威解析:十大留学机构深度评测与2025精英选择指南
  • 网卡混杂模式解析:从网络诊断到 Kubernetes 网络模型
  • VMware 等企业软件固件下载
  • 2025 中小学生 AI 学习机选购指南:松鼠 AI 登顶!这 4 款高性价比之选闭眼入
  • 市场变天了!2025 选学习机别只看大牌,这两个新趋势要抓住
  • Python reduce 改为 chain ,性能优化
  • 2025年PPH法兰球阀订制厂家权威推荐榜单:PPH阀门‌/PPH球阀‌/PPH法兰隔膜阀源头厂家精选
  • 2025年进口电动蒸汽截止阀制造企业权威推荐榜单:进口气动蒸汽球阀‌/进口蒸汽截止阀‌/进口自力式蒸汽调节阀源头厂家精选
  • 2025选购必看:武汉红砖厂家综合实力与口碑排行,排行前列的红砖赋能企业生产效率提升与成本优化
  • 2025 年 12 月炉温监控设备厂家权威推荐榜:波峰焊炉温/残氧量/氮气控制/真空测温仪,精准工艺与智能监控技术深度解析
  • 2025年市面上可靠的投影机出租公司哪家强,50000流明投影机/水幕投影机出租/激光投影机出租/投影机出租工厂排行榜
  • 可对话的赛博分身:用 Claude Code 分析 GitHub 日记
  • VMware NSX 身份防火墙 - 基于终端用户的安全策略