当前位置：首页 > news >正文

BERT核心机制解析：BERT 是不是多头的，有没有位置编码，注意力机制；还是仅仅就是向量映射，BGE和BM25是什么，怎么使用

news 2026/7/4 13:49:57

BERT 是不是多头的，有没有位置编码，注意力机制；还是仅仅就是向量映射

目录

- BERT 是不是多头的，有没有位置编码，注意力机制；还是仅仅就是向量映射
- - 1. 注意力机制（特别是“自注意力”）
  - 2. 多头注意力
  - 3. BERT 有位置信息：位置编码（在BERT中是“位置嵌入”）
  - 整体的BERT架构
  - 与“传统向量映射”的对比
  - 结论
- BM25和BGE的编码方式
- - 1. BM25：关键词匹配的“数学标尺”
  - 2. BGE：深度语义理解的“神经网络”
  - 对比总结
  - 现代检索的最佳实践：两者结合
- 传统的、主流的嵌入模型（如早期的Word2Vec句向量、Doc2Vec，以及基于BERT的[CLS]池化或平均池化方法）只为整段输入文本生成一个“单一的、固定维度的向量”，不能够理解语义
- - 为什么传统方法会丢失层级信息？
  - 后果是什么？
  - 现代进展：如何捕捉层级语义？
  - - 1. **密集检索中的“词级”或“段级”表示**
    - 2. **ColBERT 模型及其思想**
    - 3. **多向量表示法**
    - 4. **层次化编码器**
  - 总结

BERT绝不仅仅是向量映射。它是一个极其复杂的、基于Transformer编码器架构的深度神经网络，而多头注意力机制和位置编码正是其心脏和骨骼。**

1. 注意力机制（特别是“自注意力”）

这是BERT的灵魂。它的目的不是简单地生成词向量，而是让模型在编码一个词时，能够动态地、有区分地关注到输入序列中所有其他的词，从而理解上下文。

工作原理：对于句子中的每个词（例如“银行”），自注意力机制会计算它与句子中所有词（包括它自己）的关联分数。这个分数决定了在编码当前“银行”时，应该从“河边的”、“存款”、“利率”这些词中分别吸收多少信息。
作用：这解决了传统词向量（如Word2Vec）的“一词多义”问题。通过动态的上下文交互，“银行”在“河边的银行”和“银行存款”中会得到截然不同的上下文表示。

2. 多头注意力

这是注意力机制的强大升级版。BERT不是只做一次注意力计算，而是并行地做很多次（例如12次或24次，即12个或24个“头”）。

工作原理：每个“头”都有一套独立的参数，可以学习关注句子中不同类型的依赖关系。例如：
- 一个头可能专门关注语法结

http://www.jsqmd.com/news/235105/

相关文章：

收藏学习！AI如何克服“金鱼记忆“？从RAG到AgentRAG再到记忆增强系统详解

【波束成形】自适应MVDR波束成形和人工噪声无人机链路的运动感知物理层安全【含Matlab源码 14927期】

数通设备堆叠技术：iStack与CSS方案对比及应用选型

从RAG的核心技术原理（语义表示、检索机制、知识融合）出发，解决“为什么检索不精准”“为什么知识融合不高效”等根本问题

如何高效实现图片智能抠图？试试科哥CV-UNet大模型镜像

【雷达回波】电离层回波方向估计HF地表波雷达【含Matlab源码 14911期】

【波束成形】基于matlab双功能雷达与通信系统【含Matlab源码 14910期】

零基础玩转语音识别｜科哥定制FunASR镜像一键部署教程

移远SDK ql_app_pre_init.c文件解析

【波束成形】基于matlab自适应MVDR波束成形和人工噪声无人机链路的运动感知物理层安全【含Matlab源码 14927期】

如何快速实现图片智能抠图？CV-UNet大模型镜像开箱即用

移远 api对应的内核映射函数地址解析

uniapp富文本rich-text

通过函数地址从符号名中反汇编函数名

基于GTE大模型的语义相似度实践｜可视化WebUI+API集成方案

程序员必备的语义检索工具：基于GTE模型的高效相似度计算实践

深度学习抠图新体验｜使用CV-UNet镜像实现精准Alpha通道提取

objdump、nm、addr2line命令解析

基于CV-UNet一键智能抠图｜快速实现单张与批量背景去除

【完全免费】小丸工具箱超详细的视频体积压缩教程，从1G视频压缩到100M，几乎不损画质，完全免费，而且可以批量处理视频文件

零代码抠图部署｜基于CV-UNet Universal Matting镜像快速构建WebUI

如何用FunASR+WebUI快速实现语音转文字？科哥镜像一键部署指南

【完全免费】黑白照片变彩色照片，一键处理百张黑白老照片，AI上色效果比手工精细10倍，效果太惊艳了，老照片AI修复上色全流程演示，支持离线使用！

导师推荐！MBA论文写作痛点破解TOP8 AI论文写作软件

【AI学习-comfyUI学习-三十二节-FLXU原生态反推+controlnet depth(UNion)工作流-各个部分学习】

Redis集群：主从复制模型为何是高可用性基石？

FunASR语音识别WebUI使用指南｜集成speech_ngram_lm_zh-cn提升准确率

【人工智能学习-AI入试相关题目练习-第一次】

【Android 美颜相机】第一天：认识Android-GPUImage项目

如何快速批量抠图？试试CV-UNet大模型镜像，开箱即用