当前位置: 首页 > news >正文

Prompt Engineering和context engineering有什么区别?为什么Transformer架构在处理超长上下文时会变慢?

Prompt Engineering和context engineering有什么区别?

Prompt是指导大模型怎么思考的机制,解决的是how的问题,怎么推理,怎么组织答案。

Context是为大模型提供信息的机制,解决的是what的问题,给模型什么知识,什么数据。

Prompt的核心技术包括CoT、few shot、角色扮演等,用来激发模型内部已有的知识;

Context的核心是RAG,通过检索将外部知识注入模型。

两者缺一不可,前者决定质量,后者决定准确性。

在实际工程中,Prompt面临脆弱性和幻觉问题,我们用自动优化和Self-Consistency来解决;

Context面临中间迷失和噪声问题,我们用重排策略和自反思来优化。

未来的发展方向是Agent,让系统动态地生成和管理这两者,实现真正的智能协作。

为什么Transformer架构在处理超长上下文时会变慢?它的瓶颈在哪里?我们该如何解决?

在Transformer的自注意力机制中,模型主要做的事情是让每一个Token都要去和整个序列里其他所有的Token进行交互,计算他们之间的相关度。

假设输入序列长度从n变成2n,计算量和显存占用不是简单的翻一倍,而是直接飙升4倍。这就是所谓的二次方爆炸,长度双倍增长,代价是4倍的计算量。

除了计算的瓶颈,还有一个关键的瓶颈是显存瓶颈,也就是常说的显存墙现象。

可以想象这样一个场景,GPU的计算核心就像一个吃饭飞快的人,但是显存的带宽就像是一根很细的吸管,搬运数据的速度远远跟不上计算的需求。

在推理阶段,这个问题更加明显,每次生成一个新的Token,模型都要反复去显存里搬取之前计算过的键值缓存KV cache,结果,计算核心大部分都在等数据这个动作上,而不是在真正算数据,这才是变慢的物理本质。

第三个问题就是外推性差,很多大模型其实是在相对较短的文本上训练的,如果给他塞进一个长文本,虽然物理硬件层面上可能扛得住,单模型内部的位置编码机制并不知道这些超长距离的Token之间应该如何交互,导致的结果就是深层内容开始乱套,困惑度PPL疯狂飙升。

所以,长文本变慢的本质其实是O(n^2)的计算复杂度和硬件IO访问瓶颈的双重碰撞,而我们的解决思路是:

首先,用Flash Attention在算子层面做融合和优化,直接解决IO的瓶颈;

其次,用GQA和MQA在架构层面做参数共享,显著压缩KV cache的体积;

同时,借助PagedAttention,在内存管理上做创新,消灭显存碎片;

最后,通过位置编码的数学手段,比如RoPE Scaling让模型具备外推能力。

http://www.jsqmd.com/news/954093/

相关文章:

  • 实验三:学生用户画像
  • 2026 铜川防水补漏哪家好?住建行业实地测评权威榜单 TOP5|卫生间免砸砖 / 屋面外墙 / 地下室渗漏维修甄选白皮书(6 月行业深度调研) - 苏易修缮
  • 第一次给采集程序接入代理IP,从配置到稳定走代理的完整步骤
  • OpenViking常用命令
  • 随州市黄金回收白银回收铂金回收彩金回收门店优选+2026年最新黄金回收TOP5排行榜靠谱商家推荐及联系方式 - 亦辰小黄鸭
  • 房产继承律师易轶:从个案代理到行业引领,重塑家事法律服务新标准 - 资讯焦点
  • 2026年最新苏州市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 多维聚合实战:SQL与Polars高维数据安全变形指南
  • AUTOSAR OS多核实战:在Infineon TC2xx三核芯片上分配任务与中断(基于DaVinci工具链)
  • 2026 宣城防水补漏三家品牌横向测评:厨卫屋面地下室修缮哪家靠谱?吉修匠 99.8 分五星稳居榜首 - 吉修匠
  • 高校学生社团管理实战项目:C# + ASP.NET Web系统源码包(含数据库、设计图与课程报告)
  • 2026 福州防水补漏三家品牌测评:厨卫屋面地下室修缮哪家靠谱?吉修匠 99.8 分五星稳居榜首 - 吉修匠
  • C++刷题实战:OpenJudge NOI 1.7 单词翻转,三种解法保姆级拆解(附调试技巧)
  • 2026年最新宿迁市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 西藏林芝寄件不必奔波往返网点,四款全国低价寄快递微信工具足不出户约上门,大小包裹快递物流直达全国 - 时讯资讯
  • 离线部署Qwen 和 DeepSeek
  • 告别卡尔曼滤波?用DETR的‘Track Query’思路,5分钟理解TrackFormer的跟踪新范式
  • C语言整数类型
  • 2026最新焊接工作站工厂实测评测:四大品牌核心能力横向对比 - 奔跑123
  • 2026年Q2淮南牛肉汤歌、淮南牛肉汤动漫歌 权威推荐TOP5榜 - 安互工业信息
  • 5分钟掌握百度网盘直链解析:告别龟速下载的完整指南
  • 市场纤维水泥压力板厂商
  • 2026年最新宿州市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 2026 池州防水补漏三家品牌测评:厨卫屋面地下室修缮哪家靠谱?吉修匠 99.8 分五星稳居榜首 - 吉修匠
  • Flutter国内镜像又挂了?别慌,手把手教你快速切换到清华/腾讯云等可用镜像源
  • 成都地区茅台酒回收靠谱商家推荐榜单,2026 优选头部品牌,飞天 生肖 年份茅台上门变现指南 - 资讯焦点
  • 别再搞混了!ArcMap里‘定义投影’和‘投影’到底啥区别?手把手教你选对工具
  • CBCX:监管意识与信息透明度的观察
  • 小学生算术练习神器:从 0 到 1 开发一款趣味数学小软件
  • 记一次网卡故障