LongLLMLingua 核心原理:对比困惑度实现提示词压缩
LongLLMLingua 核心原理:问题感知的粗+细两级压缩
LongLLMLingua 是微软专门为长上下文RAG场景优化的提示词压缩技术,它在原始LLMLingua"由粗到细"压缩架构的基础上,加入了革命性的问题感知能力——压缩时不再只看语言本身的信息量,而是同时衡量"这个内容对回答用户问题有多重要"。
这就是为什么它能做到:压缩4倍的同时,准确率反而比原始长prompt提高21.4%(在NaturalQuestions基准上)。
一、原始LLMLingua的粗+细压缩基础
原始LLMLingua已经采用了"先砍大块,再修细节"的两级压缩策略,LongLLMLingua完全继承了这个架构:
1. 粗粒度压缩(第一级)
- 目标:快速砍掉完全无关的大段内容
- 做法:把prompt分成段落/句子/文档块,用小模型(如Llama-2-7B)计算每个块的困惑度(PPL)
- 逻辑:困惑度越低 → 模型越容易预测 → 内容越冗余 → 可以优先删除
- 效果:通常能先砍掉50%-70%的完全无关内容
