LongLLMLingua2:GPT-4级压缩速度提升6倍
一句话总结四大核心模块
- 粗粒度(问题感知 PPL):让"问题"接在文档后,问题困惑度越低 → 文档越关键 → 留下来。
- 细粒度(对比 PPL):看到问题前后 PPL 下降越多 → token 越关键 → 保留。
- 动态压缩比 + 重排:关键文档少压、放首尾;冷门文档狠压。
- 子序列恢复:用 LCS 把答案中的人名/术语回贴到原文,避免"切碎"。
提示词压缩技术: LongLLMLingua2 实际计算过程
LongLLMLingua2 最大的突破是彻底抛弃了"困惑度"这套复杂的计算方式,把提示词压缩变成了一个简单的"二分类问题":给每个token打个分,0分直接删,1分必须留。
它的速度比LongLLMLingua1快3-6倍,效果更好,是现在工业界的绝对首选。
一、先搞懂:LongLLMLingua2 是怎么"学会"压缩的?
- 收集了几十万条不同任务的"问题+上下文+答案"数据
- 把这些数据喂给GPT-4,让GPT-4标注:“在这段上下文里,哪些token是回答这个问题必须保留的?”
- 用这些GPT-4标注的数据,训练了一个很小的<
