当前位置: 首页 > news >正文

熵与分布(更懂「犹豫」):整个候选分布有多分散; P(True) 自评估:追加一个问题「上述答案是否正确?(A) True (B) False」,再看 logprob;

基于logprob,幻觉抑制 创新方案。

目录

  • 基于 `logprob`,幻觉抑制 创新方案。
    • 一、基础层:单值置信度(简单但有效)
      • 1. 平均对数概率 / 困惑度(Perplexity)
      • 2. 最小 token 概率(Min-Prob,强烈推荐)
    • 二、 熵与分布(更懂「犹豫」):整个候选分布有多分散
      • 3. 预测熵(Predictive Entropy)
      • 4. 语义熵(Semantic Entropy)—— ⭐ 创新、登上 Nature 2024
    • 三、采样层:用「多次调用 + logprob」交叉验证
      • 5. SelfCheckGPT —— ⭐ 经典创新
      • 6. P(True) 自评估
    • 四、生成层:让 logprob 实时干预生成(最前沿、最有效)
      • 7. FLARE:主动检索增强 —— ⭐ 创新且非常实用
      • 8. 对比解码(Contrastive Decoding)
      • 9. 约束解码 + logprob 重排
    • 五、校准层:让概率「数值上可信」
      • 10. 温度缩放 / Conformal Prediction(保形预测)—— ⭐ 创新方向
    • 总结

一、基础层:单值置信度(简单但有效)

这一层只用 logprob 算一个标量分数,做阈值过滤。工程上最快落地。

1. 平均对数概率 / 困惑度(Perplexity)

  • 做法:整句 token 的 logprob 求平均,或算perplexity = exp(-平均logprob)。困惑度越高 = 模型越「懵」。
  • 有效性:⭐⭐⭐ 简单粗暴,能抓住「整体在胡说」的回答,但会被长句稀释(一句话里只有一个数字错,平均下来看不出来)。

2. 最小 token 概率(Min-Prob,强烈推荐)

  • 做法:不看平均,而是看整句里概率最低的那个 token。因为幻觉常常只是「一个关键实体错了」,平均值会掩盖它,但最小值能精准暴露。
  • 有效性:⭐⭐⭐⭐ 比平均值实战效果好很多,尤其适合抽取/事实类任务。这是个被验证过的「便宜又好用」的技巧。

二、 熵与分布(更懂「犹豫」):整个候选分布有多分散

光看选中词的概率不够,还要看整个候选分布有多分散——这才是「不确定性」的本质。

http://www.jsqmd.com/news/1079500/

相关文章:

  • MuleSoft+LLM企业级AI编排实战:构建可治理的意图路由系统
  • 2026年用Gemini镜像站解决Java微服务架构难题
  • 孩子挑食、面色黄、总生病?可能缺的不是饭,是“营养素”
  • 雷电模拟器部署Frida全攻略:从环境配置到Hook实战
  • 我用QClaw的命理大师体验玄学,AI结果令我震惊了
  • 阿里云PolarDB MySQL版完全使用指南:从集群创建到SQL语法实战
  • 数字最有说服力,没数据怎么办?用AI简历工具帮你做“类比表达”
  • HandheldCompanion:终极Windows掌机游戏体验优化方案
  • 芯片 OpenAI 联合博通发布首款自研推理芯片 Jalapeño
  • 【每天认识一个国家 | 墨西哥】
  • MySQL 事务 ACID 四大特性 + 四大隔离级别(面试高频考点)
  • 程序员开始分成两派了!真的会谢
  • 综合医院+专科医院地下停车场照明节能改造 分区域精准节能
  • Ice终极指南:解锁macOS菜单栏管理新境界
  • 大语言模型幻觉成因与事实一致性优化实践
  • 电竞比赛主板如何兼顾多卡扩展与性价比?四大品牌2026年实战选购指南
  • Java静态代码安全审计实战:铲子SAST工具原理、部署与调优指南
  • 由于找不到WnSkinPreview.dll,无法继续执行代码
  • 操作系统实验一:动态优先权进程调度算法模拟与实现
  • 游戏主板扩展接口怎么选,品牌怎么选:2026年四大品牌产品线选购指南
  • PHP开发者的福音!这套开源商城源码,堪称二开界的“瑞士军刀”!
  • 如何用OCR做无货源电商自动化系统(完整变现链路)
  • 结对编程指南:方法、优势、挑战与实践建议
  • Strang估计器:非线性多元SDE在Pearson噪声下的参数估计
  • Github 开源项目巡礼,那些完美适配 ROCm 7.x 的宝藏工具库
  • VSAR 信号导入功能说明
  • 抖音网页版直播数据抓取实战:告别复杂配置,一键获取实时弹幕
  • 构建可靠软件更新引擎:架构设计与工程实践
  • 自对偶杨-米尔斯理论单圈修正与非线性李共形代数量子命运探析
  • ABB工业机器人编程基础(十)搬运任务练习