当前位置: 首页 > news >正文

当大模型遇到“八字推理”:BaziQA-Benchmark 在测什么,为什么值得关注?

这两年,大模型在数学、代码、通用问答上的表现已经很亮眼,但还有一类能力经常被忽略:模型能不能在固定符号系统里,按照明确约束做多步推理,尤其是在时间条件不断变化时,依然保持判断稳定。由AuraMate灵伴团队做的BaziQA-Benchmark 这篇工作,正是把这个问题单独拎出来,做成了一个标准化 benchmark,用来评估大语言模型的 symbolic reasoning 和 temporally compositional reasoning。论文把任务定义为:给模型一个固定命盘表示,再让模型回答与人生事件、关系、财富、健康、流年等相关的选择题,从而把“会不会推理”从“会不会写得像样”里分离出来。

一、这篇论文到底做了什么?

论文提出的 BaziQA-Benchmark,核心数据来自 2021 到 2025 年全球专业命理竞赛的 200 道官方多选题。每道题都要求模型围绕一个固定的符号图式进行推断,并处理相互作用的时间条件。作者强调,这种设计不是靠个别案例做“展示型评测”,而是希望形成可客观打分、可跨年份比较、可跨模型家族比较的评估框架。换句话说,它不是让模型“聊玄学”,而是让模型在一个非标准但结构清晰的符号系统里做约束推理。

从仓库内容看,开源资源并不只包含论文里那 200 道核心 benchmark 题目。GitHub 仓库还提供了额外的 Celebrity50 数据集,因此整个仓库层面的数据总量达到 90 名对象、450 道题。其中 Contest8 系列对应 2021—2025 年的竞赛题,每年 8 位命主、每位 5 道题,共 200 题;Celebrity50 则额外提供 50 位名人的详细信息与问题集,共 250 题。也就是说,论文中的 benchmark 核心是 200 题,但仓库本身已经是一个更完整的研究资源包。

二、它和普通问答 benchmark 最大的区别是什么?

我认为这项工作的关键,不在于“八字”本身,而在于它构造了一种很少被标准 benchmark 充分覆盖的任务形态:模型面对的不是开放式生成,而是一个固定符号上下文下的离散判断任务。论文明确说明,数据输入不是原始出生信息,而是先经过外部流程计算得到的完整命盘及时间扩展信息,再用统一模板呈现给模型。这样做的目的,是把历法换算、排盘步骤从评测里剥离出去,只保留真正需要比较的“符号推理能力”。

具体评测方式也很有意思。对于每个命主,模型会先看到一次固定格式的命盘上下文,然后在同一轮会话里连续回答 5 个相关问题;模型在答题过程中拿不到正确答案反馈。论文把这叫作 multi-turn evaluation setting。这样的设计更接近真实场景,因为现实中的判断往往也是围绕同一份结构化背景持续展开,而不是每次都重新开题。

另外,这个 benchmark 全部是四选一题,因此随机猜测基线非常清楚,就是 25%。这件事很重要,因为它让“模型到底有没有学到结构”可以用更客观的方式衡量,而不是陷入开放生成任务里常见的主观评分争议。

三、论文还提出了一个很值得注意的东西:SRP

除了 benchmark 本身,论文还设计了一个 Structured Reasoning Protocol,简称 SRP。它不是额外往模型里塞专业知识,也不是训练新参数,而是在推理时强制模型按特定顺序思考。这个 protocol 分三步:第一步做 Quantitative Scan,先看整体结构、元素平衡和 Day Master 强弱;第二步做 Severity Grading,对当前时间条件下的符号交互进行强弱排序;第三步做 Event Mapping,把主导性的符号信号映射到具体事件结论上。

这个设计很有研究价值,因为它不回答“模型能不能靠提示词无脑提分”,而是在追问另一个更本质的问题:当我们改变推理顺序时,模型的行为会不会变化?如果会,那说明模型不只是“知道一些规则”,而是对证据组织顺序高度敏感。论文后面的实验,基本就在围绕这个问题展开。

四、实验结果说了什么?

先看整体成绩。论文报告的五年宏平均准确率里,DeepSeek-Chat-V3 是 36.7%,DeepSeek-R1 是 34.1%,GPT-5.1-Chat 是 32.5%,Gemini-2.5-Flash 是 32.4%,Gemini-3-Pro 是 32.1%。所有模型都显著高于 25% 的随机基线,但离“做对一半以上题目”仍有明显距离。论文据此给出的判断是:模型确实抓到了一些可学习结构,但距离把这类专业级符号推理吃透,还差得很远。

再看跨年份表现,也很有意思。不同模型在 2021—2025 五个年度题集上的表现并不是单调上升或单调下降。比如 DeepSeek-Chat-V3 在 2022 年达到 41.0%,但在 2023 年回落到 33.5%;Gemini-3-Pro 在 2024 年有 38.5%,但在 2023 年只有 26.5%。论文认为,这种波动说明不同年份题集在时间组合难度和交互优先级上并不一致,因此不能把某一年成绩直接当成模型总体能力的稳定代表。

从领域维度看,模型在“人格”“家庭关系”这类更偏静态结构属性的问题上表现相对更好,而“流年”这类依赖时间组合和多因素优先级判断的问题,对所有模型都更困难。论文还指出,健康类问题的模型间差异最大,例如 Gemini-3-Pro 在健康类上达到 60.0%,DeepSeek-R1 为 48.0%,明显高于一些其他模型;但没有任何一个模型能在所有领域形成全面压制。这一点说明,这个 benchmark 不只是给模型排总分,更能揭示不同模型的推理偏好和短板分布。

五、这项工作真正有价值的地方,不只是“玄学 benchmark”

如果只看题材,很多人可能会把这项工作归类成“有趣但边缘”的研究。但从评测设计角度看,它其实提供了一个很扎实的范式:用文化嵌入但规则清晰的符号系统,构建可复现、可客观打分、可做误差分析的 reasoning benchmark。论文在讨论部分也强调,BaziQA-Benchmark 测到的既不是纯事实记忆,也不是自由文本生成,而是一种在显式符号约束下做离散决策的能力。这个角度,对研究大模型在复杂结构环境中的行为,其实很有启发性。

该团队的后续测评在BaziQA live benchmark 也有同步更新最新大模型的八字命理推理能力。

并将底层推理能力包装成一款AI命理陪伴产品 AuraMate灵伴

http://www.jsqmd.com/news/487425/

相关文章:

  • 欧拉路与欧拉回路
  • 文脉定序系统赋能在线教育:智能排序习题与学习资源
  • 突破流体测量瓶颈:PIVlab重构粒子图像测速工作流
  • Fish Speech 1.5部署教程:CSDN平台GPU日志实时查看与错误定位
  • 基于RA2E1与DS1302Z的VFD真空荧光时钟设计
  • 如何用Qwen2.5-VL-3B处理短视频?1秒视频识别成功经验分享
  • snownlp情感分析避坑指南:为什么你的准确率总上不去?
  • 为什么你的PostgreSQL数据库总被破解?可能是忽略了这5个密码安全设置
  • 电机控制必看!STM32定时器1的PWM互补输出避坑指南
  • 3大核心优势!FastAPI Admin:企业级后台管理系统高效开发解决方案
  • 避开PyTorch官网下载慢的坑:用Anaconda+清华源5分钟搞定CPU版本
  • 新手必看!用FFmpeg一键合并ts文件的5种方法(含Windows/Mac终端命令)
  • 带权并查集、可撤销并查集
  • PyTorch模型部署实战:torch.jit.script与torch.jit.trace到底怎么选?
  • MultiHeadAttention内部机制详解:从矩阵操作到梯度回传
  • 半导体设备报警上报的完整流程:从S5F1到S6F11的实战案例分析
  • 可持久化并查集
  • 霜儿-汉服-造相Z-Turbo问题解决:生成图片模糊、细节不清?3个技巧搞定
  • 基于ESP32-S3的嵌入式无线测控记录仪设计
  • 立创开源GSM-Weather-S3桌面天气站:ESP32-S3双板设计与3D打印外壳全解析
  • Qwen2.5-VL-7B-Instruct多场景落地:博物馆文物图智能导览+多语言解说生成
  • 立创开源AR眼镜2:从20.4g无感佩戴到10小时超长续航的硬件设计解析
  • VS2019 MFC对话框的创建与销毁机制详解
  • 常用的类型
  • 新手必看:Flux2 Klein动漫转写实,保存图片详细步骤
  • Dify 2026日志审计性能暴跌47%?内存泄漏+ES索引爆炸+时间戳时区错乱——3个生产环境致命Bug紧急修复方案
  • 双模音频解码器设计:USB+蓝牙LDAC平衡输出方案
  • lite-avatar形象库镜像免配置:内置nginx限流模块,防止Web Gallery被恶意爬取
  • AI图片放大实测:Super Resolutio镜像让模糊图片重获新生
  • 2026PPT制作网站实用指南,轻松搞定各类演示需求 - 品牌测评鉴赏家