当前位置：首页 > news >正文

当大模型遇到“八字推理”：BaziQA-Benchmark 在测什么，为什么值得关注？

news 2026/6/30 16:12:19

这两年，大模型在数学、代码、通用问答上的表现已经很亮眼，但还有一类能力经常被忽略：模型能不能在固定符号系统里，按照明确约束做多步推理，尤其是在时间条件不断变化时，依然保持判断稳定。由AuraMate灵伴团队做的BaziQA-Benchmark 这篇工作，正是把这个问题单独拎出来，做成了一个标准化 benchmark，用来评估大语言模型的 symbolic reasoning 和 temporally compositional reasoning。论文把任务定义为：给模型一个固定命盘表示，再让模型回答与人生事件、关系、财富、健康、流年等相关的选择题，从而把“会不会推理”从“会不会写得像样”里分离出来。

一、这篇论文到底做了什么？

论文提出的 BaziQA-Benchmark，核心数据来自 2021 到 2025 年全球专业命理竞赛的 200 道官方多选题。每道题都要求模型围绕一个固定的符号图式进行推断，并处理相互作用的时间条件。作者强调，这种设计不是靠个别案例做“展示型评测”，而是希望形成可客观打分、可跨年份比较、可跨模型家族比较的评估框架。换句话说，它不是让模型“聊玄学”，而是让模型在一个非标准但结构清晰的符号系统里做约束推理。

从仓库内容看，开源资源并不只包含论文里那 200 道核心 benchmark 题目。GitHub 仓库还提供了额外的 Celebrity50 数据集，因此整个仓库层面的数据总量达到 90 名对象、450 道题。其中 Contest8 系列对应 2021—2025 年的竞赛题，每年 8 位命主、每位 5 道题，共 200 题；Celebrity50 则额外提供 50 位名人的详细信息与问题集，共 250 题。也就是说，论文中的 benchmark 核心是 200 题，但仓库本身已经是一个更完整的研究资源包。

二、它和普通问答 benchmark 最大的区别是什么？

我认为这项工作的关键，不在于“八字”本身，而在于它构造了一种很少被标准 benchmark 充分覆盖的任务形态：模型面对的不是开放式生成，而是一个固定符号上下文下的离散判断任务。论文明确说明，数据输入不是原始出生信息，而是先经过外部流程计算得到的完整命盘及时间扩展信息，再用统一模板呈现给模型。这样做的目的，是把历法换算、排盘步骤从评测里剥离出去，只保留真正需要比较的“符号推理能力”。

具体评测方式也很有意思。对于每个命主，模型会先看到一次固定格式的命盘上下文，然后在同一轮会话里连续回答 5 个相关问题；模型在答题过程中拿不到正确答案反馈。论文把这叫作 multi-turn evaluation setting。这样的设计更接近真实场景，因为现实中的判断往往也是围绕同一份结构化背景持续展开，而不是每次都重新开题。

另外，这个 benchmark 全部是四选一题，因此随机猜测基线非常清楚，就是 25%。这件事很重要，因为它让“模型到底有没有学到结构”可以用更客观的方式衡量，而不是陷入开放生成任务里常见的主观评分争议。

三、论文还提出了一个很值得注意的东西：SRP

除了 benchmark 本身，论文还设计了一个 Structured Reasoning Protocol，简称 SRP。它不是额外往模型里塞专业知识，也不是训练新参数，而是在推理时强制模型按特定顺序思考。这个 protocol 分三步：第一步做 Quantitative Scan，先看整体结构、元素平衡和 Day Master 强弱；第二步做 Severity Grading，对当前时间条件下的符号交互进行强弱排序；第三步做 Event Mapping，把主导性的符号信号映射到具体事件结论上。

这个设计很有研究价值，因为它不回答“模型能不能靠提示词无脑提分”，而是在追问另一个更本质的问题：当我们改变推理顺序时，模型的行为会不会变化？如果会，那说明模型不只是“知道一些规则”，而是对证据组织顺序高度敏感。论文后面的实验，基本就在围绕这个问题展开。

四、实验结果说了什么？

先看整体成绩。论文报告的五年宏平均准确率里，DeepSeek-Chat-V3 是 36.7%，DeepSeek-R1 是 34.1%，GPT-5.1-Chat 是 32.5%，Gemini-2.5-Flash 是 32.4%，Gemini-3-Pro 是 32.1%。所有模型都显著高于 25% 的随机基线，但离“做对一半以上题目”仍有明显距离。论文据此给出的判断是：模型确实抓到了一些可学习结构，但距离把这类专业级符号推理吃透，还差得很远。

再看跨年份表现，也很有意思。不同模型在 2021—2025 五个年度题集上的表现并不是单调上升或单调下降。比如 DeepSeek-Chat-V3 在 2022 年达到 41.0%，但在 2023 年回落到 33.5%；Gemini-3-Pro 在 2024 年有 38.5%，但在 2023 年只有 26.5%。论文认为，这种波动说明不同年份题集在时间组合难度和交互优先级上并不一致，因此不能把某一年成绩直接当成模型总体能力的稳定代表。

从领域维度看，模型在“人格”“家庭关系”这类更偏静态结构属性的问题上表现相对更好，而“流年”这类依赖时间组合和多因素优先级判断的问题，对所有模型都更困难。论文还指出，健康类问题的模型间差异最大，例如 Gemini-3-Pro 在健康类上达到 60.0%，DeepSeek-R1 为 48.0%，明显高于一些其他模型；但没有任何一个模型能在所有领域形成全面压制。这一点说明，这个 benchmark 不只是给模型排总分，更能揭示不同模型的推理偏好和短板分布。

五、这项工作真正有价值的地方，不只是“玄学 benchmark”

如果只看题材，很多人可能会把这项工作归类成“有趣但边缘”的研究。但从评测设计角度看，它其实提供了一个很扎实的范式：用文化嵌入但规则清晰的符号系统，构建可复现、可客观打分、可做误差分析的 reasoning benchmark。论文在讨论部分也强调，BaziQA-Benchmark 测到的既不是纯事实记忆，也不是自由文本生成，而是一种在显式符号约束下做离散决策的能力。这个角度，对研究大模型在复杂结构环境中的行为，其实很有启发性。

该团队的后续测评在BaziQA live benchmark 也有同步更新最新大模型的八字命理推理能力。

并将底层推理能力包装成一款AI命理陪伴产品 AuraMate灵伴

查看全文

http://www.jsqmd.com/news/487425/