当前位置: 首页 > news >正文

主流模型术数题「翻车」,Tianfu Agent准确率达50%逼近人类Top20选手水平

没有信息泄漏的专业术数题库面前,主流模型「翻车」,Tianfu Agent表现亮眼

没有信息泄漏的专业术数题库面前,Claude、GPT等主流模型集体「翻车」。但一个叫Tianfu Agent的系统,却一举将准确率提升至50%,逼近本届术数大赛人类Top20选手的53.5%平均水平。

评测背景与主流模型测试结果

把当前最先进的通用大模型,放在中国传统术数专业选择题(四选一)面前,评测对通用模型已做「让步」,所有基线模型的Prompt中都提供预计算的盘面数据,直接考察推理能力。DestinyLinker研究团队基于术数大赛(HKJFMA主办,3069名选手参与)的官方题库的评测集基准Mingli - Bench,测试当下主流大模型,技术报告和测试结果在x上获百万关注。结果意外,这些模型在几乎无信息泄漏的最新比赛选择题上,准确率在23%到40%之间徘徊,而四选一选择题随机猜测线是25%。

Tianfu Agent研发与成果

为验证模型能力能否支撑专业术数推理,该团队研发了Tianfu Agent系统,实现针对中国传统术数领域harness工程系统,包括200多个原子工具、3大流派规则函数库、多Sub - Agent协作及全链路置信度量化机制,一举达到50%的截尾准确率,逼近本届赛事人类Top20选手平均水平。

Harness之路:编码智能体经验不足

试案例用了马斯克命盘,测试中的1971/12/30非其真实生日,因他出生于南半球,需对生辰进行节气转换。Claude Code、Cursor等工具在复杂工程任务中表现良好,是因其被放进领域专用工具环境。Tianfu Agent将同样逻辑搬进中国传统术数领域,采用多Sub - Agent协作的渐进式发现策略,但仅依靠Coding Agent成功经验不够,术数领域涉及大量数据逻辑运算,规则选择需经验,且缺乏「单元测试」辅助验证手段,易积累偏差,其他垂直领域如医疗、法律等可能面临类似困境。

200多个工具管理:四级可见性控制

通用Agent用十几个工具即可,200 +工具带来的工程问题是模型选不对。研究团队按「LLM可理解性」和「可穷举性」将工具分成四级,机制核心是动态控制工具可见范围,避免选项过载导致选择退化,此思路对其他垂直领域Agent开发有参考价值。

繁杂规则使用:封装成可调用函数

通用Agent常把规则写进System Prompt或Few - shot让模型「记住并遵循」,但术数领域规则繁杂、适用条件耦合、流派矛盾,靠记忆遵循会导致选择性忽略和推理路径不可控。Tianfu Agent把复杂规则封装成带元数据的可调用函数,人类专家预先标注相关信息,函数输入盘面状态返回结论和置信度,只在满足验证时注入上下文,将LLM从「记规则的考生」变成「调规则的工程师」。

无单元测试:三层不确定性量化

编码Agent有「测试」验证手段,术数领域等绝大多数专业领域缺乏「单元测试」。Tianfu Agent引入不确定性量化,在工具输出层、Sub - Agent层、多流派合参层给出置信度评估,虽不能替代「自动验证」,但在缺乏验证手段领域,能为上层决策提供量化参考。

harness设计哲学与对垂直领域Agent落地启示

这套harness设计哲学是在Tianfu Agent里,工具不仅是计算函数,还包括规则、子推理流程和Sub - Agent本身。该项目对垂直领域Agent开发有参考价值,如工具化范式在「规则密集+语料稀缺」领域收益大,工具数量膨胀后工具管理成独立工程问题,缺乏自动验证领域不确定性量化是务实次优方案,「知识即接口」在规则密度高场景更可靠,Tianfu Agent证明该范式在足够结构化的垂直领域可能同样成立。

http://www.jsqmd.com/news/886473/

相关文章:

  • 在Python项目中集成多模型服务实现智能客服问答场景
  • taotoken如何帮助ubuntu开发者应对大模型api的频繁更新与版本迭代
  • GitHub认证升级指南:SSH与PAT双轨实践
  • 通过curl命令快速测试Taotoken API连通性与模型响应基础教程
  • 一文知数据库
  • Godot 4.2 保姆级教程:从零到一复刻《Dodge the Creeps!》完整避坑指南
  • 告别论文写作 “地狱模式”!okbiye 毕业论文智能写作,把开题到定稿的坑全填上了
  • RBM动态构建量子化学紧凑Ansatz:机器学习赋能NISQ计算
  • 网页高亮神器:Highlighter浏览器扩展的终极使用指南
  • 为什么说CLIP是多模态大模型的基石?
  • 在Taotoken模型广场中根据任务与预算挑选合适大模型的技巧
  • 机器学习势函数驱动分子动力学模拟:揭示锂离子电池电解液微观结构与传输机制
  • DIY 48V幻象电源:线性稳压方案与350mA过压保护设计
  • Midjourney霓虹效果实战手册(含12组可直接复用的Prompt模板+环境光衰减参数表)
  • 90%创业失败率下,FlashLabs 创始人石一如何带领公司在大模型浪潮中求生?
  • Taotoken如何帮助教育科技产品实现个性化学习辅导
  • 用知识图谱构建测试用例间的关联关系,回归测试范围精准优化
  • 26春 日总结24
  • FeHelper终极指南:30+前端开发工具一站式解决方案,如何快速提升你的开发效率
  • 机器学习加速瞬态CFD模拟:基于混合策略的流场初始化革命
  • AI搜索时代谁能帮你抢占第一推荐位?2026年全国效果好的GEO优化机构实力榜发布 - GEO优化
  • 符号回归在格点QCD有限体积外推中的应用:从短程到长程相互作用
  • 内蒙古金旅假日旅行社有限公司官方联系方式公告(2026最新) - 资讯快报
  • 2026服务器默认密码失效真相与精准登录指南
  • 水磨石常见问题解答(2026最新专家版) - 资讯快报
  • 3PEAK思瑞浦 TP5531U-TR SOT23-5 精密运放
  • AI搜索时代谁能帮你抢占第一推荐位?2026年成都效果好的GEO优化机构实力榜发布 - GEO优化
  • 羅斯福路與基隆路口交通安全改善說明(繁) 2025
  • 借势AI新风口 融合线下全域流量——徐州名翔GEO打造本土品牌营销新范式 - 招财兔数字员工
  • 2026电商GEO优化服务商评测:不再卷关键词排名,谁能用“全意图”重构AI获客? - GEO优化