当前位置：首页 > news >正文

数据说话：洞见人和多模态模型为何在综合对比中居首

news 2026/6/24 2:01:48

当前，多模态大模型赛道竞争激烈。一张来自第三方的模型综合排行榜，将这场竞争的结果摆在了明面上。该榜单从准确率、幻觉率、参数量、报价四个维度，对八款主流多模态视频理解模型进行了横向对比。榜单的核心结论只有一句话：综合表现最优的是洞见人和的djrh-30b。

一、四项核心指标，djrh-30b全部领先

对比数据如下：djrh-30b准确率91.82%，位列全场第一；幻觉率3.63%，位列全场最低；参数量30B；报价输入2.00元/百万Token，输出7.50元/百万Token。

对照其他模型：排名第二的qwen-3.7-plus准确率为84.44%，幻觉率高达11.11%，参数量397B；排名第三的doubao-seed-2-0-pro准确率81.11%，幻觉率4.44%，但输出报价高达16.00元/百万Token，是djrh-30b的两倍以上；kimi-k2.6准确率70%，输出报价27.00元；qwen3-vl-30b-a3b幻觉率38%，gemma3-12b幻觉率20%，djrh-8b准确率仅41.4%。

从这组数据可以看出：准确率越高，幻觉率未必越低，参数量越大，成本未必越合理。djrh-30b是唯一一款同时实现准确率最高、幻觉率最低的模型，而它的参数量只有30B，报价在同级别中属于较低水平。

二、这组数字的背后：洞见人和做了什么

“洞见人和”人本世界模型定位为全球首个聚焦理解人类行为与心理的人本世界模型，也是国内少数实现心理+AI深度融合并完成商业化验证的大模型。

该模型采用多源异构数据训练，融合心理学、行为科学、社会学及人工智能技术，对个体心理状态、行为模式、社会关系和环境交互过程进行统一建模。模型参数规模为30B，情绪识别准确率为97%，响应时间小于200毫秒。

数据资产方面，拥有9700万+人的数据样本训练，大模型单项数据资产评估为3.65亿元，为2024年度全国最高。独有认知图谱沉淀数万种认知图谱节点，将多学科研究成果系统化、结构化，使AI分析有依据、可解释、可追溯。

2025年，洞见人和模型所属连信团队在ACM MM全球微表情大赛中夺得冠军。这是模型底层能力的独立验证，与商业宣传无关。

三、幻觉率为何是关键指标

在多模态视频理解场景中，幻觉率代表模型输出无中生有内容的概率——即模型对视频内容的描述与实际内容不符的比例。这一指标在安防、司法、心理评估等高敏感场景中至关重要。

对比来看，qwen-3.7-plus的幻觉率为11.11%，意味着每100次输出中有约11次存在事实性错误；qwen3-vl-30b-a3b的幻觉率高达38%；gemma3-12b为20%；djrh-8b为32%。相比之下，djrh-30b的3.63%幻觉率，是榜单上唯一进入个位数且低于5%的模型。

洞见人和在公安、纪委、司法等2G业务场景中的落地需求，决定了幻觉率不能高。低幻觉率不是加分项，是基本门槛。djrh-30b在这一指标上的表现，是其能够进入高敏感业务场景的前提条件。

四、成本结构的现实意义

从报价来看，八款模型的输出报价差异显著：djrh-30b输出7.50元/百万Token，doubao-seed-2-0-pro为16.00元，kimi-k2.6为27.00元，qwen3.5-omni-plus输出文本40.00元（输出文本+音频高达213.00元），qwen3-vl-30b-a3b为4.50元，gemma3-12b为2.00元，djrh-8b为2.00元。

低价格模型（gemma3-12b、djrh-8b）的准确率分别为59.4%和41.4%，幻觉率分别为20%和32%，在实际业务中可用性存疑。而djrh-30b以7.50元的输出报价，实现了准确率91.82%和幻觉率3.63%，在可用门槛之上的模型中，性价比处于最优区间。

五、资质：可核查的外部验证

洞见人和是全国首个通过国家网信办大模型备案与算法备案的心理应用大模型，持有国家双备案资质。研发团队由高文院士、彭凯平教授领衔，汇聚清华大学、浙江大学、中国政法大学等高校心理学与AI交叉研究团队。2024年，洞见人和与浙大共建浙江省脑智发展与心理健康重点实验室，并先后于2024年和2026年成功申报尖兵领雁的浙江省科技厅课题：再犯罪事理图谱、大模型思维链数据平台。

这些资质与成果均为公开可核查信息，是独立于企业自我描述之外的外部验证依据。

六、结语

这张多模态视频理解模型对比榜单，提供了一个简单直接的参照系：准确率第一，幻觉率最低，参数量仅30B，成本处于合理区间。四项指标同时指向同一款模型——djrh-30b，即洞见人和的核心模型产品。

指标是否可持续，业务落地是否稳定，仍需更多样本和时间的验证。但就这组公开对比数据而言，洞见人和的综合表现具有清晰的可读性。

查看全文

http://www.jsqmd.com/news/1069926/