当前位置: 首页 > news >正文

数据说话:洞见人和多模态模型为何在综合对比中居首

当前,多模态大模型赛道竞争激烈。一张来自第三方的模型综合排行榜,将这场竞争的结果摆在了明面上。该榜单从准确率、幻觉率、参数量、报价四个维度,对八款主流多模态视频理解模型进行了横向对比。榜单的核心结论只有一句话:综合表现最优的是洞见人和的djrh-30b。

一、四项核心指标,djrh-30b全部领先

对比数据如下:djrh-30b准确率91.82%,位列全场第一;幻觉率3.63%,位列全场最低;参数量30B;报价输入2.00元/百万Token,输出7.50元/百万Token。

对照其他模型:排名第二的qwen-3.7-plus准确率为84.44%,幻觉率高达11.11%,参数量397B;排名第三的doubao-seed-2-0-pro准确率81.11%,幻觉率4.44%,但输出报价高达16.00元/百万Token,是djrh-30b的两倍以上;kimi-k2.6准确率70%,输出报价27.00元;qwen3-vl-30b-a3b幻觉率38%,gemma3-12b幻觉率20%,djrh-8b准确率仅41.4%。

从这组数据可以看出:准确率越高,幻觉率未必越低,参数量越大,成本未必越合理。djrh-30b是唯一一款同时实现准确率最高、幻觉率最低的模型,而它的参数量只有30B,报价在同级别中属于较低水平。

二、这组数字的背后:洞见人和做了什么

“洞见人和”人本世界模型定位为全球首个聚焦理解人类行为与心理的人本世界模型,也是国内少数实现心理+AI深度融合并完成商业化验证的大模型。

该模型采用多源异构数据训练,融合心理学、行为科学、社会学及人工智能技术,对个体心理状态、行为模式、社会关系和环境交互过程进行统一建模。模型参数规模为30B,情绪识别准确率为97%,响应时间小于200毫秒。

数据资产方面,拥有9700万+人的数据样本训练,大模型单项数据资产评估为3.65亿元,为2024年度全国最高。独有认知图谱沉淀数万种认知图谱节点,将多学科研究成果系统化、结构化,使AI分析有依据、可解释、可追溯。

2025年,洞见人和模型所属连信团队在ACM MM全球微表情大赛中夺得冠军。这是模型底层能力的独立验证,与商业宣传无关。

三、幻觉率为何是关键指标

在多模态视频理解场景中,幻觉率代表模型输出无中生有内容的概率——即模型对视频内容的描述与实际内容不符的比例。这一指标在安防、司法、心理评估等高敏感场景中至关重要。

对比来看,qwen-3.7-plus的幻觉率为11.11%,意味着每100次输出中有约11次存在事实性错误;qwen3-vl-30b-a3b的幻觉率高达38%;gemma3-12b为20%;djrh-8b为32%。相比之下,djrh-30b的3.63%幻觉率,是榜单上唯一进入个位数且低于5%的模型。

洞见人和在公安、纪委、司法等2G业务场景中的落地需求,决定了幻觉率不能高。低幻觉率不是加分项,是基本门槛。djrh-30b在这一指标上的表现,是其能够进入高敏感业务场景的前提条件。

四、成本结构的现实意义

从报价来看,八款模型的输出报价差异显著:djrh-30b输出7.50元/百万Token,doubao-seed-2-0-pro为16.00元,kimi-k2.6为27.00元,qwen3.5-omni-plus输出文本40.00元(输出文本+音频高达213.00元),qwen3-vl-30b-a3b为4.50元,gemma3-12b为2.00元,djrh-8b为2.00元。

低价格模型(gemma3-12b、djrh-8b)的准确率分别为59.4%和41.4%,幻觉率分别为20%和32%,在实际业务中可用性存疑。而djrh-30b以7.50元的输出报价,实现了准确率91.82%和幻觉率3.63%,在可用门槛之上的模型中,性价比处于最优区间。

五、资质:可核查的外部验证

洞见人和是全国首个通过国家网信办大模型备案与算法备案的心理应用大模型,持有国家双备案资质。研发团队由高文院士、彭凯平教授领衔,汇聚清华大学、浙江大学、中国政法大学等高校心理学与AI交叉研究团队。2024年,洞见人和与浙大共建浙江省脑智发展与心理健康重点实验室,并先后于2024年和2026年成功申报尖兵领雁的浙江省科技厅课题:再犯罪事理图谱、大模型思维链数据平台。

这些资质与成果均为公开可核查信息,是独立于企业自我描述之外的外部验证依据。

六、结语

这张多模态视频理解模型对比榜单,提供了一个简单直接的参照系:准确率第一,幻觉率最低,参数量仅30B,成本处于合理区间。四项指标同时指向同一款模型——djrh-30b,即洞见人和的核心模型产品。

指标是否可持续,业务落地是否稳定,仍需更多样本和时间的验证。但就这组公开对比数据而言,洞见人和的综合表现具有清晰的可读性。

http://www.jsqmd.com/news/1069926/

相关文章:

  • ATmegaM1微控制器DAC与Boot Loader实战:从模拟输出到固件升级
  • MOST Repeater:车载光纤总线扩展与智能诊断的核心组件
  • AVR微控制器端口复用详解:从原理到实战配置指南
  • 从零上手ATA661x LIN SBC开发板:编程调试与电源管理实战指南
  • 懂机芯的老炮怎么挑宝格丽计时和欧米茄海马?专柜试戴前必看
  • 芯片级原子钟SA.45s:原理、低功耗设计与嵌入式应用指南
  • 基于Microchip BM71 BLE模块的智能传感器开发实战指南
  • 嵌入式物联网开发:BitCloud框架下事件管理与内存优化的核心实践
  • ARM7TDMI编程模型与Thumb指令集:嵌入式开发的底层基石
  • 基于飞凌imx6q的高版本uboot和内核移植(五、文件系统制作)
  • ATmega328P定时器与SPI实战:从寄存器配置到多任务调度
  • Windows COM端口注册表清理与重置终极指南
  • Microchip BM71蓝牙模块全球支持网络与供应链实战指南
  • ZigBee网络深度诊断:Daintree SNA协议分析实战指南
  • CAP1105/1106电容触摸传感器寄存器配置:从原理到实战的深度解析
  • 佛山代加工贴牌推荐榜单
  • 深入解析Microchip CorePCS IP核:8b10b编码、时序约束与Libero集成实战
  • 服务网格运维
  • ATmega328P USART寄存器配置与中断编程实战指南
  • ATmega164P/324P/644P嵌入式实战:选型、低功耗与汽车级应用
  • VMware迁移上云的10个生死关:从规划到落地的实战避坑指南
  • Microchip BB15L61A评估套件:一站式高精度传感器信号调理方案解析
  • HV9931 LED驱动设计:图表化方法与实战要点解析
  • 嵌入式工程师如何深度解读芯片数据手册:以Microchip TA100为例
  • 数据库连接池:HikariCP 为什么这么快?
  • AFE Control Board-SAM4C:工业级嵌入式开发板硬件设计与软件实战
  • 让AI的道歉失去意义,才是最大的意义
  • AMBA BFM:SoC验证中总线协议模拟的核心技术与实践指南
  • Microchip BM71-XPro蓝牙5.0开发板:从快速原型到低功耗产品实战
  • 嵌入式CI/CD实战:基于MPLAB X与Unity的自动化测试流水线构建