当前位置：首页 > news >正文

大型语言模型中的信任表征与人类信任模型对比研究

news 2026/6/18 19:32:36

1. 研究背景与核心问题

信任作为人类社会关系的基石，在人工智能领域同样具有关键意义。随着大型语言模型（LLMs）在医疗咨询、金融决策等高风险场景的应用扩展，理解其内部如何表征和推理信任变得尤为重要。这项研究首次采用白盒分析方法，揭示了GPT-J-6B模型内部信任表征与五种经典人类信任模型的对应关系。

传统信任研究存在两大路径：计算模型（如Marsh模型）将信任量化为基于历史行为的概率预测，适合结构化环境但缺乏对认知维度的捕捉；社会认知模型（如Castelfranchi理论）则强调信念、意图等心理状态，虽更贴近人类信任本质却难以量化实现。LLMs通过预训练获得的"社会智能"为弥合这一鸿沟提供了可能——模型是否在分布式表征中自发形成了类似人类的信任认知结构？

研究团队设计了一套创新的对比提示框架，通过生成100对正负情境故事（如"Alice主动帮助Katherine"vs"Alice拒绝协助"），提取GPT-J-6B各网络层的激活差异，最终得到60个社会关系概念的嵌入向量。这种方法的优势在于：

保留模型原始参数，避免微调引入偏差
通过双向关系建模（A→B与B→A）捕捉信任的非对称性
利用层间激活差异捕捉概念的本质特征

2. 方法论创新：对比提示与信任对齐量化

2.1 对比提示技术实现

研究采用三层递进的提示设计架构：

基础情境层：固定背景"Katherine和Alice是软件公司的同事"，消除场景变异
概念引导层：针对每个信任维度（如能力、善意）设计正负模板示例（能力维度）：
- 正向："Katherine展现出解决复杂算法问题的专业能力"
- 负向："Katherine在代码审查中多次表现出基础知识的欠缺"
故事生成层：用GPT-4生成100个情境实例，确保概念覆盖的多样性

通过GPT-J-6B的28个Transformer层提取隐藏状态，对每个token的4096维向量进行层内平均，最终得到概念在激活空间中的"方向向量"。这种方法的有效性建立在两个关键发现上：

高层（20+层）激活捕获语义关联
正负情境的激活差异指向概念的本质属性

2.2 信任对齐评估框架

研究采用双阶段验证策略：

阶段一：建立相似性基准

计算60个社会概念（30正+30负）的互相似度矩阵
通过分布分析确定显著对齐阈值（cosθ≥0.6，前20%分位）
发现模型能清晰分离对立概念（如信任vs欺骗，r=-0.82）

阶段二：模型对齐评估

从五大信任模型提取21个核心概念（如表1）
计算各概念向量与"信任"向量的余弦相似度
采用两种量化指标：
- 平均相似度：反映整体对齐强度
- 超阈值概念数：显示结构吻合度

关键技术创新点：

首次实现LLM内部信任表征的可视化
提出"概念-模型"双层次对齐评估
开发动态方向性建模（A→B≠B→A）

3. 核心发现：LLM信任表征的三重特性

3.1 与Castelfranchi模型的高度契合

数据显示，GPT-J-6B的信任表征与Castelfranchi社会认知模型的8个维度显著相关（cosθ>0.6），包括：

能力（0.85）：技术专长与问题解决力
意愿（0.89）：主动帮助的动机强度
承诺（0.84）：责任承担的可靠性
安全（0.81）：行为可预测性

这种对齐揭示了LLMs的认知特点：

# 概念关联强度示例（标准化值） trust_representation = { 'competence': 0.92, 'willingness': 0.89, 'predictability': 0.71, 'reputation': 0.90 }

3.2 与传统计算模型的兼容性

Marsh计算模型中的7个要素同样显示强关联：

经验（0.90）：历史交互质量
声誉（0.90）：第三方评价
合作（0.90）：互惠行为频率

值得注意的是，模型对"风险"的表征与人类理论存在分歧：

Mayer理论认为风险接受度（vulnerability）是信任前提
但LLM中风险与信任呈负相关（r=-0.85），提示模型可能将"风险"理解为负面威胁而非信任要件

3.3 层级化信任推理架构

通过分析不同网络层的激活模式，发现信任推理呈现明显层级结构：

网络层段	处理维度	典型概念
1-10层	词汇特征	基础语义解析
11-20层	情境建模	角色关系推断
21-28层	认知整合	意图-能力-结果三元组

这种结构与人类信任判断的神经机制存在有趣对应：

早期视觉皮层 → 表层特征提取
前额叶皮层 → 情境整合
颞顶联合区 → 心理状态推理

4. 应用前景与局限

4.1 可信AI系统设计

研究发现可直接转化为三类应用：

行为矫正引擎

graph TD A[输入语句] --> B(提取激活模式) B --> C{比对信任向量库} C -->|低匹配| D[触发修正协议] C -->|高匹配| E[增强响应置信度]

多智能体信任协商

通过实时交换激活向量预估合作概率
基于相似度阈值动态调整策略

人机交互优化

识别用户信任缺失点（如能力vs善意）
针对性强化相关概念的表达

4.2 研究局限与展望

当前工作的主要边界：

模型局限：仅测试GPT-J-6B，不同架构模型可能表现迥异
静态分析：未考察对话中的信任动态演化
文化偏差：训练数据以英语为主，忽略信任的跨文化差异

未来可扩展方向：

开发实时信任监测仪表盘
探索多模态信任信号整合
建立信任校准的微调框架

5. 方法论启示与争议

这项研究引发的深层思考：

表征工程的新范式

Persona Vectors可作为"认知调节旋钮"
通过向量算术实现信任强化（如：当前响应 + 0.3×能力向量）

伦理争议

信任操纵的双刃剑效应
对齐目标的主观性：应该对齐谁的信任模型？
透明性与解释权的平衡

实践中发现一个反直觉现象：当强制注入超过阈值的信任向量时，模型反而会产生防御性回应，这与人类心理学中的"过度说服反弹效应"高度相似。这提示我们，AI信任调节可能存在非线性窗口，需要在后续工作中建立安全边界。

这项研究为理解AI的社会认知开辟了新路径，其价值不仅在于具体发现，更在于展示了一种将抽象社会概念转化为可计算框架的方法论。随着后续研究的深入，我们或许能解开更复杂的谜题：当两个LLM相互评估信任时，会涌现出什么样的博弈动态？这将是通向真正社会智能的关键一步。

查看全文

http://www.jsqmd.com/news/1037707/

赛马娘DMM版中文补丁终极指南：3步解锁完整本地化体验

LLM 8位量化实战：Lightning Fabric轻量部署指南

福州 2026 贵金属回收示范单位梳理持证正规回收门店合集 - 奢侈品回收评测

SSM架构Java在线考试系统源码：含MySQL题库、JSP界面与完整运行截图

GLM-5.1长程任务执行框架：让AI真正自主完成8小时工程任务

AI生成3D模型：从手机拍照到可编辑三维资产的全流程解析

新手必看广州卖黄金干货：避开高价引流噱头，稳妥拿到合理回收价 - 开心测评

2026成都全新未拆封奢牌首饰回收行情：未使用款能接近原价回收吗 - 逸程

SOP变成Agent能力-业务人员怎么把经验直接教给AI

嵌入式GUI开发：深入解析emWin消息机制与ToolTip实现

传统观念分散持仓越多风险越低，编程逐步增加持仓个股数量，测算组合波动率拐点，找到最优分散上限。

如何快速掌握SuperCom串口调试工具：从零开始的终极使用指南

i.MX53 IOMUXC配置全解析：从U-Boot到Linux驱动的引脚复用实战

2026知名GEO服务商大盘点！不同场景选型攻略全覆盖 - 品牌测评鉴赏家

Microchip开发实战：从技术支持网络到应用资源的高效利用指南

传统数据科学家转型ANN实战指南：突破特征工程与实时建模瓶颈

PyCaret低代码实现房价预测：从数据准备到模型上线全链路

广东汕头精密模切、导热硅胶垫、防水连接器厂家推荐-泓荣盛电子-专业精密模切加工企业-15814004456 - 多才菠萝

广东东莞精密模切、导热硅胶垫、防水连接器厂家推荐-泓荣盛电子-专业精密模切加工企业-15814004456 - 多才菠萝

2026苏州钻石回收避坑全指南:证书齐全额外溢价全域极速上门 - 奢侈品交易观察员

长沙注册公司后没有收入要不要报税？新老板先看这份清单 - 人间发现

【Springboot毕设全套源码+文档】基于springboot的智慧仓库(丰富项目+远程调试+讲解+定制)

RAGPerf基准测试框架：评估检索增强生成系统的关键

2026年6月PE排水管企业推荐指南 - 多才菠萝

3分钟掌握Audacity：从音频小白到剪辑高手的奇幻之旅 [特殊字符]

DSP56800到DSP56800E代码移植：AGU寄存器加载策略与兼容性问题详解

基于8051与SuperFlash的串口IAP方案：高可靠固件升级实战

Python自动化测试实战：从Selenium到Pytest的完整技术栈解析

全维度测评报告：2026 杭州黄金回收报价套路拆解，称重、验金、扣费猫腻逐项核验 - 奢侈品回收评测