论文《AutoQual:基于LLM Agent的评论质量可解释特征自动发现方法》
一、基本信息
论文《AutoQual: An LLM Agent for Automated Discovery of Interpretable Features for Review Quality Assessment》EMNLP 25;《AutoQual:基于LLM Agent的评价质量可解释特征自动发现方法》
开源代码:https://github.com/tsinghua-fib-lab/AutoQual
二、研究问题与动机
研究问题:在线评价质量评估(Review Quality Assessment)这一任务,即按照评价的内在质量对其进行排序,这对电商平台和信息服务的用户体验与商业转化至关重要。
其中,该任务面临两个核心挑战:
- 领域依赖性:不同领域(餐饮评价 VS商品评价)对“高质量”的定义截然不同,为大量领域手工设计特征不可扩展。
- 动态性:用户期望和内容模式随时间演变,特征需要持续适应。
现有方法的不足:
- 传统手工特征方法僵化,不能适配新场景或者新业务;
- 深度学习方法虽避免了手工设计,但往往是不可解释的黑盒;
- 预训练语言模型(PLM)优化的是语义理解,而非文本质量本身,容易陷入"捷径学习"(Shortcut Learning)。
由此核心研究方向:需要一个能自主发现可解释、高效特征的框架。
三、方法:AutoQual框架
AutoQual是一个基于LLM的自主Agent框架,模拟人类研究员的工作流程,通过迭代循环自动发现可解释特征。框架由三个核心阶段和一个双层记忆架构组成。
3.1 生成初始假设(Hypothesis Generation)
该阶段通过两种互补策略建立初始候选特征池S_cand。
多视角构思(Multi-Perspective ldeation):Agent 引导LLM实例化多个不同的专家人设(如挑剔的用户、产品经理等),每个人设从其独特的评估标准出发提出一组特征假设,确保初始假设的多样性。
对比分析(Contrastive Analysis):从数据集中采样高质量和低质量评价数据,构建三个集合(仅高质量、仅低质量、混合),分别通过三种提示词让LLM识别高质量评价的共同优势、低质量评价的共同缺陷、以及两者之间的关键区分因素,从而生成三组基于数据的特征假设,最后 Agent 对两种策略的原始输出进行去重和格式化,合并为候选特征池。
具体举例: “专家”对提出特征{对比上下文、结构简洁性、长期使用表现、帮助意图、情感表达、客观性等}, 数据集抽象特征{评论长度、细节具体性、场合、颜色、材质}, 最后去重合并。3.2 自主工具实现 (Autonomous Tool Implementation)
对候选池中的每个假设特征,AutoQual需要开发一个可靠的量化机制。Agent自主生成标注工具,工具形式有两种:
- 程序化函数(如用于句法分析的Python脚本)
- 精细化设计 LLM 标注提示词(用于需要语义理解的复杂特征)
具体流程是:LLM首先判断特征适合用"code"还是"prompt"来度量,然后大模型生成对应的方案(工具)。为了保证工具可靠性,Agent采用提出一验证一精炼(propose-validate-refine)的迭代循环:新工具立即在小样本上验证,如果效果不佳则修改升级逻辑,直到LLM认为性能达标或达到最大迭代次数。工具确定后用于标注整个数据集,生成每条评价的特征值。
标注整个数据集,用定稿的提示词(通过qwen-plus-latest模型)对数据集中每一条评论打分。 比如: 评论A:"这条裙子面料是95%聚酯纤维+5%氨纶,裙长82cm,腰围偏小约2cm,洗了三次没变形">细节具体性得分9 评论B:"裙子还行,挺好看的,喜欢"细节具体性得分2 如果候选池中还有另一个特征"评论长度”,Agent判断它适合用"CODE"类型,就会生成一个Python函数,比如def review_length(text):return len(text.split()),直接计算词数。 这样评论A 可能得到28,评论B得到6。 最终,假设候选池有30个特征,数据集有2000条评论,标注完成后就得到一张2000x30的特征值矩阵,每一行是一条评论,每一列是一个特征的数值。后续的反思性束搜索就是在这30列中挑选最优的k=10列组合,使其与目标质量分数的联合互信息最大。3.3 反思性特征搜索(Reflective Feature Search)
在获得候选特征的标注值后,AutoQual 执行反思性搜索来寻找最优特征集S*。搜索结构为束搜索(beam search),束宽为m,在探索和计算成本之间取得平衡。
搜索初始化时选择与目标得分互信息I(Y;f-)最高的m个特征作为初始束。束扩展时,对每个束中的当前特征集S_current,选择使条件互信息I(Y;f_new|F_(S_current})最大的新特征加入,确保新特征提供已有集合未覆盖的最大新信息。扩展持续直到每个束包含k个特征,最终选取联合互信息最高的束作为结果。
1.互信息,使用的是scikit-learn提供的KNN估计器来计算互信息,因为特征值和目标分数都是连续变量,无法像离散变量那样直接数格子,需要用非参数方法来估计(不设置前提假设条件,例如正态分布等)。 2.为什么选择beam search方法:①避免特征组合爆炸,②避免贪心算法选错就无法回头,③beam search在两者之间平衡,且天然兼容反思过程。关键创新在于任务内反思与再假设(Intra-Task Reflection):选出k个特征后,Agent 观察当前特征集及其互信息表现,反思特征有效性的一般原则,据此生成新假设(例如发现“具体性”相关特征有效,就进一步假设“是否包含统计证据”或“使用了生动案例”等更细粒度的特征),将新假设加入候选池后重新运行束搜索。此循环重复预定次数。
自我进化,不满足于当前结果,从全局出发再重新审查,消融实验表明 相关斯皮尔曼系数有提升。3.4 双层记忆架构(Dual-Level Memory)
任务内记忆(Intra-Task Memory/Working Memory):在单次发现任务中运行,维护反思搜索的状态,包括已测试特征及其互信息分数,基于此生成中间洞察,让Agent评估过去决策质量并动态调整策略。
保留中间数据,学习中间决策过程。跨任务记忆(Cross-Task Memory/Long-Term Memory):任务完成后,Agent 将问题描述、最终特征集及互信息综合为摘要,存入持久知识库。面对新任务时,Agent 查询该知识库获取相关经验,作为初始假设生成的额外信息来源,实现跨任务知识迁移,并可大幅降低计算开销。
四、数据细节
给定文本数据集D={(x_i,y-)),其中x_i为评价文本,yi为质量得分(如点击率、有用性投票),目标是找到k个可解释特征函数S*={f_1…f_k),每个函数将文本映射为特征值,使特征集输出值与目标得分的互信息最大化:S*=argmax_(ISl=k}1(Y;F_S)。每个特征函数天然可解释,其定义可用自然语言表达。
五、实验设置
主架构模型:Agent核心组件使用 DeepSeek-V3.2-Exp(思考模式),特征标注使用 qwen-plus-latest (成本效益考量),温度设为0确保可复现。互信息用scikit-learn的KNN估计器计算,束宽m=5,最终特征数k=10,所有结果为5次独立运行的平均。
数据集:公开Amazon评价数据集(4个品类各2000条,以有用性投票为质量分数)+美团私有数据集(到店餐饮领域20000条评价,以CTR为质量分数)。还使用OUM说服力数据集、ASAP 作文评分数据集、Jigsaw毒性检测
数据集进行泛化性验证。
评估指标:回归任务使用Spearman 相关系数r_s和MAE(归一化到[0,1]),分类任务使用F1-Score 和AUROC。基线方法:分为两组一-通用文本建模方法(BoW+线性回归、固定PLM+线性回归、微调 PLM、零样本和20-shotLLM 直接评分)和评价有用性专用方法(TNN 的1D-CNN、SEHP 的 Stacking集成、BHeIP-CoRT 的BERT+评分文本一致性)。为公平比较,AutoQual 和多个基线统一使用简单线性回归作为预测器。
六、实验结果
RQ1:特征发现性能
在Table1中,AutoQual 仅用发现的稀疏特征(10个)加简单线性回归就展现出强预测力,在部分数据集上甚至超过微调 PLM 的高维语义特征。AutoQual+PLM(特征与PLM嵌入融合)在所有数据集上的r_s均达到最优,显著优于单独使用微调 PLM,说明发现的高阶质量特征与PLM的细粒度语义信息互补。零样本和 few-shot LLM 基线表现很差,证明AutoQual 的效果来自其结构化Agent 设计而非LLM本身的能力。
RQ2:消融实验
Table 2展示了各组件的贡献。去除多视角构思导致平均r_s下降0.0335,去除对比分析下降更大(0.0537),说明即使后续有反思机制也无法弥补初始假设多样性不足的问题。去除任务内记忆(即禁用反思)r_s平均下降0.0170;但若去除任务内记忆同时引入从其他4个领域积累的跨任务记忆,性能与完整 AutoQual 相当,证明经验可跨任务迁移,且该设置可将Agent 的LLM token消耗降低44.95%、标注LLM的token消耗降低29.79%。
RQ3:案例分析
以“服装、鞋靴与珠宝“领域为例,AutoQual 发现的Top10特征包括:评价长度、句子结构简洁性、细节具体性(如面料类型、鞋跟高度)、帮助意图、对比上下文、真实场景相关性、长期使用表现、评价者专业性、情感表达、客观性聚焦。这些特征高度领域专属,PLM的隐式嵌入无法显式捕获,且可直接用于模型诊断和为用户提供写评价指导。
RQ4:泛化性验证
在文本说服力评估(OUM数据集)、自动作文评分(ASAP数据集)上,AutoQual发现的特征达到与微调PLM和手工特征工程相当的性能。在Jigsaw 毒性检测任务中,AutoQual+PLM 的F1-Score (0.8364)和AUROC(0.9203)均显著超过微调PLM(0.8224/0.9078),发现的特征如"非人化隐喻"和"煽动性指令"提供了互补信号。
进一步总结了AutoQual 的通用适用条件:任务涉及非结构化数据(文本/图像/音频)、目标概念抽象多维(如“质量”、“风险”)、决策过程要求可解释性。
七、工业部署
AutoQual 已部署于美团平台(十亿级用户规模)的评价排序系统上,在商家详情页,使用CTR构建评价质量得分,AutoQual挖掘出5个核心特征:信息量、提供可操作建议、口语化表达、包含真实案例、语言可信且引人入胜。此外手动补充两个特征:非推广文案、非AI生成。
在20250118~20250207日在线A/B实验:平均评价浏览时长+1.42%、人均浏览评价数+0.79%、评价阅读者转化率+0.27%。
八、不足与未来规划
不足:
- 在语义任务(如立场检测、情感分析)上的适用性还需进一步探索。
- 领域覆盖可以扩展到多模态数据(图像、音频),利用多模态基础模型作为骨干(暂未涉及)。
- 当前工业部署受系统架构限制,仅集成了高层通用特征。
- 未来可为不同业务场景(餐饮VS酒店)定制领域专属特征集以进一步提升排序表现。
九、核心贡献总结
论文的核心贡献可以概括为四点:
- 首次提出用LLM Agent自动发现可解释质量特征的问题和框架(AutoQual);
- 设计了融合反思、工具实现和双层记忆的完整Agent架构来高效导航特征空间;
- 在十亿级用户平台上验证了实际工业价值,弥合了学术研究与工业实践之间的鸿沟;
- 框架本身是通用的一一可将专家标注中蕴含的隐性知识转化为显式、可计算、可解释的特征,适用于评价质量之外的广泛下游任务。
