当前位置：首页 > news >正文

论文《AutoQual:基于LLM Agent的评论质量可解释特征自动发现方法》

news 2026/6/29 20:05:23

一、基本信息

论文《AutoQual: An LLM Agent for Automated Discovery of Interpretable Features for Review Quality Assessment》EMNLP 25；《AutoQual：基于LLM Agent的评价质量可解释特征自动发现方法》
开源代码：https://github.com/tsinghua-fib-lab/AutoQual

二、研究问题与动机

研究问题：在线评价质量评估（Review Quality Assessment）这一任务，即按照评价的内在质量对其进行排序，这对电商平台和信息服务的用户体验与商业转化至关重要。
其中，该任务面临两个核心挑战：

领域依赖性：不同领域(餐饮评价 VS商品评价)对“高质量”的定义截然不同，为大量领域手工设计特征不可扩展。
动态性：用户期望和内容模式随时间演变，特征需要持续适应。

现有方法的不足：

传统手工特征方法僵化，不能适配新场景或者新业务；
深度学习方法虽避免了手工设计，但往往是不可解释的黑盒；
预训练语言模型（PLM）优化的是语义理解，而非文本质量本身，容易陷入"捷径学习"（Shortcut Learning）。

由此核心研究方向:需要一个能自主发现可解释、高效特征的框架。

三、方法:AutoQual框架

AutoQual是一个基于LLM的自主Agent框架，模拟人类研究员的工作流程，通过迭代循环自动发现可解释特征。框架由三个核心阶段和一个双层记忆架构组成。

3.1 生成初始假设（Hypothesis Generation）

该阶段通过两种互补策略建立初始候选特征池S_cand。
多视角构思（Multi-Perspective ldeation）：Agent 引导LLM实例化多个不同的专家人设（如挑剔的用户、产品经理等），每个人设从其独特的评估标准出发提出一组特征假设，确保初始假设的多样性。
对比分析（Contrastive Analysis）：从数据集中采样高质量和低质量评价数据，构建三个集合（仅高质量、仅低质量、混合），分别通过三种提示词让LLM识别高质量评价的共同优势、低质量评价的共同缺陷、以及两者之间的关键区分因素，从而生成三组基于数据的特征假设，最后 Agent 对两种策略的原始输出进行去重和格式化，合并为候选特征池。

具体举例： “专家”对提出特征{对比上下文、结构简洁性、长期使用表现、帮助意图、情感表达、客观性等}， 数据集抽象特征{评论长度、细节具体性、场合、颜色、材质}， 最后去重合并。

3.2 自主工具实现 (Autonomous Tool Implementation)

对候选池中的每个假设特征，AutoQual需要开发一个可靠的量化机制。Agent自主生成标注工具，工具形式有两种：

程序化函数(如用于句法分析的Python脚本)
精细化设计 LLM 标注提示词（用于需要语义理解的复杂特征）

具体流程是：LLM首先判断特征适合用"code"还是"prompt"来度量，然后大模型生成对应的方案（工具）。为了保证工具可靠性，Agent采用提出一验证一精炼（propose-validate-refine）的迭代循环：新工具立即在小样本上验证，如果效果不佳则修改升级逻辑，直到LLM认为性能达标或达到最大迭代次数。工具确定后用于标注整个数据集，生成每条评价的特征值。

标注整个数据集，用定稿的提示词(通过qwen-plus-latest模型)对数据集中每一条评论打分。 比如: 评论A:"这条裙子面料是95%聚酯纤维+5%氨纶，裙长82cm，腰围偏小约2cm，洗了三次没变形">细节具体性得分9 评论B:"裙子还行，挺好看的，喜欢"细节具体性得分2 如果候选池中还有另一个特征"评论长度”，Agent判断它适合用"CODE"类型，就会生成一个Python函数，比如def review_length(text):return len(text.split())，直接计算词数。 这样评论A 可能得到28，评论B得到6。 最终，假设候选池有30个特征，数据集有2000条评论，标注完成后就得到一张2000x30的特征值矩阵，每一行是一条评论，每一列是一个特征的数值。后续的反思性束搜索就是在这30列中挑选最优的k=10列组合，使其与目标质量分数的联合互信息最大。

3.3 反思性特征搜索(Reflective Feature Search)

在获得候选特征的标注值后，AutoQual 执行反思性搜索来寻找最优特征集S*。搜索结构为束搜索（beam search），束宽为m，在探索和计算成本之间取得平衡。
搜索初始化时选择与目标得分互信息I(Y;f-)最高的m个特征作为初始束。束扩展时，对每个束中的当前特征集S_current，选择使条件互信息I(Y;f_new|F_(S_current})最大的新特征加入，确保新特征提供已有集合未覆盖的最大新信息。扩展持续直到每个束包含k个特征，最终选取联合互信息最高的束作为结果。

1.互信息，使用的是scikit-learn提供的KNN估计器来计算互信息，因为特征值和目标分数都是连续变量，无法像离散变量那样直接数格子，需要用非参数方法来估计（不设置前提假设条件，例如正态分布等）。 2.为什么选择beam search方法：①避免特征组合爆炸，②避免贪心算法选错就无法回头，③beam search在两者之间平衡，且天然兼容反思过程。

关键创新在于任务内反思与再假设（Intra-Task Reflection）：选出k个特征后，Agent 观察当前特征集及其互信息表现，反思特征有效性的一般原则，据此生成新假设（例如发现“具体性”相关特征有效，就进一步假设“是否包含统计证据”或“使用了生动案例”等更细粒度的特征），将新假设加入候选池后重新运行束搜索。此循环重复预定次数。

自我进化，不满足于当前结果，从全局出发再重新审查，消融实验表明 相关斯皮尔曼系数有提升。

3.4 双层记忆架构(Dual-Level Memory)

任务内记忆（Intra-Task Memory/Working Memory）：在单次发现任务中运行，维护反思搜索的状态，包括已测试特征及其互信息分数，基于此生成中间洞察，让Agent评估过去决策质量并动态调整策略。

保留中间数据，学习中间决策过程。

跨任务记忆（Cross-Task Memory/Long-Term Memory）：任务完成后，Agent 将问题描述、最终特征集及互信息综合为摘要，存入持久知识库。面对新任务时，Agent 查询该知识库获取相关经验，作为初始假设生成的额外信息来源，实现跨任务知识迁移，并可大幅降低计算开销。

四、数据细节

给定文本数据集D={(x_i,y-))，其中x_i为评价文本，yi为质量得分(如点击率、有用性投票)，目标是找到k个可解释特征函数S*={f_1…f_k)，每个函数将文本映射为特征值，使特征集输出值与目标得分的互信息最大化:S*=argmax_(ISl=k}1(Y;F_S)。每个特征函数天然可解释，其定义可用自然语言表达。

五、实验设置

主架构模型：Agent核心组件使用 DeepSeek-V3.2-Exp(思考模式)，特征标注使用 qwen-plus-latest (成本效益考量)，温度设为0确保可复现。互信息用scikit-learn的KNN估计器计算，束宽m=5，最终特征数k=10，所有结果为5次独立运行的平均。
数据集：公开Amazon评价数据集(4个品类各2000条，以有用性投票为质量分数)+美团私有数据集(到店餐饮领域20000条评价，以CTR为质量分数)。还使用OUM说服力数据集、ASAP 作文评分数据集、Jigsaw毒性检测
数据集进行泛化性验证。
评估指标：回归任务使用Spearman 相关系数r_s和MAE(归一化到[0,1])，分类任务使用F1-Score 和AUROC。基线方法：分为两组一-通用文本建模方法（BoW+线性回归、固定PLM+线性回归、微调 PLM、零样本和20-shotLLM 直接评分）和评价有用性专用方法（TNN 的1D-CNN、SEHP 的 Stacking集成、BHeIP-CoRT 的BERT+评分文本一致性）。为公平比较，AutoQual 和多个基线统一使用简单线性回归作为预测器。

六、实验结果

RQ1：特征发现性能
在Table1中，AutoQual 仅用发现的稀疏特征（10个）加简单线性回归就展现出强预测力，在部分数据集上甚至超过微调 PLM 的高维语义特征。AutoQual+PLM（特征与PLM嵌入融合）在所有数据集上的r_s均达到最优，显著优于单独使用微调 PLM，说明发现的高阶质量特征与PLM的细粒度语义信息互补。零样本和 few-shot LLM 基线表现很差，证明AutoQual 的效果来自其结构化Agent 设计而非LLM本身的能力。

RQ2：消融实验
Table 2展示了各组件的贡献。去除多视角构思导致平均r_s下降0.0335，去除对比分析下降更大(0.0537)，说明即使后续有反思机制也无法弥补初始假设多样性不足的问题。去除任务内记忆（即禁用反思）r_s平均下降0.0170；但若去除任务内记忆同时引入从其他4个领域积累的跨任务记忆，性能与完整 AutoQual 相当，证明经验可跨任务迁移，且该设置可将Agent 的LLM token消耗降低44.95%、标注LLM的token消耗降低29.79%。

RQ3：案例分析
以“服装、鞋靴与珠宝“领域为例，AutoQual 发现的Top10特征包括：评价长度、句子结构简洁性、细节具体性(如面料类型、鞋跟高度)、帮助意图、对比上下文、真实场景相关性、长期使用表现、评价者专业性、情感表达、客观性聚焦。这些特征高度领域专属，PLM的隐式嵌入无法显式捕获，且可直接用于模型诊断和为用户提供写评价指导。
RQ4：泛化性验证
在文本说服力评估（OUM数据集）、自动作文评分（ASAP数据集）上，AutoQual发现的特征达到与微调PLM和手工特征工程相当的性能。在Jigsaw 毒性检测任务中，AutoQual+PLM 的F1-Score （0.8364）和AUROC（0.9203）均显著超过微调PLM（0.8224/0.9078），发现的特征如"非人化隐喻"和"煽动性指令"提供了互补信号。

进一步总结了AutoQual 的通用适用条件：任务涉及非结构化数据（文本/图像/音频）、目标概念抽象多维（如“质量”、“风险”）、决策过程要求可解释性。

七、工业部署

AutoQual 已部署于美团平台（十亿级用户规模）的评价排序系统上，在商家详情页，使用CTR构建评价质量得分，AutoQual挖掘出5个核心特征：信息量、提供可操作建议、口语化表达、包含真实案例、语言可信且引人入胜。此外手动补充两个特征：非推广文案、非AI生成。
在20250118~20250207日在线A/B实验：平均评价浏览时长+1.42%、人均浏览评价数+0.79%、评价阅读者转化率+0.27%。