当前位置：首页 > news >正文

大模型零样本学习新突破：USP自适应提示方法原理与实践

news 2026/7/14 23:18:07

1. 项目概述：当大模型“自学成才”成为可能

作为一名长期在自然语言处理（NLP）一线摸爬滚打的从业者，我见过太多关于大语言模型（LLMs）的“神话”与“现实”之间的落差。其中最让我头疼的一个现实就是：零样本学习（Zero-Shot Learning）。理论上，一个足够强大的模型，给你一个从未见过的任务描述（Prompt），它就应该能给出像样的答案。但实际工作中，尤其是在没有标注数据、预算有限或者任务冷启动的场景下，你会发现模型的零样本表现常常“飘忽不定”，时好时坏，远不如给它几个例子（少样本学习）来得稳定可靠。这背后的核心问题，就是缺乏有效的“指导”——模型不知道在这个新任务上，什么样的输出才是“好”的。

最近，Google的一项研究《Universal Self-adaptive Prompting》让我眼前一亮。它提出的USP方法，就像是为大模型配备了一位“自适应教练”。这位教练不需要你提供标准答案（标注数据），只需要给模型一堆“练习题”（未标记数据），让模型自己先做一遍，然后教练从中挑出那些“看起来最自信、最靠谱”的答案，作为“示范例题”再教给模型自己。通过这种“自我教学、自我筛选、自我提升”的循环，USP方法在20多个自然语言理解和生成任务上，仅用少量未标记数据，就显著提升了模型的零样本性能，甚至在某些情况下超越了传统的少样本学习基线。

这不仅仅是学术上的一个漂亮数字，它意味着在实际应用中，我们可以用更低的成本、更快的速度，让大模型去适应五花八门的新任务。无论你是想做一个智能客服、一个内容摘要工具，还是一个创意写作助手，USP都可能为你省下大量标注数据的时间和金钱。接下来，我将结合自己的工程实践经验，为你深度拆解USP方法的原理、实现细节、实操要点以及那些论文里不会写的“坑”。

2. 核心思路：从“一致性投票”到“任务自适应选择”

在深入USP之前，我们必须理解它所处的技术演进脉络。USP并非凭空诞生，它的灵感直接来源于之前一系列试图提升LLM推理能力的提示工程方法。理解这些“前辈”，能让我们更清楚地看到USP的创新点在哪里。

2.1 技术演进：CoT, SC 与 COSP

思维链（Chain of Thought, CoT）是第一个重大突破。它的核心思想很简单：不让模型直接给出答案，而是要求它“把思考过程写出来”。比如，问“一个篮子里有5个苹果，吃掉2个，又放进3个，现在有几个？”，CoT提示会引导模型输出：“最初有5个。吃掉2个，剩下5-2=3个。又放进3个，现在有3+3=6个。所以答案是6。” 这种方式将复杂的推理问题分解为多个中间步骤，极大地提升了模型在数学、逻辑推理等任务上的表现。它的成功揭示了一个关键：对于LLM而言，展示过程比直接给出结果更容易学习。

自洽性（Self-Consistency, SC）在CoT的基础上更进一步。它承认了一个事实：即使是同一个问题，模型每次推理的“思维链”也可能不同。SC方法会对同一个问题，用CoT提示进行多次采样（比如20次），得到20条可能不同的推理路径和答案。然后，它采用“多数投票”原则，选择出现次数最多的那个答案作为最终输出。这相当于让模型内部进行了一次“民主表决”，有效过滤掉了偶然的推理错误，提升了答案的鲁棒性。SC的成功说明了利用模型自身输出的多样性，可以评估其置信度。

基于一致性的自适应提示（Consistency-based Self-adaptive Prompting, COSP）则将SC的思想系统化，并应用于零样本学习。COSP采用两阶段策略：

第一阶段（生成候选）：对一批无标签的测试查询，让模型以零样本方式进行多次解码（类似SC），生成多个候选答案。
第二阶段（筛选与学习）：计算这些候选答案之间的“一致性”（例如，通过归一化熵来衡量模型预测的集中程度）。选择那些模型预测最一致、看起来最“自信”的查询-答案对，作为“伪演示数据”。
第三阶段（上下文学习）：将这些高质量的伪演示数据，以少样本提示（Few-Shot Prompting）的方式，放在新的测试查询前面，再次输入模型，引导其生成最终答案。最终答案可能通过两阶段输出的投票产生。

COSP的精妙之处在于，它让模型自己为自己创造了学习样本。但它的局限性也很明显：其核心筛选机制——“一致性”，严重依赖于“多数投票”或答案高度相似的前提。这对于分类任务（选项固定）和短答案生成任务（答案唯一或有限）是有效的，但对于开放式长文本生成任务（如摘要、翻译），答案本就千变万化，不存在所谓的“一致”答案，COSP的筛选机制就失效了。

2.2 USP的破局思路：任务感知的通用框架

USP方法继承了COSP“两阶段自学习”的骨架，但对其心脏——伪演示数据选择器——进行了彻底的“通用化”手术。USP的核心洞察是：不同任务类型，衡量模型“自信”或“输出质量”的标准应该是不同的。不能用一个“一致性”标准打天下。

因此，USP设计了一个任务特定的伪演示数据选择器。它将常见的NLP任务划分为三大类，并为每一类量身定制了评分函数F，用于评估每个候选伪演示数据的质量：

分类任务（CLS）：如情感分析、自然语言推理。特点：标签空间小，模型能输出每个类别的概率。
短文本生成任务（SFG）：如开放域问答、完形填空。特点：答案通常较短，但可能性很多（整个词表），通常只能得到最终文本，难以获得完整概率分布。
长文本生成任务（LFG）：如文本摘要、机器翻译。特点：答案长，合理答案的变体极多，评估生成质量本身就是一个复杂任务。

USP的通用性就体现在这个“分类施策”的选择器上。它不再强求所有任务都去计算答案的一致性，而是根据任务特性，选择最合适的置信度量化指标。例如，对分类任务用概率分布的熵，对生成任务用生成文本之间的相似度（如ROUGE）。

实操心得：为什么“任务感知”如此重要？在我早期尝试用COSP思路做文本摘要时，踩了一个大坑。我机械地计算生成摘要的“一致性”，结果模型那些最“一致”的输出，往往是些“本文讨论了...”、“综上所述...”之类的空洞套话。因为这些套话模板在任何文章上都高度一致，但毫无信息量。USP通过任务划分，在LFG任务中改用ROUGE分数来衡量生成质量，并引入异常值过滤（比如过滤掉全是套话的“高自信”输出），这才真正选出了内容充实的优质摘要作为演示。这告诉我们，脱离任务本质谈优化，往往是南辕北辙。

3. USP方法深度解析：三大核心设计决策

理解了USP的宏观思路，我们深入到它的三个关键设计决策。这些决策是其实用性和有效性的基石。

3.1 决策一：分离的数据集——训练与考试的“模拟题集”

COSP方法通常直接在完整的测试集上生成并筛选伪演示数据。这存在一个“数据泄露”的风险：虽然测试标签未知，但模型在“自学”阶段已经见过了所有测试题目，这可能会带来评估上的偏差，也不符合现实场景——我们往往没有完整的、待测的“考试卷”来提前练习。

USP明确要求使用一个独立的、无标签的数据集D。这个D可以是测试集的一个子集，也可以是一个完全不同的、但与目标任务同分布的数据集（例如，都用新闻文章做摘要）。D的唯一使命就是用来生成高质量的伪演示数据S。

这个设计的工程意义巨大：

更符合实际：在真实产品化中，我们经常有一些历史数据、公开数据或少量无标注数据，但没有最终要评估的那批数据的标签。USP可以直接利用这些“边角料”数据来提升模型在核心任务上的表现。
避免过拟合：将生成演示数据的过程与最终评估的测试集隔离开，保证了评估结果的公正性，更能反映方法的泛化能力。
灵活性高：即使只有几十条无标签数据（论文中用了每个任务64条），也能有效工作，降低了数据需求门槛。

3.2 决策二：贪婪解码作为默认——效率与效果的平衡

COSP在第二阶段（使用伪演示进行少样本推理）时，通常仍会进行多次解码并进行多数投票，以确保最终输出的稳定性。但这在计算上是昂贵的，尤其是对于生成长文本的任务，多次生成并比较的成本很高。

USP做了一个大胆而实用的选择：在第二阶段默认使用贪婪解码（Greedy Decoding, temperature=0）。也就是说，对于每个测试查询，结合选出的伪演示，模型只推理一次，选择概率最高的那个token序列作为输出。

为什么可以这样做？因为USP的前提是，第一阶段筛选出的伪演示数据S已经是高质量的、具有指导意义的示例。当把这些“优秀范例”放在查询前面时，模型已经得到了足够强的上下文引导。此时，最可能的输出路径（即贪婪解码的结果）往往就是高质量的输出。多数投票带来的边际收益可能无法抵消其带来的计算成本。

当然，USP并未完全抛弃多数投票。它将其作为一个可选的、用于进一步提升性能的“增强模式”。在资源允许或对精度要求极高的场景下，你仍然可以开启它。这种“默认高效，可选精准”的设计，体现了优秀的工程权衡思维。

注意事项：贪婪解码的“陷阱”贪婪解码虽然高效，但它容易导致生成结果陷入局部最优，变得平淡、重复。在创意写作、诗歌生成等需要多样性的任务中，这可能是个问题。USP论文中的实验主要集中在事实性问答、摘要等任务上，这些任务对一致性和准确性的要求高于多样性。在实际应用时，如果你的任务极度追求创造性，可能需要谨慎评估贪婪解码是否合适，或者考虑对temperature参数进行微调。

3.3 决策三：任务特定的评分函数——选择器的灵魂

这是USP最核心、最复杂也最精彩的部分。如前所述，USP根据任务类型设计了不同的评分函数F来评估候选伪演示(查询, 模型零样本输出)的质量。其选择过程也颇具巧思：

初始化：从候选池P中，选择F分数最高的那个候选作为第一个伪演示s1，加入集合S。
迭代选择：为了确保伪演示的多样性（避免所有例子都来自同一个简单的子问题），后续的选择会同时考虑“质量”和“差异性”。具体来说，对于剩下的每个候选p，计算一个综合分数：F(p) - λ * max_{s in S} similarity(p, s)。这里λ是一个权衡参数，similarity是衡量两个查询之间相似度的函数（如基于嵌入向量的余弦相似度）。选择综合分数最高的候选加入S。重复此过程，直到选够K个伪演示。

下面，我们拆解三种任务类型的F函数设计：

3.3.1 分类任务（CLS）的评分：信任你的概率

对于分类任务，模型通常会在输出层给出每个类别的逻辑概率（Logits），我们可以通过Softmax得到概率分布。USP利用了这个宝贵的信息。

评分函数F_CLS= 负熵（Negative Entropy）

熵是衡量概率分布不确定性的指标。一个概率分布[0.9, 0.1, 0.0]的熵很低（模型很确定是第一个类），而分布[0.33, 0.33, 0.34]的熵很高（模型很纠结）。负熵越高，代表模型对该查询的预测越自信、越确定。

操作步骤：

对于无标签数据集D中的每个查询，让模型以零样本方式运行一次。
获取模型对每个可能类别的输出概率。
计算该概率分布的熵H(p) = -Σ p_i * log(p_i)。
评分F_CLS = -H(p)。选择F_CLS值最高的那些查询-预测对。

为什么有效？在分类任务中，模型对简单、明确的样本预测概率会非常集中。这些“简单样本”的预测通常是正确的。用它们作为演示，能最清晰、最无歧义地向模型展示“在这个任务中，对于这类输入，应该输出这个标签”。

3.3.2 短文本生成任务（SFG）的评分：从一致性中寻找自信

对于像问答这样的SFG任务，我们通常只能得到模型生成的文本答案，难以获得完整的词表概率分布（即使有，也因为词表巨大而难以有效利用）。此时，USP借鉴了COSP的思想，但做了简化。

评分函数F_SFG= 1 - 归一化熵（Normalized Entropy）

操作步骤：

对D中的每个查询，用非零的temperature进行m次采样解码（例如，m=5），得到m个可能不同的短答案。
统计这m个答案的分布。例如，对于“法国的首都是哪里？”，5次解码可能得到：{“巴黎”：4次， “马赛”：1次}。
将这个分布视为一个离散概率分布，计算其熵。然后进行归一化（除以log(m)，最大可能熵），得到归一化熵。
F_SFG = 1 - 归一化熵。值越接近1，说明多次采样的答案越一致，模型越自信。

与COSP的区别：COSP通常要求模型生成CoT理由，然后对最终答案进行一致性判断。USP发现，对于非CoT的SFG任务（直接问答案），跳过理由生成，直接对答案进行一致性评估同样有效，且更高效。这省去了生成和解析长文本理由的开销。

3.3.3 长文本生成任务（LFG）的评分：衡量生成文本的“平均相似度”

这是USP最具创新性的部分。对于摘要、翻译等任务，正确答案不唯一，多次采样的输出在字面上几乎不可能完全相同。因此，“一致性”不再适用。USP转而评估模型多次生成文本之间的平均质量。

评分函数F_LFG= 生成文本间的平均ROUGE分数

操作步骤：

对D中的每个查询，进行m次温度采样解码，得到m个长文本输出（如m篇摘要）。
计算这m个文本两两之间的ROUGE分数（例如ROUGE-L，衡量最长公共子序列），得到一个m x m的相似度矩阵。
计算这个矩阵中所有非对角线元素的平均值，作为F_LFG的分数。
关键过滤步骤：USP观察到，LLM有时会“偷懒”，生成一些极其通用、自信但无用的文本（如“这是一篇关于...的文章”）。这些文本彼此之间会异常相似（ROUGE分数奇高）。为此，USP采用了一种经典的异常值检测方法：计算所有查询F_LFG分数的上四分位数（Q3）和四分位距（IQR），移除那些分数大于Q3 + 1.5 * IQR的查询。这一步对于保证伪演示质量至关重要。

为什么用ROUGE？ROUGE是衡量生成文本与参考文本重叠度的经典指标。在这里，虽然没有参考文本，但用生成文本彼此之间的ROUGE分数，可以近似衡量模型在该查询上生成能力的稳定性。如果模型对一个查询能稳定地生成内容相似、质量较高的文本，那么这些文本彼此之间的ROUGE分数就会较高。这暗示该查询可能处于模型的“舒适区”，其生成结果更可能是有意义的。

4. 实操指南：如何将USP落地到你的项目

理论很美好，但如何将其转化为代码和实际工作流？下面我将结合工程实践，梳理一个清晰的USP实现流程和关键注意事项。

4.1 环境准备与模型选择

首先，你需要一个能够进行文本生成、并最好能获取到token概率的LLM。目前，大多数开源和商业API都支持。

模型选择建议：

云端API：OpenAI GPT系列、Anthropic Claude系列、Google PaLM API等。它们通常提供完善的采样参数和概率返回功能。优点是省心、性能强，缺点是成本和使用限制。
开源模型：Llama 2/3、Falcon、Mistral等系列模型，通过Hugging Face Transformers库本地部署。优点是数据隐私可控、可深度定制，缺点是对硬件有要求，且需要自己处理概率解码等细节。

关键工具库：

transformers(Hugging Face)：加载开源模型和分词器。
openai,anthropic等：调用商业API。
numpy,pandas：数据处理和评分计算。
rouge-score或nltk：用于LFG任务的ROUGE计算。
scipy或sklearn：用于计算文本嵌入相似度（多样性惩罚时使用）。

4.2 分步实现流程

假设我们有一个无标签数据集D（例如1000条未标注的客户评论），目标是构建一个情感分析（分类任务）模型。我们将使用一个中等规模的开源模型（如Llama-2-7b）进行演示。

步骤1：零样本生成候选伪演示

import torch from transformers import AutoTokenizer, AutoModelForCausalLM import pandas as pd # 1. 加载模型和分词器 model_name = "meta-llama/Llama-2-7b-chat-hf" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto") tokenizer.pad_token = tokenizer.eos_token # 设置填充token # 2. 准备无标签数据D和提示模板 # 假设D是一个包含‘text’列的DataFrame prompt_template = """判断以下评论的情感倾向是正面、负面还是中立。 评论：{review} 情感倾向：""" def zero_shot_predict(texts): """对一批文本进行零样本预测，并获取概率""" prompts = [prompt_template.format(review=text) for text in texts] inputs = tokenizer(prompts, return_tensors="pt", padding=True, truncation=True, max_length=512).to(model.device) with torch.no_grad(): outputs = model(**inputs) # 获取下一个token的logits（在“情感倾向：”之后） # 这里简化处理：我们取生成部分的第一个token的logits来近似判断模型的选择 # 实际更严谨的做法是使用受限生成，让模型只在“正面”“负面”“中立”三个token上生成 logits = outputs.logits[:, -1, :] # 最后一个位置的logits # 假设我们通过某种方式映射到三个选项的token id # token_id_positive, token_id_negative, token_id_neutral = tokenizer.convert_tokens_to_ids(...) # probs = torch.softmax(logits[:, [token_id_positive, token_id_negative, token_id_neutral]], dim=-1) # 此处为示例，我们用一个虚拟的概率分布 probs = torch.softmax(logits[:, :3], dim=-1) # 假设前三个token id对应三个类别 return probs.cpu().numpy() # 3. 对D中的所有查询进行零样本预测 batch_size = 8 all_probs = [] for i in range(0, len(D), batch_size): batch_texts = D['text'].iloc[i:i+batch_size].tolist() batch_probs = zero_shot_predict(batch_texts) all_probs.extend(batch_probs) # 将预测结果和概率保存到候选池P D['predicted_probs'] = all_probs # 根据概率取argmax得到预测标签 D['predicted_label'] = [['正面','负面','中立'][p.argmax()] for p in all_probs] candidate_pool_P = D[['text', 'predicted_label', 'predicted_probs']].copy()

实操心得：概率获取的“坑”对于分类任务，获取模型对特定类别词的概率是关键。使用API时（如OpenAI），可以设置logprobs=True来获取Top token的对数概率。使用本地模型时，需要确保你的生成配置是“受限生成”，即只允许模型从几个特定的选项token中生成。否则，模型可能会生成“我认为是正面”这样的句子，而不是直接输出“正面”，这会使得概率获取变得复杂。一个技巧是使用model.generate(..., forced_bos_token_id=tokenizer.convert_tokens_to_ids(“正面”))等方式进行引导，但这需要根据具体模型调整。

步骤2：根据任务类型计算评分并筛选

对于我们的情感分析（CLS任务），我们使用负熵作为评分。

import numpy as np from scipy.spatial.distance import cosine from sentence_transformers import SentenceTransformer # 用于计算文本相似度 # 1. 定义CLS评分函数：负熵 def compute_cls_score(probs): # probs是一个形状为 (n_classes,) 的概率向量 epsilon = 1e-10 # 防止log(0) entropy = -np.sum(probs * np.log(probs + epsilon)) return -entropy # 负熵越高越好 # 2. 计算候选池中每个样本的分数 candidate_pool_P['score'] = candidate_pool_P['predicted_probs'].apply(compute_cls_score) # 3. 定义多样性惩罚的相似度计算（使用句子嵌入） embedder = SentenceTransformer('all-MiniLM-L6-v2') # 一个轻量级句子编码模型 def compute_similarity(text1, text2): emb1 = embedder.encode(text1, convert_to_tensor=True) emb2 = embedder.encode(text2, convert_to_tensor=True) # 使用余弦相似度，值越大越相似 return 1 - cosine(emb1.cpu().numpy(), emb2.cpu().numpy()) # 4. 迭代选择K个伪演示 K = 5 # 选择5个演示例子 lambda_diversity = 0.5 # 多样性惩罚权重，可调 selected_demos = [] # 第一轮：选择分数最高的 first_idx = candidate_pool_P['score'].idxmax() selected_demos.append(candidate_pool_P.loc[first_idx]) candidate_pool_P = candidate_pool_P.drop(first_idx) for _ in range(1, K): best_score = -np.inf best_idx = None for idx, row in candidate_pool_P.iterrows(): # 计算质量分 quality_score = row['score'] # 计算与已选演示的最大相似度 max_sim = max([compute_similarity(row['text'], demo['text']) for demo in selected_demos]) # 综合分数 combined_score = quality_score - lambda_diversity * max_sim if combined_score > best_score: best_score = combined_score best_idx = idx if best_idx is not None: selected_demos.append(candidate_pool_P.loc[best_idx]) candidate_pool_P = candidate_pool_P.drop(best_idx) # selected_demos 现在包含了我们选出的K个高质量的伪演示

步骤3：构建少样本提示并进行最终预测

将选出的伪演示格式化成少样本提示，用于对新的测试查询进行预测。

def build_few_shot_prompt(demos, test_query): """构建包含伪演示的少样本提示""" prompt = "" for demo in demos: prompt += f"评论：{demo['text']}\n情感倾向：{demo['predicted_label']}\n\n" prompt += f"评论：{test_query}\n情感倾向：" return prompt # 假设我们有一个新的测试查询 test_review = "这款产品简直太棒了，超出了我的预期！" final_prompt = build_few_shot_prompt(selected_demos, test_review) # 使用贪婪解码（temperature=0）进行最终预测 inputs = tokenizer(final_prompt, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=10, temperature=0, do_sample=False) final_output = tokenizer.decode(outputs[0], skip_special_tokens=True) # 解析final_output，获取“情感倾向：”后面的内容作为预测结果

4.3 参数调优与经验技巧

伪演示数量K：论文中默认使用5个，这与传统少样本学习常用数量一致。在实践中，K并非越大越好。过多的演示可能会挤占上下文窗口，引入噪声，或导致模型注意力分散。建议从3-5开始尝试，根据任务复杂度和模型上下文长度调整。
多样性惩罚系数λ：这个参数控制了对相似查询的惩罚力度。λ=0时，只选择分数最高的，可能导致演示都来自同一类简单问题。λ太大时，可能会为了多样性而选入一些质量稍差的演示。建议在0.3到0.7之间进行网格搜索，在一个小的验证集（如果有的话）上观察效果。
温度参数：第一阶段生成候选答案时，对于SFG和LFG任务，需要设置temperature > 0来进行采样，以获得多样的输出用于评估一致性或相似度。温度通常设置在0.5到0.8之间。太低多样性不足，太高则输出可能过于随机、质量下降。
无标签数据集D的大小和质量：USP对D的大小不敏感，几十到几百条通常就有效。但D的质量（与测试数据分布的一致性）更重要。如果D与你的真实任务场景偏差太大，筛选出的“高质量”演示可能无法有效指导模型在新数据上的表现。尽量确保D与你的目标数据同源或同分布。
长文本生成的ROUGE选择：对于LFG任务，ROUGE-L是常用的选择。你也可以尝试BLEU、METEOR或基于BERT的语义相似度（如BERTScore）。关键是要与你的最终评估指标对齐。如果你的业务最终看ROUGE，那么选择阶段就用ROUGE。

5. 常见问题与效果分析

在实际应用USP的过程中，你可能会遇到以下问题。这里我结合实验论文的发现和自己的理解，给出分析和建议。

5.1 效果差异：为什么USP在不同任务和模型上提升幅度不同？

论文中的实验结果清晰地显示：

任务类型：在SFG（如问答）和LFG（如摘要）任务上的提升，普遍比在CLS（分类）任务上更大。
模型规模：在PaLM-540B上的提升幅度大于在PaLM-62B上。

原因分析与应对：

生成任务更需要指导：分类任务选项有限，模型即使零样本也能“蒙”个大概。而生成任务输出空间无限，模型更需要具体的例子来锚定输出格式和内容风格。因此，USP提供的演示对生成任务价值更大。如果你的任务是生成型，USP的收益预期可以更高。
大模型从演示中学习的能力更强：更大的模型拥有更强的上下文学习（In-Context Learning）能力。它们不仅能模仿演示的格式，更能理解演示中蕴含的任务逻辑和知识。因此，给大模型提供高质量的演示，它能更好地“举一反三”。对于较小的模型（如7B、13B），USP可能仍有提升，但幅度可能不如在百B级模型上显著。此时，可能需要更精心地设计提示模板，或结合微调（Fine-tuning）来获得更大提升。

5.2 伪演示选择器的可靠性：它选出的真的是“好”例子吗？

这是USP方法的核心风险。如果选择器总是选出那些“看似自信”但其实是错误答案的演示，那就会“教坏”模型。

论文通过分析USP评分与真实性能（准确率、ROUGE等）的相关性来验证这一点。结果显示，在大多数任务上，USP评分与真实性能呈正相关。也就是说，模型自己认为“自信”的输出，确实更有可能是正确的或高质量的。

给你的定心丸：

大模型的“认知偏差”相对可靠：现代大语言模型经过海量高质量数据训练，其概率分布在一定程度上反映了真实世界的知识结构和逻辑。对于它“确信”的事情，正确的概率往往较高。
多样性惩罚的保障：USP的迭代选择机制加入了多样性惩罚，这避免了所有演示都来自同一个有偏的、简单的子集，降低了系统性选错的风险。
实践验证：最可靠的方法还是在一个有标签的小型开发集上跑一下，直接观察USP筛选出的演示质量，并对比使用这些演示前后模型性能的变化。

5.3 计算成本考量：USP真的比少样本学习更高效吗？

USP需要两阶段推理：

对无标签数据集D进行多次（对于SFG/LFG）或单次（对于CLS）零样本推理。
对每个测试查询，进行一次（默认贪婪解码）或多次（如果开启投票）的少样本推理。

成本分析：

vs. 标准零样本：USP成本更高，因为它多了第一阶段和第二阶段更长的提示（包含演示）。
vs. 标准少样本：这是USP的比较对象。标准少样本需要人工编写或筛选高质量的演示，这本身成本极高（标注数据、专家时间）。USP的“成本”是额外的计算，而计算成本正在快速下降。对于标注数据稀缺或昂贵的任务，USP用可承受的计算成本换取了免标注的演示，总体上是高效的。
优化建议：D的规模不需要很大（64-256条足矣）。第一阶段对D的推理可以离线进行，结果缓存起来反复使用。对于海量测试查询，第二阶段每个查询的提示长度是固定的（K个演示），因此推理成本是线性增长的，与标准少样本一致。

5.4 失败案例分析：什么时候USP可能不适用或失效？

没有银弹。USP在以下场景可能需要谨慎使用或进行调整：

任务定义极其模糊或主观：例如，“写一首让我开心的诗”。什么是“高质量”的演示？模型的自信心指标（熵、一致性）可能与人类的主观审美完全不相关。此时，USP的筛选机制可能失效。
领域外或极端分布偏移：如果无标签数据集D与真实测试数据分布差异极大，那么基于D选出的“高质量演示”可能不适用于新领域。务必确保D的代表性。
模型容量严重不足：如果模型本身太小，无法理解任务或从上下文中学习，那么无论提供多么优质的演示，其性能提升也会非常有限。此时应先考虑升级模型或进行监督微调。
需要极高确定性的场景：USP是一种基于统计和启发式的方法，其筛选的演示并非100%正确。在医疗、法律等容错率极低的领域，任何自动筛选的演示都必须经过严格的人工审核才能使用。

6. 扩展思考与未来方向

USP方法为我们打开了一扇窗，让我们看到大模型如何更高效地利用自身知识进行“自我改进”。沿着这个思路，我们还可以做很多探索：

与自动提示工程结合：USP主要优化了演示（Examples）部分。我们可以将其与自动提示（AutoPrompt）技术结合，让模型或搜索算法同时优化任务指令（Instruction）和演示，形成“自适应指令+自适应演示”的完全体自学习提示。
迭代式USP：当前的USP是“一锤子买卖”：选一次演示，用于所有测试查询。是否可以设计一个迭代过程？用第一轮选出的演示去推理一批数据，然后用这批数据的输出（可能经过某种过滤）作为新一轮的候选演示，如此迭代，让演示质量像“雪球”一样越滚越高。
多模态扩展：USP的思想完全可以迁移到多模态大模型（VLMs）。例如，对于图像描述任务，我们可以让模型对一批无标签图片生成描述，然后通过CLIP等模型计算生成描述与图像的相似度，或者计算不同生成描述之间的语义一致性，来筛选出高质量的“图片-描述”演示对，进而提升零样本图像描述能力。
在线学习与自适应：在对话机器人等交互式应用中，可以将用户历史上明确认可（如点赞）的模型回复，自动加入高质量的演示池，并动态更新用于后续对话的提示。这使得模型能在与用户的互动中持续自我优化。

在我自己的项目中，尝试将USP用于一个内部知识问答系统的冷启动阶段，效果非常显著。在没有一条标注问答对的情况下，我们仅用了200篇相关领域文档（作为无标签数据D），让模型自己生成并筛选问答对作为演示，就将零样本问答的准确率提升了超过15个百分点，达到了可用的基线水平。这节省了至少两周的数据标注和整理时间。

USP这类方法的价值在于，它让我们不再完全依赖于昂贵、缓慢的人工标注数据，而是能够撬动大模型自身蕴含的巨量知识和推理能力，通过精巧的算法设计，让其进行“自我教育”。这无疑是通向更通用、更易用人工智能的重要一步。当然，它也不是万能的，理解其原理、明确其边界、在实践中灵活调整和验证，才是我们工程从业者用好它的关键。

查看全文

http://www.jsqmd.com/news/869426/