当前位置：首页 > news >正文

DeepSeek-V4-Flash 登场，大语言模型引导技术再引关注！

news 2026/8/1 21:09:56

DeepSeek-V4-Flash 让大语言模型引导技术再度引人关注

自 Golden Gate Claude 发布以来，引导技术（steering）就备受关注。其核心思想是在模型运行过程中直接操控激活值，以引导大语言模型（LLM）的输出。

DeepSeek V4 Flash

antirez 最近的项目 DwarfStar 4 启发了本文创作。它是 llama.cpp 的精简版本，仅用于运行 DeepSeek-V4-Flash。该模型或许是许多工程师期待的本地模型，性能足以与前沿模型在代码生成方面的低端表现抗衡。由于引导技术需本地模型支持，现在很多工程师有机会首次尝试。实际上，antirez 已将引导技术作为核心功能集成到 DwarfStar 4 中，目前该技术处于初级阶段，不过首次发布距今仅八天，值得密切关注。

引导技术的工作原理

引导技术的基本思路是从模型内部状态提取概念，如“简洁回复”，然后在推理过程中增强构成该概念的数值激活值。一种实现方法是向模型输入同一组一百个提示两次，一次正常提示，另一次添加“简洁回复”，测量两组提示下模型激活值的差异得到“引导向量”，将其添加到任何提示对应的激活层可让模型简洁回复。另一种更复杂的方法是训练辅助模型从主模型激活值中提取“特征”，并映射到具体概念后增强，这与 Anthropic 利用稀疏自编码器的工作原理类似，虽能捕捉更深入模式，但需更多时间、计算资源和专业知识。

引导技术为何引人关注

引导技术听起来像作弊码，与其费力构建训练集将模型推向“智能”端，不如直接找到模型“大脑”中的“智能”旋钮并拧到最大。此外，它是更优雅的调整模型输出方式，不用在提示中反复调整限定词，可直接用控制面板滑动滑块调整。而且，引导技术很酷，看着 Golden Gate Claude 将话题引到金门大桥，就像读奥利弗·萨克斯的神经学轶事，既引人入胜又让人不安，不禁让人思考若思维被如此调整，自己还是不是原来的自己。

引导技术未广泛应用的原因

引导技术未广泛应用，原因之一是它在人工智能研究中处于尴尬的“中间地位”。对于大型人工智能实验室来说，它显得“低级”，他们可直接操控模型，Anthropic 研究相关内容主要从可解释性和安全性角度出发，希望模型特定运行时通常直接训练模型。对于普通人工智能用户，通过 API 使用大语言模型，无法访问模型权重或激活值，无法进行引导操作，如只有 OpenAI 能识别或公开 GPT - 5.5 的引导向量，且此前没有足够强大的开放模型值得引导。此外，引导技术的大多数基本应用可通过提示模型实现，甚至效果更好，提示词本身也影响模型“大脑”，调整提示语言也能实现精细控制，没必要费力使用引导技术。

引导不可提示的概念

若能识别无法通过提示实现的概念，引导技术会很有用，如“智能”概念，现在通过提示引导模型表现智能已无效，使用引导技术是否有效是实证问题，但很难找到“智能”引导向量，复杂概念对应的引导向量可能涵盖模型所有权重，识别它等同于“训练一个智能模型”。过于复杂的引导方法可能直接取代模型本身，如用更强模型的激活值替换 GPT - 2 激活值，得到的是与更强模型交互，智能体现在引导过程而非模型本身。

引导技术作为数据压缩手段

引导技术的潜在用途是节省模型的上下文窗口，可视为将概念从模型工作记忆转移到隐式记忆的方法。例如，若能识别“对特定代码库的了解”概念，GPT - 5.5 阅读代码库获得的部分知识可能隐藏在激活值中，也许可提取成大引导向量。但实现存在困难，“了解代码库”概念复杂，可能需对模型全面微调，不过仍有实现可能。

结论

引导技术虽令人感兴趣，但并不十分乐观。大部分通过引导技术实现的效果可通过提示更高效完成，雄心勃勃的引导目标通过训练或微调模型实现更有效。开源社区在引导技术方面研究不多，但情况可能改变。若引导技术有实际应用价值，未来六个月内有望看到成果。看看像 DwarfStar 4 这样的模型工具是否会包含可增强特征的“库”很有趣，流行开放权重模型发布时，社区会推出包装器和量化版本，是否会有人竞相从模型中提取可增强特征呢？这篇文章在 Hacker News 上引发讨论，几位评论者指出引导技术可改变模型“训练出来”的行为，消除模型拒绝回复，这是目前对开放模型去审查/消除限制的方法。antirez 提到修改权重对模型能力的损害可能比轻量级的运行时引导方法更大，很有道理。

此外，模型有许多不同的激活值可供测量，可选择任意一个或尝试多个看效果。有人读了关于使用开放 LLaMA 模型进行相关操作的深度分析文章，自己尝试过效果参差不齐。向大型人工智能实验室读者致歉，若内部尝试引导技术提升模型能力未成功，可发邮件。即便如此，行业中“针对特定代码库微调模型”效果大多不尽如人意。

若喜欢这篇文章，可考虑订阅邮件更新或在 Hacker News 上分享。以下是相关文章预览，大语言模型的“技能”是针对特定任务的简短解释性提示，通常附带辅助脚本。最近一篇论文表明，大语言模型自己生成的技能无效，自我生成的技能平均无益处，表明模型无法可靠生成从中受益的程序性知识。目前不想深入探讨该论文，只想指出其使用大语言模型生成技能的方法不可取。

查看全文

http://www.jsqmd.com/news/833907/