Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100:解密大语言模型内部机制的可解释性工具
Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100:解密大语言模型内部机制的可解释性工具
【免费下载链接】SAE-Res-Qwen3.5-27B-W80K-L0_100项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100
Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100是一款基于稀疏自编码器(SAE)的大语言模型可解释性工具,专为Qwen3.5-27B模型设计,通过解析模型内部64层残差流特征,帮助开发者和研究者理解AI模型的决策过程。
为什么需要大语言模型可解释性工具?
大语言模型(LLM)如Qwen3.5-27B在生成文本时,其内部 billions 级参数的运作机制一直被视为"黑箱"。Qwen-Scope通过稀疏自编码器技术,将模型隐藏层的复杂特征分解为81920个可解释的独立特征,每个特征对应特定的语义概念或模式,使我们能直观观察模型如何"思考"。
核心功能与技术特点
✨ 关键技术参数
| 参数 | 数值 | 说明 |
|---|---|---|
| 基础模型 | Qwen3.5-27B | 基于270亿参数的Qwen3.5模型构建 |
| SAE宽度 | 81920 | 每个SAE包含81920个独立特征 |
| 隐藏层维度 | 5120 | 与Qwen3.5-27B的残差流维度匹配 |
| 扩展因子 | 16× | 特征空间扩展16倍,实现高分辨率特征分解 |
| 激活特征数 | 100 | 每层仅激活100个特征,保证稀疏性和可解释性 |
| 覆盖层数 | 0-63 | 完整覆盖64层Transformer结构 |
🧩 模型架构解析
每个layer{n}.sae.pt文件包含四个核心张量:
| 张量 | 形状 | 作用 |
|---|---|---|
W_enc | (81920, 5120) | 编码器权重矩阵,将残差流映射到SAE特征空间 |
W_dec | (5120, 81920) | 解码器权重矩阵,将SAE特征重构为残差流 |
b_enc | (81920,) | 编码器偏置 |
b_dec | (5120,) | 解码器偏置 |
这种架构确保模型在保持高精度重构残差流的同时,提取出高度解耦的特征表示。
快速上手指南
🚀 环境准备
首先克隆项目仓库:
git clone https://gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 cd SAE-Res-Qwen3.5-27B-W80K-L0_100🔍 特征激活提取示例
以下代码展示如何提取特定层的SAE特征激活:
import torch from transformers import AutoTokenizer, AutoModelForCausalLM # 加载基础模型 model_name = "Qwen/Qwen3.5-27B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float32) model.eval() # 加载目标层SAE LAYER = 0 # 可选择0-63中的任意层 sae = torch.load(f"layer{LAYER}.sae.pt", map_location="cpu") W_enc = sae["W_enc"] # (81920, 5120) b_enc = sae["b_enc"] # (81920,) # 定义特征激活提取函数 def get_feature_acts(residual: torch.Tensor) -> torch.Tensor: """将残差流转换为稀疏特征激活""" pre_acts = residual @ W_enc.T + b_enc topk_vals, topk_idx = pre_acts.topk(100, dim=-1) acts = torch.zeros_like(pre_acts) acts.scatter_(-1, topk_idx, topk_vals) return acts # 注册钩子捕获残差流 captured = {} def _hook(module, input, output): hidden = output[0] if isinstance(output, tuple) else output captured["residual"] = hidden.detach().cpu() hook = model.model.layers[LAYER].register_forward_hook(_hook) # 前向传播 text = "The capital of France is" inputs = tokenizer(text, return_tensors="pt") with torch.no_grad(): model(**inputs) hook.remove() # 提取特征激活 residual = captured["residual"] # (1, seq_len, 5120) feature_acts = get_feature_acts(residual) # (1, seq_len, 81920) # 查看最后一个token的激活特征 last_token_acts = feature_acts[0, -1] # (81920,) active_idx = last_token_acts.nonzero(as_tuple=True)[0] print(f"激活特征索引: {active_idx.tolist()}") print(f"特征激活值: {last_token_acts[active_idx].tolist()}")🎨 Gradio可视化界面
项目提供了直观的Gradio界面app.py,运行命令:
python app.py \ --model Qwen/Qwen3.5-27B \ --model-name-sae-trained-from qwen3.5-27b \ --model-name-analyzing-now qwen3.5-27b \ --sae-path ./ \ --top-k 100 \ --num-layers 64 \ --sae-width 81920 \ --d-model 5120 \ --server-port 7860通过浏览器访问http://localhost:7860,即可交互式探索模型各层特征激活情况,包括:
- 特征热图可视化
- token级特征激活对比
- 特征引导生成(Feature Steering)
应用场景与价值
🔬 学术研究
- 分析模型涌现能力的形成机制
- 研究语言理解的神经表征
- 探索偏见和幻觉的来源
🛠️ 模型优化
- 识别冗余或有害特征
- 指导模型剪枝和压缩
- 改进训练数据质量
📊 安全审计
- 检测模型中的不当关联
- 验证对齐目标的实现
- 增强AI系统的透明度
注意事项
使用本工具时,请遵守以下原则:
- 仅用于科学研究目的,不得干扰模型正常功能
- 禁止用于生成或传播有害信息
- 尊重知识产权,引用时请使用以下格式:
@misc{qwen_scope, title={{Qwen-Scope}: Turning Sparse Features into Development Tools for Large Language Models}, author={Boyi Deng and Xu Wang and Yaoning Wang and Yu Wan and Yubo Ma and Baosong Yang and Haoran Wei and Jialong Tang and Huan Lin and Ruize Gao and Tianhao Li and Qian Cao and Xuancheng Ren and Xiaodong Deng and An Yang and Fei Huang and Dayiheng Liu and Jingren Zhou}, year={2026}, eprint={2605.11887}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.11887}, }总结
Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100为大语言模型的可解释性研究提供了强大工具,通过稀疏自编码器技术打开了Qwen3.5-27B模型的"黑箱"。无论是学术研究、模型优化还是安全审计,这款工具都能帮助开发者深入理解AI模型的内部工作机制,推动更透明、更可靠的AI系统发展。
想要探索大语言模型的奥秘?立即下载体验Qwen-Scope,开启你的AI可解释性之旅!
【免费下载链接】SAE-Res-Qwen3.5-27B-W80K-L0_100项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
