[智能体-282]:常见的中英词静态向量表以及主要参数阐述
一、主流中英静态词向量表总览(Word2Vec / GloVe / FastText)
静态词向量:一词唯一固定向量,无上下文变化,文件格式统一:首行总词数 向量维度,后续每行单词 浮点数列表。
(一)英文常用预训练词向量
1. Word2Vec(Google News 原版)
表格
| 名称 | 训练语料 | 词表规模 | 维度 | 核心参数 | 特点 |
|---|---|---|---|---|---|
| GoogleNews-vectors-negative300 | 谷歌新闻 100B 词 | 300 万词 | 300d | SkipGram、window=5、负采样 = 5、epoch=5、min_count=5 | 英文通用标杆,侧重句法、日常用词,OOV 无法生成向量 |
格式:
.bin二进制(gensim 专用)、.txt文本。
2. GloVe(斯坦福 4 大官方版本)
表格
| 模型 | 训练语料 | 词汇量 | 维度 | 训练参数 | 适用场景 |
|---|---|---|---|---|---|
| glove.6B | Wiki+Gigaword(6B) | 40W | 50/100/200/300 | window=10、迭代 100 轮、全局共现矩阵 | 通用文本、小数据集首选 |
| glove.42B | Common Crawl(42B) | 190W | 300 | 全局词共现加权 | 网页、资讯 |
| glove.840B | Common Crawl(840B) | 220W | 300 | 区分大小写 | 海量互联网文本 |
| glove.twitter.27B | 推特 27B | 120W | 25/50/100/200 | 口语化训练 | 短文本、评论、社交媒体 |
原理:全局词共现统计 + 局部上下文结合,类比推理效果最优。
3. FastText(Meta 官方)
- cc.en.300:Common Crawl + 维基百科,300 维、150W + 词;
- wiki.en.300:纯英文维基,300 维;独有优势:依靠子词 n-gram,OOV 生词也能拼接生成向量,分
.vec(文本)、.bin(二进制)两种格式。
(二)中文常用预训练词向量(Chinese-Word-Vectors 项目最全,清华 / 哈工大开源)
项目仓库:Embedding/Chinese-Word-Vectors,分Word2Vec(SGNS)、GloVe、FastText三类,主流 5 类语料:
表格
| 语料来源 | 维度 | 词表量级 | 训练通用基准参数 | 适用领域 |
|---|---|---|---|---|
| 百度百科 | 300d | ~80W | window=5、动态窗口、负采样 = 5、min_count=10、epoch=5 | 通用百科、常识文本 |
| 搜狗新闻 | 300d | ~60W | 同上 | 新闻、资讯、财经文本 |
| 微博 | 300d | ~70W | 同上 | 社交媒体、评论、口语 |
| 人民日报 | 300d | ~40W | 同上 | 时政、正式公文 |
| 中文维基 | 300d | ~50W | 同上 | 百科、书面语 |
单独知名中文词向量
- 哈工大 GloVe 中文:新闻 + 百科混合,300 维,适合中文分类、相似度任务;
- FastText 中文 cc.zh.300:Meta 开源,全网爬虫训练,OOV 生词可用字符子词生成向量。
二、词向量五大核心训练参数详解(所有词向量通用)
1. vector_size(向量维度,d)
- 含义:单个词语向量浮点数个数、语义空间维度;
- 常用:50/100/200/300;
- 50~100:小语料、轻量任务(短文本分类、关键词);
- 300:工业标准,大语料通用(所有官方预训练默认 300);
500:边际收益极低、内存暴涨,极少使用。
2. window(上下文窗口大小)
中心词左右各取 window 个词作为上下文:
- window=2~3:小窗口→学习语法、词性、短语搭配;
- window=5(默认):平衡语义 + 语法,绝大多数预训练配置;
- window=8~10:大窗口→远距离上下文、主题语义、篇章关联;注:Chinese-Word-Vectors 使用动态窗口,高频词自动缩小窗口、低频放大。
3. min_count(最小词频阈值)
出现次数<该数值的词直接丢弃、不进词表:
- min_count=5(小语料);min_count=10(千万级大语料,中英文预训练通用); 作用:过滤错别字、生僻稀有词,降低噪声、压缩词表体积。
4. sg(训练架构:CBOW/SkipGram,仅 Word2Vec/FastText)
- sg=1 → SkipGram(官方预训练主流):用中心词预测上下文,低频词效果好、类比强,Google、中文词向量全用 SkipGram;
- sg=0 → CBOW:上下文预测中心词,训练更快、高频词效果优,少用于预训练大模型。
5. negative(负采样数量)
每 1 个正样本随机取 N 个无关词当负样本,替代全量 softmax 加速训练:
- 标准配置 negative=5(所有公开预训练默认);大语料可取 3~5,小语料 5~10。
补充独有参数
- GloVe 独有:x_max(共现截断阈值,默认 100),控制高频共现词权重;依赖全局共现矩阵,训练耗内存高于 Word2Vec;
- FastText 独有:n-gram 字符子词长度(默认 min=3,max=6),拆汉字 / 英文词根,解决 OOV 生词问题。
三、三类词向量优缺点 & 选型对照
表格
| 类型 | 优点 | 短板 | 适用场景 |
|---|---|---|---|
| Word2Vec(SGNS) | 训练快、占用小、句法优秀 | 无全局统计、生词无法编码 | 分类、聚类、关键词抽取 |
| GloVe | 融合全局词频 + 局部上下文、词语类比顶尖 | 训练慢、耗内存、无 OOV | 词语相似度、知识推理、小样本 NLP |
| FastText | 支持子词、生词自动生成向量、多语言友好 | 向量噪声略高 | 分词、实体识别、生僻词多的垂直领域(医疗 / 法律) |
四、最简加载示例(Gensim 读取预训练词向量)
python
运行
from gensim.models import KeyedVectors # 1.加载英文GloVe(转w2v格式) / 中文Chinese-Word-Vectors词向量 w2v = KeyedVectors.load_word2vec_format("sgns.baidubaike.word", binary=False) # 查词向量 vec = w2v["人工智能"] # 查相似度 sim = w2v.similarity("苹果","香蕉")五、选型速查表
- 英文通用:小样本→glove.6B.300;海量文本→glove.840B;口语评论→twitter27B;OOV 多→fastText cc.en;
- 中文通用:百科常识→百度百科 SGNS;新闻→搜狗新闻 GloVe;生僻词多→FastText cc.zh.300
