当前位置：首页 > news >正文

别再死记硬背了！用Python手把手教你构建NLP中的共现矩阵（附完整代码与SVD降维实战）

news 2026/4/20 22:19:26

从零构建NLP共现矩阵：Python实战与降维技巧

在自然语言处理领域，词向量表示一直是核心课题。传统方法如TF-IDF虽然简单直接，但无法捕捉词语间的语义关系。共现矩阵（Co-Occurrence Matrix）通过统计词语在上下文窗口中的共现频率，为词向量构建提供了新思路。本文将手把手带你用Python实现共现矩阵的构建，并通过SVD降维解决高维稀疏问题。

1. 共现矩阵基础与Python实现

共现矩阵的核心思想很简单：经常出现在相似上下文中的词语，往往具有相似的语义。比如"咖啡"和"茶"经常与"喝"、"杯子"等词共同出现，这表明它们在语义上具有相似性。

构建共现矩阵的关键步骤：

语料预处理：分词、去除停用词等
定义上下文窗口大小
统计词语共现频率
构建矩阵表示

让我们用Python实现这一过程。首先准备必要的库和示例语料：

import numpy as np from collections import defaultdict # 示例语料 corpus = [ "I enjoy flying", "I like NLP", "I like deep learning" ] # 预处理：分词并转换为小写 tokenized_corpus = [sentence.lower().split() for sentence in corpus]

接下来，我们需要构建词汇表并初始化共现矩阵：

# 构建词汇表 vocab = set() for sentence in tokenized_corpus: vocab.update(sentence) vocab = sorted(vocab) word2idx = {word: idx for idx, word in enumerate(vocab)} # 初始化共现矩阵 co_matrix = np.zeros((len(vocab), len(vocab)), dtype=np.int32)

现在，我们可以统计共现频率了。假设窗口大小为1：

window_size = 1 for sentence in tokenized_corpus: for i, word in enumerate(sentence): # 获取当前词的索引 center_idx = word2idx[word] # 定义窗口边界 start = max(0, i - window_size) end = min(len(sentence), i + window_size + 1) # 统计共现 for j in range(start, end): if j != i: # 排除中心词本身 context_idx = word2idx[sentence[j]] co_matrix[center_idx][context_idx] += 1

这样，我们就得到了一个基本的共现矩阵。可以通过以下代码查看结果：

print("词汇表:", vocab) print("共现矩阵:") print(co_matrix)

2. 共现矩阵的可视化与分析

理解共现矩阵的结构对于后续应用至关重要。我们可以使用热力图来直观展示词语之间的关系。

首先安装必要的可视化库：

pip install matplotlib seaborn

然后生成热力图：

import matplotlib.pyplot as plt import seaborn as sns plt.figure(figsize=(10, 8)) sns.heatmap(co_matrix, annot=True, fmt="d", xticklabels=vocab, yticklabels=vocab, cmap="YlGnBu") plt.title("共现矩阵热力图") plt.show()

解读热力图的关键点：

对角线上的值通常较大，表示词语与自身的共现（可根据需求去除）
高值区域表示词语间有强共现关系
对称性：共现矩阵通常是对称的（取决于窗口定义）

在实际应用中，我们可能会遇到以下问题：

数据稀疏性：许多单元格的值为0
高频词主导：常见词（如"the"、"is"）会主导共现统计
维度灾难：词汇量增长导致矩阵维度急剧增加

3. 解决高维问题：SVD降维实战

共现矩阵的维度等于词汇表大小，对于大规模语料库来说，这会带来计算和存储上的挑战。奇异值分解（SVD）是一种有效的降维方法。

SVD的基本原理：

任何矩阵A都可以分解为三个矩阵的乘积： A = UΣVᵀ

其中：

U和V是正交矩阵
Σ是对角矩阵，对角线上的元素称为奇异值

在Python中，我们可以使用scikit-learn的TruncatedSVD实现：

from sklearn.decomposition import TruncatedSVD # 设置目标维度 n_components = 2 # 创建并拟合SVD模型 svd = TruncatedSVD(n_components=n_components) word_vectors = svd.fit_transform(co_matrix) # 查看降维后的词向量 print("降维后的词向量:") for word, vector in zip(vocab, word_vectors): print(f"{word}: {vector}")

为了更直观地理解降维效果，我们可以将词向量可视化：

plt.figure(figsize=(10, 8)) for i, word in enumerate(vocab): plt.scatter(word_vectors[i, 0], word_vectors[i, 1]) plt.text(word_vectors[i, 0], word_vectors[i, 1], word) plt.title("词向量二维可视化") plt.xlabel("SVD第一主成分") plt.ylabel("SVD第二主成分") plt.grid() plt.show()

SVD降维的实用技巧：

维度选择：通常选择保留85-95%的方差

# 计算保留95%方差所需的维度 svd = TruncatedSVD(n_components=len(vocab)-1) svd.fit(co_matrix) explained_variance = np.cumsum(svd.explained_variance_ratio_) n_components = np.argmax(explained_variance >= 0.95) + 1

数据缩放：考虑使用对数或TF-IDF加权

# 对数缩放 log_co_matrix = np.log(co_matrix + 1)

处理OOV问题：对于新词，需要重新计算或使用近似方法

4. 进阶优化与实战建议

在实际项目中，直接使用上述基础方法可能会遇到性能问题。以下是几个优化方向：

内存优化策略：

对于大规模语料库，可以使用稀疏矩阵表示：

from scipy.sparse import lil_matrix # 使用稀疏矩阵初始化 co_matrix_sparse = lil_matrix((len(vocab), len(vocab)), dtype=np.int32) # 更新统计逻辑（类似前面） # ... # 转换为CSR格式以优化计算 co_matrix_sparse = co_matrix_sparse.tocsr()

并行计算加速：

对于超大规模语料，可以考虑使用多进程或分布式计算：

from multiprocessing import Pool def process_sentence(args): sentence, window_size, word2idx = args local_matrix = np.zeros((len(word2idx), len(word2idx)), dtype=np.int32) # ... 统计逻辑 ... return local_matrix with Pool() as pool: results = pool.map(process_sentence, [(s, window_size, word2idx) for s in tokenized_corpus]) co_matrix = sum(results)

实用调试技巧：

窗口大小选择：
- 小窗口（2-5）：捕捉语法关系
- 大窗口（5-10）：捕捉语义关系

处理低频词：

# 移除出现次数少于min_count的词 from collections import Counter word_counts = Counter(word for sentence in tokenized_corpus for word in sentence) vocab = [word for word in vocab if word_counts[word] >= min_count]

评估词向量质量：
- 使用类比任务（如：king - man + woman ≈ queen）
- 计算余弦相似度检查语义相关性

完整代码示例：

import numpy as np from collections import defaultdict, Counter from sklearn.decomposition import TruncatedSVD import matplotlib.pyplot as plt import seaborn as sns from scipy.sparse import lil_matrix def build_co_occurrence_matrix(corpus, window_size=2, min_count=1): # 预处理 tokenized_corpus = [sentence.lower().split() for sentence in corpus] # 过滤低频词 word_counts = Counter(word for sentence in tokenized_corpus for word in sentence) vocab = sorted([word for word in set(word_counts.keys()) if word_counts[word] >= min_count]) word2idx = {word: idx for idx, word in enumerate(vocab)} # 初始化稀疏矩阵 co_matrix = lil_matrix((len(vocab), len(vocab)), dtype=np.int32) # 统计共现 for sentence in tokenized_corpus: sentence = [word for word in sentence if word in word2idx] for i, word in enumerate(sentence): center_idx = word2idx[word] start = max(0, i - window_size) end = min(len(sentence), i + window_size + 1) for j in range(start, end): if j != i: context_idx = word2idx[sentence[j]] co_matrix[center_idx, context_idx] += 1 return co_matrix.tocsr(), vocab def visualize_word_vectors(word_vectors, vocab): plt.figure(figsize=(10, 8)) for i, word in enumerate(vocab): plt.scatter(word_vectors[i, 0], word_vectors[i, 1]) plt.text(word_vectors[i, 0], word_vectors[i, 1], word) plt.title("词向量二维可视化") plt.xlabel("第一主成分") plt.ylabel("第二主成分") plt.grid() plt.show() # 示例使用 corpus = [ "I enjoy flying", "I like NLP", "I like deep learning", "deep learning is fascinating", "NLP is a branch of AI" ] co_matrix, vocab = build_co_occurrence_matrix(corpus, window_size=2) svd = TruncatedSVD(n_components=2) word_vectors = svd.fit_transform(co_matrix) visualize_word_vectors(word_vectors, vocab)

查看全文

http://www.jsqmd.com/news/673386/