当前位置：首页 > news >正文

gte-base-zh效果对比图谱：t-SNE+UMAP双视角展示中文语义空间结构

news 2026/3/26 21:00:25

gte-base-zh效果对比图谱：t-SNE+UMAP双视角展示中文语义空间结构

1. 引言：为什么需要可视化语义空间？

当我们使用文本嵌入模型时，经常会遇到一个困惑：这些模型生成的向量到底捕捉到了什么样的语义信息？不同的句子在向量空间中是如何分布的？相似的概念是否真的聚集在一起？

今天我们将通过可视化分析，深入探索gte-base-zh模型的中文语义空间结构。使用t-SNE和UMAP两种降维技术，从不同视角展示中文文本在向量空间中的分布规律，帮助大家直观理解这个模型的语义编码能力。

通过本文，你将学会：

如何部署和使用gte-base-zh嵌入模型
使用t-SNE和UMAP进行高维向量可视化
分析中文语义空间的结构特征
理解不同语义关系在向量空间中的表现

2. gte-base-zh模型快速部署

2.1 模型简介与准备

gte-base-zh是由阿里巴巴达摩院训练的中文文本嵌入模型，基于BERT框架构建。这个模型在大规模相关文本对语料库上训练，覆盖了广泛的领域和场景，能够很好地处理中文文本的语义表示。

模型本地地址：

/usr/local/bin/AI-ModelScope/gte-base-zh

2.2 使用Xinference部署服务

首先启动Xinference服务：

xinference-local --host 0.0.0.0 --port 9997

然后启动gte-base-zh模型服务：

python /usr/local/bin/launch_model_server.py

2.3 验证服务状态

检查模型是否启动成功：

cat /root/workspace/model_server.log

看到类似下面的输出表示启动成功：

Model loaded successfully, ready for inference

2.4 访问Web界面

通过浏览器访问Xinference的Web界面，你可以：

点击示例文本或输入自己的文本
点击"相似度比对"按钮
查看文本相似度计算结果

3. 构建中文语义对比数据集

3.1 设计测试文本集合

为了全面展示语义空间结构，我们准备了多组对比文本：

同义文本组：

"我喜欢吃苹果" vs "苹果是我喜欢的水果"
"今天天气很好" vs "今日天气晴朗"

相关但不相同文本组：

"人工智能技术发展迅速" vs "机器学习算法不断进步"
"北京是中国的首都" vs "上海是中国的大城市"

完全不相关文本组：

"编程需要逻辑思维" vs "钢琴演奏需要艺术天赋"
"新能源汽车环保" vs "传统绘画技法传承"

3.2 生成文本嵌入向量

使用gte-base-zh为每个文本生成768维的嵌入向量：

import requests import numpy as np def get_embedding(text): url = "http://localhost:9997/v1/embeddings" headers = {"Content-Type": "application/json"} data = { "model": "gte-base-zh", "input": text } response = requests.post(url, headers=headers, json=data) return response.json()['data'][0]['embedding'] # 为所有文本生成嵌入 texts = ["我喜欢吃苹果", "苹果是我喜欢的水果", ...] # 所有测试文本 embeddings = [get_embedding(text) for text in texts] embeddings = np.array(embeddings)

4. 双视角可视化分析

4.1 t-SNE降维可视化

t-SNE（t-Distributed Stochastic Neighbor Embedding）擅长保留局部结构，适合观察聚类效果：

from sklearn.manifold import TSNE import matplotlib.pyplot as plt # t-SNE降维 tsne = TSNE(n_components=2, random_state=42, perplexity=10) embeddings_tsne = tsne.fit_transform(embeddings) # 绘制t-SNE结果 plt.figure(figsize=(12, 8)) colors = ['red', 'blue', 'green', 'orange', 'purple', 'brown'] groups = ['同义文本', '相关文本', '不相关文本'] for i, group in enumerate(groups): indices = [j for j, label in enumerate(labels) if label == group] plt.scatter(embeddings_tsne[indices, 0], embeddings_tsne[indices, 1], c=colors[i], label=group, alpha=0.7) plt.title('gte-base-zh语义空间t-SNE可视化') plt.legend() plt.show()

4.2 UMAP降维可视化

UMAP（Uniform Manifold Approximation and Projection）在保留全局结构方面表现更好：

import umap # UMAP降维 umap_reducer = umap.UMAP(n_components=2, random_state=42) embeddings_umap = umap_reducer.fit_transform(embeddings) # 绘制UMAP结果 plt.figure(figsize=(12, 8)) for i, group in enumerate(groups): indices = [j for j, label in enumerate(labels) if label == group] plt.scatter(embeddings_umap[indices, 0], embeddings_umap[indices, 1], c=colors[i], label=group, alpha=0.7) plt.title('gte-base-zh语义空间UMAP可视化') plt.legend() plt.show()

5. 语义空间结构分析

5.1 聚类效果观察

从可视化结果中，我们可以观察到几个明显现象：

同义文本紧密聚集：表达相同含义的文本在向量空间中距离很近，形成了清晰的聚类。这说明gte-base-zh能够有效捕捉语义相似性。

相关文本适度分散：语义相关但不完全相同的文本在空间中保持适度距离，既不完全重叠也不过分远离。

不相关文本明显分离：语义无关的文本在向量空间中分布较远，形成了明显的分离区域。

5.2 维度分布规律

通过对比t-SNE和UMAP的结果，我们发现：

t-SNE更强调局部结构，同义文本的聚类更加紧凑
UMAP更好地保留了全局结构，不同类别之间的相对距离更加合理
两种方法都显示gte-base-zh构建了良好的语义层次结构

5.3 语义关系映射

模型成功地将不同层次的语义关系映射到向量空间中：

语义关系	向量空间表现	实际应用价值
同义关系	距离很近，几乎重叠	重复检测、语义搜索
相关关系	适度距离，方向相似	相关推荐、主题分类
对立关系	距离较远，方向相反	情感分析、矛盾检测
无关关系	随机分布，无规律	异常检测、去噪处理

6. 实际应用建议

6.1 相似度计算优化

基于可视化分析，我们建议在实际应用中使用余弦相似度而不是欧氏距离：

from sklearn.metrics.pairwise import cosine_similarity # 计算文本相似度 def calculate_similarity(text1, text2): emb1 = get_embedding(text1).reshape(1, -1) emb2 = get_embedding(text2).reshape(1, -1) return cosine_similarity(emb1, emb2)[0][0] similarity = calculate_similarity("我喜欢吃苹果", "苹果是我喜欢的水果") print(f"语义相似度: {similarity:.4f}")

6.2 阈值选择指南

根据大量测试，我们推荐以下相似度阈值：

应用场景	推荐阈值	说明
重复内容检测	>0.85	高度相似的文本
相关推荐	0.65-0.85	语义相关的文本
主题分类	0.45-0.65	同一主题下的文本
新颖性检测	<0.45	语义差异较大的文本

6.3 批量处理优化

对于大量文本的处理，建议使用批量请求提高效率：

def get_batch_embeddings(texts, batch_size=32): all_embeddings = [] for i in range(0, len(texts), batch_size): batch_texts = texts[i:i+batch_size] url = "http://localhost:9997/v1/embeddings" headers = {"Content-Type": "application/json"} data = { "model": "gte-base-zh", "input": batch_texts } response = requests.post(url, headers=headers, json=data) batch_embeddings = [item['embedding'] for item in response.json()['data']] all_embeddings.extend(batch_embeddings) return np.array(all_embeddings)