当前位置：首页 > news >正文

all-MiniLM-L6-v2实战案例：Python调用Ollama Embedding API实现文本聚类

news 2026/7/9 2:47:30

all-MiniLM-L6-v2实战案例：Python调用Ollama Embedding API实现文本聚类

1. 引言：为什么需要文本聚类？

在日常工作中，我们经常遇到这样的场景：面对大量文本数据，如何快速找出相似的内容？比如客户反馈分类、新闻话题分组、文档整理等。传统的关键词匹配方法效果有限，无法理解语义层面的相似性。

all-MiniLM-L6-v2模型正是为解决这个问题而生。它是一个轻量级的句子嵌入模型，能够将文本转换为高维向量，语义相似的文本在向量空间中距离更近。通过Ollama部署这个模型，我们可以轻松获得专业的embedding服务，然后用Python实现各种文本分析任务。

本文将带你从零开始，完成三个目标：

使用Ollama部署all-MiniLM-L6-v2的embedding服务
学习用Python调用embedding API获取文本向量
实现一个完整的文本聚类案例，看到实际效果

2. 环境准备与模型部署

2.1 安装Ollama

Ollama是一个本地化的大模型部署工具，让我们能够轻松运行各种开源模型。安装过程非常简单：

# Linux/macOS 一键安装 curl -fsSL https://ollama.ai/install.sh | sh # Windows 用户可以直接下载安装包 # 访问 https://ollama.ai/download 下载exe文件安装

安装完成后，在终端输入ollama --version，如果显示版本号说明安装成功。

2.2 部署all-MiniLM-L6-v2模型

all-MiniLM-L6-v2是一个特别适合本地部署的轻量级模型，只有22.7MB大小，但效果相当不错：

# 拉取并运行模型 ollama pull all-minilm ollama run all-minilm

模型启动后，默认会在11434端口提供API服务。我们可以用简单的方法测试服务是否正常：

import requests response = requests.post( 'http://localhost:11434/api/embeddings', json={'model': 'all-minilm', 'prompt': '测试文本'} ) print('服务状态:', response.status_code)

如果返回200状态码，说明embedding服务已经正常启动了。

3. 文本聚类实战教程

3.1 准备示例数据

让我们用一些新闻标题作为示例数据，这些标题涵盖科技、体育、娱乐等不同领域：

texts = [ "苹果发布新款iPhone手机，搭载A16芯片", "华为推出Mate60系列，支持卫星通信", "NBA总决赛勇士队夺得总冠军", "世界杯足球赛法国队进入决赛", "电影《阿凡达2》票房突破20亿美元", "Netflix推出新剧集《星期三》获得好评", "特斯拉发布新款Model 3，续航提升", "比亚迪新能源汽车销量创新高", "欧冠联赛皇马击败利物浦夺冠", "漫威新电影《黑豹2》正式上映" ]

这些文本看似杂乱无章，但通过embedding和聚类，我们能够发现它们内在的类别关系。

3.2 获取文本向量表示

接下来我们编写一个函数来获取所有文本的向量表示：

import requests import numpy as np import time def get_embeddings(texts, model_name='all-minilm', batch_size=5): """ 批量获取文本的embedding向量 texts: 文本列表 model_name: 模型名称 batch_size: 批处理大小，避免一次请求太多 """ embeddings = [] for i in range(0, len(texts), batch_size): batch_texts = texts[i:i+batch_size] batch_embeddings = [] for text in batch_texts: try: response = requests.post( 'http://localhost:11434/api/embeddings', json={'model': model_name, 'prompt': text}, timeout=30 ) if response.status_code == 200: embedding = response.json()['embedding'] batch_embeddings.append(embedding) else: print(f"错误: {response.status_code}") batch_embeddings.append(None) except Exception as e: print(f"请求失败: {e}") batch_embeddings.append(None) # 避免请求过于频繁 time.sleep(0.1) embeddings.extend(batch_embeddings) return embeddings # 获取所有文本的embedding embeddings = get_embeddings(texts) print(f"共获取 {len(embeddings)} 个embedding向量") print(f"每个向量维度: {len(embeddings[0])}")

每个文本都被转换为一个384维的向量，这些向量捕捉了文本的语义信息。

3.3 实现文本聚类

有了向量表示，我们就可以使用聚类算法来发现文本之间的相似性：

from sklearn.cluster import KMeans from sklearn.decomposition import PCA import matplotlib.pyplot as plt # 转换为numpy数组 embedding_matrix = np.array(embeddings) # 使用K-Means进行聚类，假设我们想要3个类别 kmeans = KMeans(n_clusters=3, random_state=42) clusters = kmeans.fit_predict(embedding_matrix) # 可视化结果（降维到2D空间） pca = PCA(n_components=2) reduced_embeddings = pca.fit_transform(embedding_matrix) plt.figure(figsize=(10, 6)) colors = ['red', 'blue', 'green', 'purple', 'orange'] for i in range(3): cluster_points = reduced_embeddings[clusters == i] plt.scatter(cluster_points[:, 0], cluster_points[:, 1], c=colors[i], label=f'Cluster {i}', alpha=0.7) plt.title('文本聚类结果可视化') plt.xlabel('PCA Component 1') plt.ylabel('PCA Component 2') plt.legend() plt.grid(True) plt.show()

3.4 分析聚类结果

让我们看看每个聚类中都包含了哪些文本：

# 打印每个聚类的文本 for cluster_id in range(3): print(f"\n=== 聚类 {cluster_id} ===") cluster_texts = [texts[i] for i in range(len(texts)) if clusters[i] == cluster_id] for text in cluster_texts: print(f"• {text}")

运行后会看到类似这样的结果：

=== 聚类 0 === • 苹果发布新款iPhone手机，搭载A16芯片 • 华为推出Mate60系列，支持卫星通信 • 特斯拉发布新款Model 3，续航提升 • 比亚迪新能源汽车销量创新高 === 聚类 1 === • NBA总决赛勇士队夺得总冠军 • 世界杯足球赛法国队进入决赛 • 欧冠联赛皇马击败利物浦夺冠 === 聚类 2 === • 电影《阿凡达2》票房突破20亿美元 • Netflix推出新剧集《星期三》获得好评 • 漫威新电影《黑豹2》正式上映

可以看到，模型成功地将文本分为了三个语义类别：科技产品、体育赛事、影视娱乐。

4. 进阶技巧与优化建议

4.1 处理大量文本的策略

当处理大量文本时，需要考虑一些优化策略：

def optimized_embedding_pipeline(texts, model_name='all-minilm'): """ 优化后的embedding获取流程 """ # 预处理：去除过短文本和重复文本 processed_texts = [] seen_texts = set() for text in texts: if len(text.strip()) > 5 and text not in seen_texts: processed_texts.append(text) seen_texts.add(text) # 批量获取embedding embeddings = get_embeddings(processed_texts, model_name, batch_size=10) return processed_texts, embeddings # 自动确定最佳聚类数量 from sklearn.metrics import silhouette_score def find_optimal_clusters(embeddings, max_clusters=10): """ 使用轮廓系数找到最佳聚类数量 """ silhouette_scores = [] for n_clusters in range(2, max_clusters + 1): kmeans = KMeans(n_clusters=n_clusters, random_state=42) cluster_labels = kmeans.fit_predict(embeddings) score = silhouette_score(embeddings, cluster_labels) silhouette_scores.append(score) optimal_clusters = silhouette_scores.index(max(silhouette_scores)) + 2 return optimal_clusters, silhouette_scores # 使用示例 optimal_k, scores = find_optimal_clusters(embedding_matrix) print(f"建议聚类数量: {optimal_k}")

4.2 实际应用案例扩展

这个技术可以应用到很多实际场景中：

class TextCluster: def __init__(self, model_name='all-minilm'): self.model_name = model_name def cluster_customer_feedback(self, feedback_list): """ 聚类客户反馈，发现主要问题类别 """ # 获取embedding embeddings = get_embeddings(feedback_list, self.model_name) # 自动确定最佳聚类数量 optimal_k, _ = find_optimal_clusters(np.array(embeddings)) # 进行聚类 kmeans = KMeans(n_clusters=optimal_k, random_state=42) clusters = kmeans.fit_predict(embeddings) # 分析每个聚类的主题 results = {} for i in range(optimal_k): cluster_feedbacks = [feedback_list[j] for j in range(len(feedback_list)) if clusters[j] == i] results[f'cluster_{i}'] = { 'size': len(cluster_feedbacks), 'examples': cluster_feedbacks[:3] # 每个聚类取3个例子 } return results # 使用示例 feedback_examples = [ "产品很好用，但是价格有点贵", "客服响应很慢，需要改进", "物流速度很快，包装完好", "希望增加更多功能", "价格实惠，性价比高" ] cluster_tool = TextCluster() results = cluster_tool.cluster_customer_feedback(feedback_examples) print(results)