当前位置：首页 > news >正文

ollama部署本地大模型｜embeddinggemma-300m教育场景落地：题库语义去重与推荐

news 2026/4/15 7:51:02

ollama部署本地大模型｜embeddinggemma-300m教育场景落地：题库语义去重与推荐

1. 引言：当老师遇到海量重复题

如果你是老师、教研员，或者在线教育平台的运营者，下面这个场景你一定不陌生：

题库里躺着几万道题目，每天还在不断增加。学生做练习时，经常遇到“换汤不换药”的题目——题干描述不同，但核心考点和解题思路一模一样。这不仅浪费学生的时间，也让题库的质量大打折扣。手动去重？面对海量文本，这几乎是不可能完成的任务。

传统的去重方法，比如关键词匹配，效果很差。“小明有5个苹果，吃了2个，还剩几个？”和“小华有5颗糖，给了妹妹2颗，还剩几颗？”，关键词完全不同，但本质都是“5-2=3”的减法应用题。我们需要一种能理解题目“语义”的智能方法。

今天，我们就来解决这个问题。我将手把手带你，用一台普通的笔记本电脑，部署一个轻量级的AI模型——embeddinggemma-300m，用它来为你的题库构建一个“语义理解引擎”，实现智能去重和题目推荐。

你将学到：

如何用Ollama一键部署embeddinggemma-300m。
如何将成千上万的题目，转换成机器能理解的“语义向量”。
如何利用这些向量，快速找出语义相似的重复题目。
如何根据学生做错的题，推荐最相关的练习题。

整个过程不需要GPU，普通电脑就能跑，代码简单，效果直观。我们从一个最实际的教育场景痛点出发，让AI技术真正落地。

2. 为什么选择embeddinggemma-300m？

在开始动手之前，你可能想问：嵌入模型那么多，为什么是它？

embeddinggemma-300m是谷歌基于其先进的Gemma架构推出的开源文本嵌入模型。简单说，它的工作就是把一段文字（比如一道题目）转换成一串有意义的数字（向量）。语义相近的文字，转换出来的数字串在“空间”里的距离也更近。

它有几个特点，特别适合我们教育场景的本地化部署：

足够小，足够快：3亿参数，对于嵌入模型来说非常轻量。这意味着它可以在你的笔记本上流畅运行，响应迅速，处理大批量题目时不用等太久。
多语言能力强：它用上百种语言数据训练过，对中文的理解和生成高质量向量的能力很出色，不用担心“水土不服”。
为检索而生：它的设计目标就是分类、聚类和语义搜索，这正是我们“去重”和“推荐”任务的核心。

你可以把它想象成一个高度专业化的“语义尺子”，能量化任何文本的含义。而我们接下来要做的，就是用这把尺子，去丈量题库中每一道题目的“语义距离”。

3. 环境准备与Ollama部署

我们使用Ollama来部署和管理模型，它就像大模型版的“应用商店”，让下载和运行模型变得和安装软件一样简单。

3.1 安装Ollama

首先，访问 Ollama 官网 (https://ollama.com)，根据你的操作系统（Windows/macOS/Linux）下载安装包。安装过程就是一路点击“下一步”，非常简单。

安装完成后，打开终端（Windows上是PowerShell或CMD，macOS/Linux上是Terminal），输入以下命令检查是否安装成功：

ollama --version

如果显示了版本号，说明安装成功。

3.2 拉取并运行embeddinggemma-300m

Ollama安装好后，拉取模型就像下载一个软件包。在终端中输入：

ollama run embeddinggemma-300m

第一次运行时会自动从网上下载模型文件（大约几百MB），下载完成后会自动进入交互模式。你可以先简单测试一下，输入一段文字，比如：

请将“今天的天气很好”转换为向量。

你会看到模型返回了一长串数字（向量）。按Ctrl+D退出交互模式。

模型已经在后台作为服务运行了。更常用的方式是，通过Ollama提供的API来调用它。

3.3 验证API服务

Ollama默认会在本地的11434端口启动一个API服务。我们可以用最简单的curl命令来测试一下嵌入功能是否正常。

打开终端，输入以下命令：

curl http://localhost:11434/api/embeddings -d '{ "model": "embeddinggemma-300m", "prompt": "勾股定理是什么？" }'

如果一切正常，你会收到一个JSON格式的响应，其中包含一个很长的"embedding"数组，这就是“勾股定理是什么？”这个句子的语义向量。

至此，你的本地嵌入模型服务就已经就绪了！接下来，我们进入实战环节。

4. 实战一：题库语义去重

假设我们有一个questions.txt文件，里面存储了成千上万道题目，每行一道。我们的目标是找出其中语义重复的题目。

4.1 核心步骤解析

整个过程分为四步：

读取题库：从文件加载所有题目。
批量生成向量：调用我们刚部署的embeddinggemma-300m服务，为每一道题生成对应的语义向量。
计算相似度：计算每两道题向量之间的“余弦相似度”。这个值越接近1，说明两道题语义越相似。
筛选与输出：设定一个相似度阈值（比如0.9），找出所有相似度超过阈值且不是同一道题的题目对，它们就是潜在的重复题。

4.2 完整代码实现

下面是一个使用Python实现的完整脚本。你需要先安装requests库（pip install requests）。

import requests import numpy as np from itertools import combinations import json # 配置Ollama API地址和模型 OLLAMA_API = "http://localhost:11434/api" MODEL_NAME = "embeddinggemma-300m" def get_embedding(text): """调用Ollama API获取单条文本的嵌入向量""" try: response = requests.post( f"{OLLAMA_API}/embeddings", json={"model": MODEL_NAME, "prompt": text} ) response.raise_for_status() return response.json()["embedding"] except Exception as e: print(f"获取文本嵌入失败: {e}, 文本: {text[:50]}...") return None def batch_get_embeddings(texts, batch_size=10): """批量获取文本嵌入向量，避免频繁请求""" embeddings = [] for i in range(0, len(texts), batch_size): batch = texts[i:i+batch_size] print(f"正在处理批次 {i//batch_size + 1}/{(len(texts)-1)//batch_size + 1}") batch_embeddings = [] for text in batch: emb = get_embedding(text) if emb is not None: batch_embeddings.append(emb) else: # 如果某条失败，用一个零向量占位（后续可过滤） batch_embeddings.append([0]*768) # 假设维度是768 embeddings.extend(batch_embeddings) return np.array(embeddings) def cosine_similarity(vec_a, vec_b): """计算两个向量的余弦相似度""" dot_product = np.dot(vec_a, vec_b) norm_a = np.linalg.norm(vec_a) norm_b = np.linalg.norm(vec_b) if norm_a == 0 or norm_b == 0: return 0 return dot_product / (norm_a * norm_b) def find_similar_questions(questions, threshold=0.85): """ 主函数：找出语义相似的题目对 :param questions: 题目列表 :param threshold: 相似度阈值，大于此值则认为重复 """ print(f"开始处理 {len(questions)} 道题目...") # 1. 批量生成向量 print("步骤1/3: 生成题目语义向量...") embeddings = batch_get_embeddings(questions) # 2. 计算相似度 print("步骤2/3: 计算题目间相似度...") similar_pairs = [] n = len(questions) # 使用组合，避免重复计算 (i, j) 和 (j, i) for i, j in combinations(range(n), 2): sim = cosine_similarity(embeddings[i], embeddings[j]) if sim > threshold: similar_pairs.append((i, j, sim)) # 3. 输出结果 print("步骤3/3: 生成去重报告...") print(f"\n=== 发现 {len(similar_pairs)} 对潜在重复题目 (阈值={threshold}) ===") for idx, (i, j, sim) in enumerate(similar_pairs[:20], 1): # 只显示前20对 print(f"\n【重复对 {idx}】相似度: {sim:.4f}") print(f" 题目A[{i}]: {questions[i][:100]}...") print(f" 题目B[{j}]: {questions[j][:100]}...") if len(similar_pairs) > 20: print(f"\n... 以及另外 {len(similar_pairs)-20} 对重复题目。") # 可选：将结果保存到文件 result = { "threshold": threshold, "total_questions": n, "similar_pairs": [ {"idx_a": i, "idx_b": j, "similarity": float(sim), "question_a": questions[i], "question_b": questions[j]} for i, j, sim in similar_pairs ] } with open("duplicate_questions.json", "w", encoding="utf-8") as f: json.dump(result, f, ensure_ascii=False, indent=2) print(f"\n详细结果已保存至: duplicate_questions.json") # 示例：从文件读取题库 if __name__ == "__main__": # 假设你的题目存储在一个文本文件中，每行一题 with open("questions.txt", "r", encoding="utf-8") as f: all_questions = [line.strip() for line in f if line.strip()] # 可以先测试一个小样本 sample_questions = all_questions[:50] # 先用前50题测试 print(f"加载了 {len(sample_questions)} 道题目进行测试。") # 运行去重分析，阈值可以根据效果调整 find_similar_questions(sample_questions, threshold=0.88)

4.3 运行效果与解读

运行上面的脚本，你会得到类似下面的输出：

开始处理 50 道题目... 步骤1/3: 生成题目语义向量... 正在处理批次 1/5... ... 步骤2/3: 计算题目间相似度... 步骤3/3: 生成去重报告... === 发现 3 对潜在重复题目 (阈值=0.88) === 【重复对 1】相似度: 0.9567 题目A[12]: 一个长方形长8米，宽5米，求它的面积是多少平方米？ 题目B[35]: 一块土地长8m，宽5m，请问面积是多少？ 【重复对 2】相似度: 0.9231 题目A[7]: 《静夜思》的作者是谁？ 题目B[41]: 请问“床前明月光”这首诗是哪位诗人写的？ 【重复对 3】相似度: 0.9012 题目A[22]: 简述牛顿第一定律的内容。 题目B[49]: 请解释惯性定律。

看，效果立竿见影！模型成功识别出了：

两道数学题，尽管单位表述（“米” vs “m”）和句式不同，但核心语义（计算长8宽5的长方形面积）高度一致。
两道语文题，一个问作者，一个问诗人，指向的都是李白和他的《静夜思》。
两道物理题，“牛顿第一定律”就是“惯性定律”，模型也准确识别了。

有了这份报告，教研老师就可以快速审核并清理这些重复题目，极大提升题库的纯净度。

5. 实战二：基于错题的智能推荐

去重是“节流”，而推荐则是“开源”。如何利用已有的题目资源，为学生提供个性化的学习路径？我们可以基于学生的错题，推荐语义相近的练习题，帮助他巩固薄弱知识点。

5.1 推荐系统原理

思路很简单：

当学生做错一道题时，我们获取这道题的语义向量。
在题库中，计算错题向量与题库中其他题目向量的相似度。
排除学生已经做过的题目，将相似度最高（且超过一定阈值）的几道题推荐给他。

这相当于一个“查漏补缺”的智能家教，总能找到和你错题最匹配的练习。

5.2 代码实现：错题推荐引擎

我们假设已经有一个所有题目的向量数据库（避免每次实时计算）。在实际应用中，你可以定期为整个题库预计算向量并存储起来。

import numpy as np import json from typing import List, Tuple class QuestionRecommender: def __init__(self, question_vectors_path="question_vectors.npy", question_texts_path="questions.txt"): """ 初始化推荐器，加载预计算的题目向量和文本 """ # 加载所有题目的向量 (假设已预计算并保存为numpy数组) self.all_vectors = np.load(question_vectors_path) # 形状: [题目数量, 向量维度] # 加载所有题目的文本 with open(question_texts_path, "r", encoding="utf-8") as f: self.all_questions = [line.strip() for line in f] assert len(self.all_vectors) == len(self.all_questions), "向量与题目数量不匹配！" print(f"推荐器加载成功，题库共 {len(self.all_questions)} 道题。") def recommend(self, wrong_question_vector: List[float], done_question_indices: List[int], top_k=5, min_similarity=0.75): """ 根据错题向量推荐相似题目 :param wrong_question_vector: 错题的语义向量 :param done_question_indices: 学生已经做过的题目索引列表 :param top_k: 推荐题目数量 :param min_similarity: 最低相似度要求 :return: 推荐的(题目索引, 相似度, 题目文本)列表 """ wrong_vec = np.array(wrong_question_vector) # 计算与题库中所有题目的余弦相似度 similarities = [] for idx, vec in enumerate(self.all_vectors): # 跳过已经做过的题 if idx in done_question_indices: continue sim = cosine_similarity(wrong_vec, vec) similarities.append((idx, sim)) # 按相似度降序排序，并过滤低于阈值的 similarities.sort(key=lambda x: x[1], reverse=True) recommendations = [(idx, sim) for idx, sim in similarities if sim >= min_similarity] # 取前top_k个 top_recommendations = recommendations[:top_k] # 组装结果 result = [] for idx, sim in top_recommendations: result.append({ "question_index": idx, "similarity": float(sim), "question_text": self.all_questions[idx][:150] + ("..." if len(self.all_questions[idx]) > 150 else "") }) return result # 假设我们有一个预计算好的向量文件，如果没有，可以先运行下面的预计算脚本 def precompute_all_vectors(questions_file="questions.txt", output_file="question_vectors.npy"): """预计算整个题库的向量并保存，这是一次性开销""" from . import batch_get_embeddings # 复用之前的函数 with open(questions_file, "r", encoding="utf-8") as f: all_qs = [line.strip() for line in f if line.strip()] print(f"开始预计算 {len(all_qs)} 道题的向量...") all_embeddings = batch_get_embeddings(all_qs) np.save(output_file, all_embeddings) print(f"向量已保存至 {output_file}") return all_embeddings # 使用示例 if __name__ == "__main__": # 先预计算向量（第一次运行时需要） # precompute_all_vectors("questions.txt") # 初始化推荐器 recommender = QuestionRecommender("question_vectors.npy", "questions.txt") # 模拟一个学生错题：他做错了第15题（索引从0开始） wrong_question_index = 15 # 获取错题的向量（这里从预加载的向量中取） wrong_q_vector = recommender.all_vectors[wrong_question_index] wrong_q_text = recommender.all_questions[wrong_question_index] print(f"学生错题: {wrong_q_text}") # 假设这个学生已经做过第0, 1, 15, 20题 done_indices = [0, 1, 15, 20] # 获取推荐 recs = recommender.recommend(wrong_q_vector, done_indices, top_k=3, min_similarity=0.8) print(f"\n为您推荐以下 {len(recs)} 道巩固练习题：") for i, rec in enumerate(recs, 1): print(f"\n推荐{i}: [相似度 {rec['similarity']:.3f}]") print(f" 题目: {rec['question_text']}")

5.3 场景演示

运行推荐引擎，你可能会看到：

推荐器加载成功，题库共 1000 道题。 学生错题: 求解一元二次方程 x^2 - 5x + 6 = 0 的根。 为您推荐以下 3 道巩固练习题： 推荐1: [相似度 0.942] 题目: 解方程：x^2 - 3x + 2 = 0。 推荐2: [相似度 0.887] 题目: 已知方程 x^2 + 4x + 3 = 0，请求出它的两个解。 推荐3: [相似度 0.821] 题目: 因式分解法解方程：x^2 - 7x + 12 = 0。

系统准确地推荐了其他一元二次方程求解题，帮助学生针对“解方程”这个薄弱点进行集中练习。这种个性化推荐，远比让学生盲目刷题要高效得多。