当前位置：首页 > news >正文

基于EmbeddingGemma-300m的智能邮件分类系统

news 2026/3/26 18:29:16

基于EmbeddingGemma-300m的智能邮件分类系统

每天处理上百封邮件，是不是感觉头都大了？销售线索、客户咨询、技术支持、内部通知……各种邮件混在一起，手动分类不仅耗时费力，还容易出错。传统的邮件分类方法，要么依赖简单的关键词匹配，要么需要复杂的规则配置，对于主题模糊、内容简短的邮件，效果往往不尽如人意。

比如，一封标题是“关于那个问题”的邮件，内容只有“请查收附件”，传统方法根本无从下手。但如果是人来处理，结合上下文和常识，可能很快就能判断出这是技术部门发来的问题反馈。

今天要分享的，就是我们团队最近落地的一个智能邮件分类方案。核心思路很简单：用EmbeddingGemma-300m理解邮件的“意思”，而不是死板地匹配关键词。再结合一些传统规则作为补充，形成一个既聪明又可靠的分类系统。实测下来，分类准确率提升了近30%，处理速度也快了不少。

1. 为什么传统邮件分类方法不够用了？

在深入技术方案之前，我们先看看企业邮件分类到底难在哪里。理解了痛点，才能明白新方案的价值。

第一，邮件主题和内容太“短”了。商务邮件往往言简意赅，不像文章或报告那样有丰富的上下文。一句“合同已发，请审阅”，传统的关键词方法可能因为缺少“采购”、“协议”等词而无法准确归类到“合同”类别。

第二，表达方式千差万别。同一个意思，不同的人、不同的场景会用完全不同的说法。比如“催款”，有人写“请尽快安排付款”，有人写“尾款何时能结？”，还有人直接发个“？”加一个发票附件。规则列表永远列不完。

第三，新业务、新词汇不断出现。公司今天上线了一个新项目叫“星海计划”，明天相关的邮件就来了。靠人工去更新规则库，永远慢半拍。

我们之前试过基于TF-IDF或简单词向量的方法，效果时好时坏。也看过一些用大型Embedding模型的方案，但要么对计算资源要求太高，部署成本大；要么响应速度慢，影响用户体验。

直到遇到了EmbeddingGemma-300m。这个模型只有3亿参数，在同类尺寸中效果拔尖，最关键的是，它足够轻量，可以在普通的服务器甚至本地环境流畅运行。用它来提取邮件的语义向量，再通过向量相似度来判断邮件类别，思路一下子就通了。

2. 认识我们的核心武器：EmbeddingGemma-300m

EmbeddingGemma是Google基于Gemma 3技术打造的一个开源文本嵌入模型。别看它只有300M参数，在多项标准测试中，它的表现超过了同尺寸的许多其他模型。

它就像一个高效的语言理解器，能把任何一段文本（比如一封邮件）转换成一个768维的数学向量（一组数字）。这个向量的神奇之处在于：语义相似的文本，它们的向量在空间里的“距离”就很近；语义不同的文本，向量“距离”就远。

举个例子：

邮件A：“服务器宕机了，急需处理！”
邮件B：“系统无法访问，请技术部支援。”
邮件C：“本月财务报表已发，请查收。”

用EmbeddingGemma处理后，邮件A和邮件B的向量会非常接近（都属于“技术故障”），而它们和邮件C的向量则会相距甚远（“财务”类）。

对于邮件分类这个任务，我们不需要模型生成文字，只需要它产出高质量、能区分语义的向量。EmbeddingGemma正好擅长这个，而且它支持超过100种语言，对于跨国公司的多语言邮件环境也很有用。

它的轻量级特性（模型文件约600MB）让我们可以轻松地把它部署在现有的邮件服务器上，无需添置昂贵的GPU卡，用CPU也能获得不错的推理速度，这对控制成本来说太重要了。

3. 混合分类系统设计：语义为主，规则为辅

单纯依赖语义模型行不行？理论上可以，但实践中我们发现，对于一些非常明确、固定的模式，规则方法更快、更准。所以我们的最终方案是一个混合系统。

整个系统的工作流程，我画了个简单的示意图，你可以先有个直观感受：

收到新邮件 │ ▼ [规则过滤器] │ —— 匹配到明确规则？ ——→ 按规则分类 │ ▼ [语义理解核心] ├── 提取邮件正文+主题 ├── 调用EmbeddingGemma生成向量 └── 与预设类别向量库计算相似度 │ ▼ [分类决策] ├── 最高相似度 > 阈值？ ——→ 归入对应类别 └── 否则 ——→ 标记为“待处理”，转入人工审核队列 │ ▼ 分类完成 → 自动打标签/路由到对应文件夹或负责人

规则过滤器（守门员）：这一层处理那些“显而易见”的邮件。比如，发件人邮箱是noreply@invoice.system.com的，大概率是系统发票，直接归入“财务-发票”类。或者邮件标题里有【紧急故障】这种固定前缀的，直接划为“技术-紧急”。这步处理速度极快，能分流掉大约20%-30%的邮件。

语义理解核心（主力军）：剩下的邮件进入主流程。系统会拼接邮件的主题和正文，送给EmbeddingGemma模型。模型会输出一个代表这封邮件“意思”的768维向量。

分类决策（裁判）：我们事先已经用各类别的标准描述（如“咨询产品价格和功能”、“报告软件程序错误”、“申请休假审批”等），让EmbeddingGemma生成了每个类别的“标准向量”，存成一个向量库。新邮件的向量会与库里的每一个标准向量计算余弦相似度（一个0到1之间的值，越接近1越相似）。找出相似度最高的那个类别，如果这个最高值超过我们设定的阈值（比如0.75），就判定属于该类；否则，说明模型也没把握，就交给人工处理。

这个“语义+规则”的混合架构，既利用了AI对模糊语义的理解能力，又保留了规则系统的确定性和高效率，实际运行起来非常稳健。

4. 一步步搭建你的智能邮件分类器

理论说完了，我们来看看具体怎么实现。这里我以Python为例，假设你已经有一个能获取到邮件内容的Python环境。

4.1 第一步：准备环境和模型

首先，你需要安装Ollama。它是运行EmbeddingGemma等模型最简单的方式之一，一条命令就能搞定模型下载和管理。

# 安装Ollama，具体命令请参考官网对应你系统的安装方式 # 例如在Linux/macOS上： curl -fsSL https://ollama.ai/install.sh | sh # 拉取EmbeddingGemma-300m模型 ollama pull embeddinggemma:300m

拉取成功后，模型就准备好了。Ollama会启动一个本地的API服务（默认在11434端口），我们的程序通过HTTP请求调用它。

4.2 第二步：构建类别向量库（一次性的准备工作）

在分类之前，我们需要定义好邮件有哪些类别，并为每个类别创建一个有代表性的“标准描述”，然后用模型把这些描述变成向量存起来。

import requests import json import numpy as np from typing import List, Dict OLLAMA_API_URL = "http://localhost:11434/api/embed" def get_embedding(text: str, model: str = "embeddinggemma:300m") -> List[float]: """调用Ollama API获取单条文本的嵌入向量""" payload = { "model": model, "input": text } try: response = requests.post(OLLAMA_API_URL, json=payload, timeout=30) response.raise_for_status() result = response.json() # 返回的embeddings是一个列表，里面包含一个向量 return result["embeddings"][0] except requests.exceptions.RequestException as e: print(f"获取嵌入向量失败: {e}") return None # 定义你的邮件类别和对应的标准描述 # 描述要尽量准确、全面地概括该类邮件的核心内容 category_descriptions = { "sales_lead": "咨询产品信息、询价、请求报价、表达购买意向、询问销售联系方式。", "customer_support": "报告产品问题、使用故障、请求技术支持、投诉服务质量、寻求使用帮助。", "finance_invoice": "发送账单、发票、付款通知、催款、核对交易金额、处理报销事宜。", "internal_hr": "请假申请、休假审批、入职离职流程、薪资福利咨询、内部培训通知。", "tech_emergency": "服务器宕机、系统崩溃、网络中断、安全漏洞、影响业务运行的紧急故障报告。", "marketing_news": "产品更新公告、市场活动邀请、促销信息、新闻稿、行业白皮书分享。" } # 为每个类别生成标准向量，并保存起来 category_vectors = {} for category, description in category_descriptions.items(): print(f"正在生成类别 '{category}' 的向量...") vector = get_embedding(description) if vector: category_vectors[category] = vector print(f" 完成，向量维度: {len(vector)}") else: print(f" 生成失败，跳过类别: {category}") # 将向量库保存到文件，以后直接加载即可，无需重复生成 import pickle with open('category_vectors.pkl', 'wb') as f: pickle.dump(category_vectors, f) print("类别向量库构建完成并已保存。")

4.3 第三步：实现混合分类逻辑

现在，我们可以编写核心的分类函数了。它会先走规则过滤，再走语义匹配。

import re from numpy.linalg import norm import pickle # 加载之前保存的类别向量库 with open('category_vectors.pkl', 'rb') as f: category_vectors = pickle.load(f) def rule_based_filter(email_subject: str, email_from: str) -> str: """基于规则的初步分类过滤器""" subject_lower = email_subject.lower() from_lower = email_from.lower() # 规则1：发件人规则 if 'invoice' in from_lower or 'billing' in from_lower: return 'finance_invoice' if 'noreply' in from_lower and 'alert' in from_lower: return 'tech_emergency' # 假设告警系统发件人 # 规则2：关键词/模式规则 urgent_patterns = [r'\[紧急\]', r'\[urgent\]', r'紧急通知', r'宕机', r'故障'] for pattern in urgent_patterns: if re.search(pattern, email_subject, re.IGNORECASE): return 'tech_emergency' if any(word in subject_lower for word in ['报价', '询价', 'price', 'quote']): return 'sales_lead' if any(word in subject_lower for word in ['请假', '休假', 'leave', 'vacation']): return 'internal_hr' # 没有匹配到任何规则 return None def semantic_classify(email_text: str, threshold: float = 0.75) -> Dict: """基于语义向量的分类""" # 获取邮件内容的向量 email_vector = get_embedding(email_text) if not email_vector: return {"category": "error", "confidence": 0.0, "reason": "Failed to get embedding"} best_category = None best_similarity = -1 # 计算与每个类别向量的余弦相似度 for category, cat_vector in category_vectors.items(): # 余弦相似度计算 dot_product = np.dot(email_vector, cat_vector) norm_email = norm(email_vector) norm_cat = norm(cat_vector) if norm_email == 0 or norm_cat == 0: similarity = 0 else: similarity = dot_product / (norm_email * norm_cat) if similarity > best_similarity: best_similarity = similarity best_category = category # 根据阈值判断 if best_similarity >= threshold: return { "category": best_category, "confidence": best_similarity, "reason": "semantic_match" } else: return { "category": "needs_review", "confidence": best_similarity, "reason": f"Similarity ({best_similarity:.3f}) below threshold ({threshold})" } def hybrid_classify_email(email_subject: str, email_from: str, email_body: str) -> Dict: """混合分类主函数""" # 1. 规则过滤 rule_result = rule_based_filter(email_subject, email_from) if rule_result: return { "category": rule_result, "confidence": 1.0, # 规则匹配我们给予最高置信度 "reason": "rule_match" } # 2. 语义分类 # 将主题和正文组合成一段文本用于语义理解 combined_text = f"主题：{email_subject}\n\n正文：{email_body}" return semantic_classify(combined_text) # 模拟一封邮件进行分类测试 if __name__ == "__main__": test_subject = "服务器无法连接，请紧急处理！" test_from = "tech-team@company.com" test_body = "从下午3点开始，主业务服务器无法SSH连接，Web服务也中断，请立即排查。" result = hybrid_classify_email(test_subject, test_from, test_body) print("分类结果:", json.dumps(result, indent=2, ensure_ascii=False))

运行上面的测试代码，你会看到这封“紧急故障”邮件被成功分类。你可以多换几封不同内容的测试邮件，看看系统的判断是否合理。

5. 实际效果与优化经验

这个系统在我们内部试运行了两个月，处理了上万封历史邮件和实时邮件。说几个大家可能关心的实际效果：

准确率：在测试集上，纯语义模型的准确率大约在85%左右。加入规则过滤后，整体准确率提升到了92%。最重要的是，对于那些规则无法处理的、语义模糊的邮件，模型依然能保持80%以上的正确率。

速度：在一台普通的云服务器（4核CPU，8GB内存）上，处理单封邮件的平均时间在1-2秒左右。这包括了网络请求、模型推理和向量计算的全部时间。对于批量邮件，Ollama支持批量推理，速度会快很多。

一些踩过的坑和优化点：

类别描述很重要：最开始我们只是简单地写了“销售”、“客服”这样的词，效果不好。后来改成现在这种“一句话描述典型场景”的方式，生成的类别向量更具区分度。你可以把它想象成在教模型：长成这样的邮件，就叫这个名儿。
阈值需要调优：相似度阈值不是固定的0.75。我们根据业务对准确率和召回率的要求做了调整。如果希望尽可能少出错（高准确率），可以把阈值调高，比如0.8，这样只有模型非常确定的邮件才会自动分类，更多的邮件会进入人工审核。如果希望自动化程度高（高召回率），可以调低阈值，比如0.65，但可能会增加一些误分类。
处理长邮件：EmbeddingGemma的上下文长度是2048个token。对于超长的邮件，直接截断可能会丢失关键信息。我们的做法是，如果邮件过长，先尝试提取前一部分（如开头段）和最后一部分（如结论或请求），拼接后再送进模型，效果比简单截断好。
冷启动问题：对于全新的业务类别，向量库里没有对应的标准向量怎么办？我们的临时方案是，先用人工分类一批（比如20封）该类别邮件，用它们的向量平均值作为临时的“标准向量”，先让系统跑起来，后续再慢慢优化。