当前位置：首页 > news >正文

GTE中文语义相似度计算实战：新闻标题去重系统构建

news 2026/7/5 19:59:56

GTE中文语义相似度计算实战：新闻标题去重系统构建

1. 引言

1.1 业务场景描述

在新闻聚合、内容推荐和信息检索系统中，海量文本数据的重复问题严重影响用户体验与系统效率。尤其在新闻平台中，同一事件常被多个媒体以略微不同的表述方式发布，形成大量语义相近但字面不完全相同的“类重复”标题。传统的基于关键词匹配或编辑距离的方法难以有效识别这类语义层面的相似性。

为解决这一问题，构建一个高精度、低延迟、可落地的中文语义相似度计算系统成为关键。本文将围绕GTE（General Text Embedding）中文向量模型，详细介绍如何搭建一套完整的新闻标题去重系统，涵盖语义向量化、相似度计算、Web可视化界面集成及轻量级部署方案。

1.2 痛点分析

现有去重方法面临以下挑战：

字面匹配失效：如“中国队夺冠” vs “中国代表队赢得冠军”，词汇不同但语义一致。
规则系统维护成本高：依赖人工设定阈值和规则，泛化能力差。
深度模型部署复杂：多数BERT类模型对GPU依赖强，CPU推理慢，不适合边缘或资源受限环境。

1.3 方案预告

本文提出的解决方案具备以下特点：

基于达摩院开源的GTE-Base 中文模型，专为中文语义理解优化；
集成 Flask 构建的 WebUI 可视化仪表盘，支持实时交互式相似度测试；
提供 RESTful API 接口，便于集成到新闻处理流水线；
全流程适配 CPU 运行，启动快、内存占用低，适合轻量级部署。

通过本实践，读者可快速构建一个可用于生产环境的语义去重模块。

2. 技术方案选型

2.1 模型选型：为何选择 GTE？

在众多中文 embedding 模型中，GTE 因其在 C-MTEB（Chinese Massive Text Embedding Benchmark）榜单上的优异表现脱颖而出。以下是 GTE 相较于其他主流模型的核心优势对比：

模型	中文性能	推理速度（CPU）	显存需求	是否支持长文本
BERT-Whitening	一般	快	低	否
SimCSE-BERT	较好	中等	中	否
ERNIE-Embedding	好	慢	高（需GPU）	是
GTE-Base	优秀	快（优化后）	低（CPU友好）	是

结论：GTE 在保持高语义表征能力的同时，具备良好的推理效率和硬件兼容性，非常适合用于新闻标题这类短文本的批量去重任务。

2.2 架构设计：系统整体结构

系统采用分层架构设计，确保模块解耦、易于扩展：

+------------------+ +---------------------+ | 用户输入 | --> | Flask Web Server | | (句子A / 句子B) | | - 路由控制 | +------------------+ | - 参数校验 | +----------+----------+ | +---------------v------------------+ | GTE 文本向量化引擎 | | - Tokenization | | - 向量生成 (sentence_embedding) | +----------------+-----------------+ | +----------------v------------------+ | 余弦相似度计算器 | | - 计算 cos(A, B) | | - 输出 [0, 1] 区间得分 | +----------------+-----------------+ | +----------------v------------------+ | 结果展示层 | | - WebUI 动态仪表盘 | | - JSON API 返回 | +-----------------------------------+

该架构支持两种使用模式：

交互式使用：通过 WebUI 手动输入并查看结果；
自动化集成：调用/api/similarity接口实现批处理。

3. 实现步骤详解

3.1 环境准备

本项目已封装为 CSDN 星图镜像，用户无需手动配置依赖。若需本地部署，请执行以下命令：

# 创建虚拟环境 python -m venv gte_env source gte_env/bin/activate # Linux/Mac # activate gte_env # Windows # 安装核心依赖 pip install torch==1.13.1+cpu -f https://download.pytorch.org/whl/torch_stable.html pip install transformers==4.35.2 pip install flask scikit-learn numpy

注意：必须锁定transformers==4.35.2版本，避免因 HuggingFace API 变更导致输入格式报错。

3.2 核心代码解析

3.2.1 GTE 模型加载与向量化

# embedding.py from transformers import AutoTokenizer, AutoModel import torch import numpy as np class GTEEmbedder: def __init__(self, model_path="thenlper/gte-base-zh"): self.tokenizer = AutoTokenizer.from_pretrained(model_path) self.model = AutoModel.from_pretrained(model_path) self.model.eval() # 关闭训练模式 def encode(self, texts): """ 将文本列表转换为768维向量 :param texts: str 或 List[str] :return: numpy array of shape (n, 768) """ if isinstance(texts, str): texts = [texts] encoded_input = self.tokenizer( texts, padding=True, truncation=True, max_length=512, return_tensors='pt' ) with torch.no_grad(): model_output = self.model(**encoded_input) # 使用 [CLS] token 的池化输出 sentence_embeddings = model_output[0][:, 0] # 归一化向量（便于后续余弦计算） sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1) return sentence_embeddings.numpy()

代码说明：

使用AutoModel加载预训练 GTE 模型；
对[CLS]向量进行 L2 归一化，使得余弦相似度可直接通过点积计算；
支持批量输入，提升处理效率。

3.2.2 余弦相似度计算

# utils.py from sklearn.metrics.pairwise import cosine_similarity def calculate_similarity(vec_a, vec_b): """ 计算两个向量间的余弦相似度 :param vec_a: numpy array (1, 768) :param vec_b: numpy array (1, 768) :return: float in [0, 1] """ sim = cosine_similarity(vec_a, vec_b)[0][0] return float(sim) # 转为 Python 原生类型以便 JSON 序列化

3.2.3 Flask Web 服务与 API 接口

# app.py from flask import Flask, request, jsonify, render_template from embedding import GTEEmbedder from utils import calculate_similarity app = Flask(__name__) embedder = GTEEmbedder() @app.route("/") def index(): return render_template("index.html") # 包含输入表单和仪表盘 @app.route("/api/similarity", methods=["POST"]) def api_similarity(): data = request.get_json() text_a = data.get("text_a", "") text_b = data.get("text_b", "") if not text_a or not text_b: return jsonify({"error": "Missing text_a or text_b"}), 400 try: vec_a = embedder.encode([text_a]) vec_b = embedder.encode([text_b]) score = calculate_similarity(vec_a, vec_b) # 转换为百分比并保留一位小数 percentage = round(score * 100, 1) return jsonify({ "text_a": text_a, "text_b": text_b, "similarity_score": score, "similarity_percent": f"{percentage}%" }) except Exception as e: return jsonify({"error": str(e)}), 500 @app.route("/compute", methods=["GET"]) def compute_page(): return render_template("compute.html")

3.2.4 前端动态仪表盘（HTML + JavaScript）

前端使用 Chart.js 实现动态旋转仪表效果，增强可视化体验：

<!-- templates/compute.html --> <canvas id="gaugeChart" width="200" height="100"></canvas> <button onclick="calculate()">计算相似度</button> <script src="https://cdn.jsdelivr.net/npm/chart.js"></script> <script> let gaugeChart; function initGauge() { const ctx = document.getElementById('gaugeChart').getContext('2d'); gaugeChart = new Chart(ctx, { type: 'doughnut', data: { datasets: [{ data: [100], backgroundColor: ['#e0e0e0'] }] }, options: { circumference: 180, rotation: 270, cutout: '70%', animation: { duration: 1000 } } }); } async function calculate() { const textA = document.getElementById("textA").value; const textB = document.getElementById("textB").value; const res = await fetch("/api/similarity", { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({ text_a: textA, text_b: textB }) }); const result = await res.json(); const percent = parseFloat(result.similarity_percent); // 更新图表 gaugeChart.data.datasets[0].data = [percent, 100 - percent]; gaugeChart.data.datasets[0].backgroundColor = [ percent > 80 ? '#4caf50' : percent > 60 ? '#ff9800' : '#f44336', '#e0e0e0' ]; gaugeChart.update(); alert(`语义相似度：${result.similarity_percent}`); } window.onload = initGauge; </script>

3.3 实践问题与优化

问题1：模型首次加载缓慢

现象：初次加载 GTE 模型耗时约 10-15 秒。

解决方案：

启动时异步加载模型，避免阻塞主线程；
使用torch.jit.trace对模型进行脚本化编译，提升后续推理速度。

问题2：长文本截断影响精度

现象：超过 512 token 的文本被截断，导致信息丢失。

优化策略：

对新闻标题通常不超过 50 字，无需特殊处理；
若用于正文比较，可采用滑动窗口平均池化策略融合多段向量。

问题3：API 并发性能瓶颈

现象：多用户同时请求时响应延迟上升。

改进措施：

使用 Gunicorn 多工作进程部署；
添加 Redis 缓存层，缓存高频查询结果（如热点新闻标题对）。

4. 新闻标题去重系统应用示例

4.1 批量去重流程设计

将上述服务嵌入新闻采集系统的 ETL 流程中：

# deduplication_pipeline.py def batch_deduplicate(titles: list, threshold=0.85): """ 批量去重主逻辑 :param titles: 新闻标题列表 :param threshold: 相似度阈值 :return: 去重后的标题索引列表 """ embedder = GTEEmbedder() vectors = embedder.encode(titles) keep_indices = [] for i, title in enumerate(titles): is_duplicate = False for j in keep_indices: sim = calculate_similarity(vectors[i:i+1], vectors[j:j+1]) if sim >= threshold: is_duplicate = True break if not is_duplicate: keep_indices.append(i) return [titles[i] for i in keep_indices]