当前位置：首页 > news >正文

StructBERT文本相似度-中文-通用-large入门必看：Gradio服务搭建步骤

news 2026/7/6 20:16:55

StructBERT文本相似度-中文-通用-large入门必看：Gradio服务搭建步骤

1. 快速了解StructBERT文本相似度模型

StructBERT中文文本相似度模型是一个专门用于中文文本相似度计算的强大工具。它基于structbert-large-chinese预训练模型，经过大量中文文本数据的训练和优化。

这个模型使用了多个高质量的中文数据集进行训练，包括BQ_Corpus、chineseSTS、LCQMC等，总共包含了52.5万条训练数据。这些数据覆盖了各种中文文本场景，确保了模型在实际应用中的准确性和稳定性。

模型的核心能力：

准确计算两个中文文本的相似度
支持长文本和短文本的相似度比较
能够理解中文语义的细微差别
输出0-1之间的相似度分数，直观易懂

无论你是要比较两段文章的相似度，还是判断两个句子的意思是否相近，这个模型都能提供专业级的准确结果。

2. 环境准备与快速安装

在开始搭建服务之前，我们需要先准备好运行环境。整个过程非常简单，只需要几个步骤就能完成。

2.1 系统要求

确保你的系统满足以下基本要求：

Python 3.7或更高版本
至少8GB内存（推荐16GB）
足够的磁盘空间存放模型文件
稳定的网络连接用于下载依赖包

2.2 安装必要的库

打开终端或命令行工具，依次执行以下命令：

# 安装核心依赖 pip install sentence-transformers pip install gradio pip install torch # 安装辅助库 pip install numpy pip install pandas

这些库的作用分别是：

sentence-transformers: 提供文本嵌入和相似度计算功能
gradio: 用于构建友好的Web界面
torch: 深度学习框架支撑
numpy和pandas: 数据处理和计算支持

安装过程通常需要5-10分钟，具体时间取决于你的网络速度。

3. 构建Gradio文本相似度服务

现在我们来创建核心的服务代码。整个过程分为模型加载和界面构建两个主要部分。

3.1 创建主程序文件

新建一个名为text_similarity_app.py的文件，然后添加以下代码：

from sentence_transformers import SentenceTransformer, util import gradio as gr import torch # 加载预训练模型 model = SentenceTransformer('structbert-large-chinese') def calculate_similarity(text1, text2): """ 计算两个中文文本的相似度 """ try: # 将文本转换为向量表示 embeddings1 = model.encode(text1, convert_to_tensor=True) embeddings2 = model.encode(text2, convert_to_tensor=True) # 计算余弦相似度 cosine_scores = util.cos_sim(embeddings1, embeddings2) similarity = cosine_scores[0][0].item() # 返回百分比形式的相似度 return f"文本相似度: {similarity*100:.2f}%" except Exception as e: return f"计算过程中出现错误: {str(e)}" # 创建Gradio界面 demo = gr.Interface( fn=calculate_similarity, inputs=[ gr.Textbox(label="第一个文本", lines=2, placeholder="请输入第一段中文文本..."), gr.Textbox(label="第二个文本", lines=2, placeholder="请输入第二段中文文本...") ], outputs=gr.Textbox(label="相似度结果"), title="StructBERT中文文本相似度计算", description="输入两段中文文本，计算它们之间的语义相似度", examples=[ ["今天天气真好", "今天的天气非常不错"], ["我喜欢吃苹果", "香蕉是我的最爱"], ["人工智能改变世界", "AI技术正在重塑未来"] ] ) # 启动服务 if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860)

3.2 代码详解

让我们简单了解一下代码的关键部分：

模型加载：

model = SentenceTransformer('structbert-large-chinese')

这行代码会自动下载并加载预训练好的StructBERT模型。第一次运行时会下载模型文件，可能需要一些时间。

相似度计算函数：

def calculate_similarity(text1, text2):

这个函数接收两个文本输入，使用模型将它们转换为向量，然后计算余弦相似度。

Gradio界面配置：我们创建了一个简单的Web界面，包含两个文本输入框和一个结果显示区域。还提供了几个示例文本，方便用户快速体验。

4. 启动和使用服务

完成代码编写后，启动服务非常简单。

4.1 运行服务

在终端中执行：

python text_similarity_app.py

你会看到类似下面的输出：

Running on local URL: http://0.0.0.0:7860

这表示服务已经成功启动，现在你可以在浏览器中访问http://localhost:7860来使用文本相似度计算服务。

4.2 使用演示

打开浏览器访问服务地址后，你会看到一个简洁的界面：

在第一个文本框中输入一段中文文本
在第二个文本框中输入另一段中文文本
点击"Submit"按钮进行计算
查看底部显示的相似度结果

试试这些例子：

"今天的天气很好" vs "今天天气不错" → 应该得到高相似度
"我喜欢编程" vs "我爱吃 pizza" → 应该得到低相似度
"人工智能很强大" vs "AI技术很强" → 应该得到中等相似度

5. 实用技巧和常见问题

5.1 提升使用体验的技巧

处理长文本：

# 如果你需要处理很长的文本，可以添加文本截断 def process_long_text(text, max_length=512): return text[:max_length] if len(text) > max_length else text

批量处理：如果你需要计算多组文本的相似度，可以修改代码支持批量输入：

def batch_similarity(texts1, texts2): embeddings1 = model.encode(texts1, convert_to_tensor=True) embeddings2 = model.encode(texts2, convert_to_tensor=True) cosine_scores = util.cos_sim(embeddings1, embeddings2) return cosine_scores.diagonal().tolist()