当前位置：首页 > news >正文

快速集成文本相似度API：从零开始实现语义匹配

news 2026/7/6 4:27:23

为什么需要文本相似度 API

在当今信息爆炸的时代，重复内容、近似文案、语义相同的表达无处不在。无论是内容去重、搜索引擎排序、智能客服问答匹配，还是论文查重、商品标题归一化，都需要一种高效、准确的方法来衡量两段文本之间的相似程度。传统的编辑距离（Levenshtein Distance）或基于关键词的 Jaccard 系数无法捕捉语义层面的相关性，而训练一个 BERT 模型对于绝大多数团队来说成本过高。此时，使用成熟的文本相似度 API 是最优解：无需搭建模型，只需发送 HTTP 请求即可获得可靠的相似度分数。

ApiZero 文本相似度 API 概述

ApiZero（极数本源）是一个聚合 API 工具集市，覆盖天气、IP、翻译、AI 等数百个高质量接口。其提供的文本相似度 API能够基于深度学习模型计算两段文本的语义相似度，返回 0~1 之间的分数（值越大越相似）。该 API 支持中文、英文等常见语言，响应迅速，非常适合在业务系统中快速集成。

接口调用方式

基础信息

请求 URL：https://api.apizero.cn/text-similarity/v1/compare（示例，实际以官方文档为准）
请求方法：POST
认证方式：API Key（需在平台注册后获取）
请求格式：application/json
响应格式：application/json

请求参数

参数名	类型	必填	说明
`text1`	string	是	第一段待比较文本，长度建议不超过 1024 字符
`text2`	string	是	第二段待比较文本
`model`	string	否	模型选择，默认为`'bert-base-chinese'`，可选`'sentence-transformers'`等
`threshold`	float	否	响应中是否附带是否超过阈值的布尔标记，例如`0.7`

响应结构

成功响应示例：

{ "status": 0, "message": "success", "data": { "similarity_score": 0.96, "is_above_threshold": true, "model": "bert-base-chinese", "elapsed_ms": 152 } }

status：0 表示成功，非 0 表示错误码。
message：状态描述信息。
similarity_score：0~1 的浮点数，越接近 1 表示语义越相似。
is_above_threshold：当请求中传入了threshold时才存在，便于直接做条件判断。
elapsed_ms：服务端处理耗时（毫秒）。

Python 代码调用示例

以下是一个完整的 Python 脚本，使用requests库调用该 API。

import requests import json # 配置你自己的 API Key（从 ApiZero 控制台获取） API_KEY = "your_api_key_here" URL = "https://api.apizero.cn/text-similarity/v1/compare" def text_similarity(text1: str, text2: str, model: str = "bert-base-chinese", threshold: float = None): """ 调用文本相似度 API :param text1: 第一段文本 :param text2: 第二段文本 :param model: 模型名称 :param threshold: 可选阈值，若提供则响应包含 is_above_threshold :return: 解析后的 JSON 字典，或 None（出错时） """ headers = { "Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json" } payload = { "text1": text1, "text2": text2, "model": model } if threshold is not None: payload["threshold"] = threshold try: response = requests.post(URL, headers=headers, json=payload, timeout=10) response.raise_for_status() # 非 2xx 状态码抛出异常 return response.json() except requests.exceptions.RequestException as e: print(f"请求失败: {e}") return None # 使用示例 if __name__ == "__main__": t1 = "今天天气真不错，适合出去钓鱼。" t2 = "今天阳光明媚，非常适合户外钓鱼活动。" result = text_similarity(t1, t2, threshold=0.8) if result and result["status"] == 0: score = result["data"]["similarity_score"] above = result["data"]["is_above_threshold"] elapsed = result["data"]["elapsed_ms"] print(f"相似度分数: {score}") print(f"是否超过阈值(0.8): {above}") print(f"处理耗时: {elapsed}ms") else: print("调用失败")

注意：运行前请安装requests库：pip install requests。API Key 请妥善保管，不要硬编码在公开仓库中，建议使用环境变量。

错误处理与常见问题

错误码说明

错误码	含义	处理建议
1001	API Key 无效或缺失	检查请求头中的 Authorization 字段是否正确
1002	请求参数错误	确认 text1、text2 不为空且为字符串
1003	模型名称不支持	使用`model`参数在 [‘bert-base-chinese’, ‘sentence-transformers’] 中取值
2001	服务端内部错误	重试或联系技术支持