当前位置: 首页 > news >正文

【Azure AI Search】 stopword 是什么,为什么它会影响搜索结果?

问题描述

在 Azure AI Search 中搜索 in brief 时,结果数量有时会比预期多很多。仔细查看返回结果文本,会发现有些文档和 brief 的关系很弱,反而只是命中了 in 这类高频词。

image

这不是数据问题,也不是 Azure AI Search 的 bug。关键在于一个很容易被忽略的地方:in 这类词在索引和查询时,到底有没有被当作普通 token 处理。

 

问题解答

1. stopword 是什么

stopword(停用词)是在自然语言中高频出现、但对区分文档贡献较低的词。

英文里常见的 stopword 包括:

a  an  the  in  of  and  to  is  for  with  on  at

这类词不是“永远没有意义”,而是在大多数全文检索场景里区分度较低。

几乎每篇文档都可能含有 intheof,用它们做关键词既不能帮助筛选相关内容,也容易把大量无关文档带进结果。

因此在传统全文检索里,stopword 通常会在索引阶段和查询阶段一起被移除,让搜索结果更聚焦于真正有区分度的词。

 

2. stopword 是否被移除,由 analyzer 决定

Azure AI Search 里,stopword 不是全局开关,而是 analyzer 行为的一部分。

字段建索引时,文本会先被 analyzer 拆成 token,查询时,搜索词也会经过 analyzer。只有两边生成的 token 能对上,才可能命中。

  • 对默认 standard.lucene 来说,英文 stopword 不会像语言 analyzer 那样被自动移除。in brief 会被保留成两个 token:inbrief,都参与倒排索引匹配。因为 in 在几乎所有英文文档里都存在,搜索结果会被大量无关文档拉宽——这不是 bug,是默认 analyzer 本来的行为。
  • 换成 en.microsoft 后,in 会作为英文 stopword 被移除,in brief 的有效 token 只剩 brief。结果通常会更聚焦,但前提是这些 stopword 在业务语义里确实不重要。

所以正确的问题不是"Azure AI Search 是否支持 stopword",而是:当前字段用的是什么 analyzer,它会不会移除 stopword?

 

3. 实验对比(使用Analyze Text API查看结果)

调用Analyze Text API接口:

POST https://<your AI Search name>.search.azure.cn/indexes/<index name>/analyze?api-version=2026-04-01

Body:

# 第一轮
{"text": "in brief","analyzer": "standard.lucene"
}# 结果 -- in 没有被过滤
{"@odata.context": "https://xxxxxxx.search.azure.cn/$metadata#Microsoft.Azure.Search.V2026_04_01.AnalyzeResult","tokens": [{"token": "in","startOffset": 0,"endOffset": 2,"position": 0},{"token": "brief","startOffset": 3,"endOffset": 8,"position": 1}]
}# 第二轮
{"text": "in brief","analyzer": "en.microsoft"
}#结果 -- in 被当作英文 stopword 移除
{"@odata.context": "https://xxxxxxx.search.azure.cn/$metadata#Microsoft.Azure.Search.V2026_04_01.AnalyzeResult","tokens": [{"token": "brief","startOffset": 3,"endOffset": 8,"position": 1}]
}

这个对比能直接说明两种 analyzer 下搜索结果数量不同的原因:最终参与匹配的 token 不一样。

结果对比图:

image

参考资料

停用词:https://learn.microsoft.com/zh-cn/azure/search/reference-stopwords#english-enmicrosoft

Index Analyze : https://learn.microsoft.com/zh-cn/rest/api/searchservice/indexes/analyze?view=rest-searchservice-2026-04-01&tabs=HTTP#searchserviceindexanalyze

 

http://www.jsqmd.com/news/1025551/

相关文章:

  • go: Reactor Pattern
  • 桑植本地建材家电一站式采购商家排行 公开信息整理 - 互联网科技品牌测评
  • Obsidian Outliner拖拽指南:3步掌握高效列表重组的秘诀
  • 面经经验分享|熟练掌握面试考点
  • 东营润美22年源头工厂,抗风防腐配本地售后 - 资讯纵览
  • B站成分检测器:让评论区用户身份一目了然的智能分析工具
  • GIST-small-Embedding-v0-openmind:揭秘小型嵌入模型在MTEB基准测试中的卓越表现
  • HackMyVM-chromatica
  • 如何在10分钟内为Honey Select 2安装终极中文翻译和游戏增强补丁
  • 国内主流中华柱生产厂家实力排行及实测对比 - 奔跑123
  • 终极指南:Flipper Zero固件安装全解析(新手入门到高级定制)
  • Taste Lab 新手入门与实操指南
  • NSK SFT3210-2.5 滚珠丝杠技术详解
  • 避免重复采集:设计URL去重机制,节省代理流量
  • 2026 济南环氧固化地坪施工厂家测评榜:老牌直营厂家自有施工队,包工包料缩短施工周期 - 资讯纵览
  • 桑植县品牌家电销售安装服务机构客观盘点 - 互联网科技品牌测评
  • 2026济南环氧固化地坪施工公司权威测评榜,多年老牌厂家包工包料,自有团队提速完工周期 - 资讯纵览
  • 从游戏脚本到AI对话:DialoGPT-medium-joshua-openmind训练数据与模型原理终极指南 [特殊字符][特殊字符]
  • Dart与Flutter PDF开发终极指南:从创建到打印的全栈解决方案
  • 2026年佛山公寓购买排行 五大项目客观分析参考 - 互联网科技品牌测评
  • 武汉圣罗兰包包回收哪家靠谱?连锁门店高价回收测评 - 奢侈品回收测评
  • 为什么e5-small-openmind是语义相似性任务的终极选择?实测对比10种主流模型
  • Swin Transformer V2深度解析:GuangxiAICC/swinv2-base-patch4-window8-256如何革新图像分类?
  • 安徽高考数学 2015-2026
  • 植筋胶厂家预约核心考察维度:华东工程工期与交付适配指南 - 资讯纵览
  • 2026年东莞企业短视频:制造业营销新趋势解析 - 资讯纵览
  • 沈阳智能工厂申报服务机构排行 专业合规服务方客观盘点 - 互联网科技品牌测评
  • 汽车电子处理器选型与车载网络平台设计实战指南
  • 破解摆闸行业痛点:摆闸厂家3S场景适配方法论如何实现高效通行? - 资讯纵览
  • 2克拉钻戒定制,这5家品牌性价比让专柜沉默 - 资讯纵览