当前位置：首页 > news >正文

用搜索API做关键词挖掘，我一周找到了200个长尾词

news 2026/7/14 22:59:01

做内容的同学都懂，找长尾词是个体力活。传统工具不是贵就是不准。这篇文章分享我用 SerpBase 做关键词挖掘的完整流程，从采集到筛选到验证，全部自动化。

一、为什么我对传统关键词工具失望了

我做的是技术博客的内容运营，目标很明确：找到有搜索量、竞争低、跟产品相关的长尾词，然后写内容去覆盖。

之前用过几个主流工具：

某知名SEO工具的关键词挖掘：数据挺全，但一个月 $99，我这种小团队用不起
Google Keyword Planner：免费，但给的数据太泛，而且很多长尾词根本没覆盖到
各种免费长尾词工具：不是广告就是数据滞后半年，参考价值有限
5118/站长工具：中文数据还行，但技术类长尾词覆盖率一般

最让我崩溃的是，这些工具推荐的关键词，10个里有8个我早就写过了。真正有价值的新词，它们挖不出来。

后来我想通了：工具的数据库再大，也大不过 Google 的索引。与其用二手数据，不如直接去 Google 搜，看用户到底在搜什么。

二、核心思路：用 Google 的"Related Searches"和"PAA"挖矿

Google 搜索结果页里有两个宝藏区域：

Related Searches（相关搜索）：在页面底部，Google 主动告诉用户"搜了这个的人还搜了什么"
People Also Ask（PAA）：页面中部，用户常问的问题列表，每个问题点开会展开更多

这两个区域的数据有几个特点：

实时性强：反映的是当前用户的真实搜索行为
长尾词密集：Related Searches 里大量是 3-5 个词的长尾查询
意图明确：PAA 直接告诉你用户在关心什么问题

我的策略就是：从一个种子词出发，递归采集 Related Searches 和 PAA，构建一个关键词树。

三、技术实现

3.1 基础采集模块

importrequestsimportjsonimporttimefromtypingimportList,Set,Dictfromurllib.parseimportquote API_KEY="YOUR_KEY"BASE_URL="https://api.serpbase.com/v1/search"classKeywordMiner:def__init__(self,api_key:str):self.api_key=api_key self.base_url=BASE_URL self.seen_queries=set()# 去重defsearch(self,query:str,gl:str="us",hl:str="en",num:int=10)->Dict:ifqueryinself.seen_queries:return{}self.seen_queries.add(query)params={"q":query,"api_key":self.api_key,"num":num,"hl":hl,"gl":gl}try:r=requests.get(self.base_url,params=params,timeout=30)r.raise_for_status()returnr.json()exceptExceptionase:print(f"Search error for '{query}':{e}")return{}defextract_related(self,data:Dict)->List[str]:"""提取 Related Searches"""related=data.get("related_searches",[])return[item.get("query","")foriteminrelatedifitem.get("query")]defextract_paa(self,data:Dict)->List[str]:"""提取 People Also Ask"""paa=data.get("people_also_ask",[])return[item.get("question","")foriteminpaaifitem.get("question")]defmine(self,seed_keywords:List[str],depth:int=2,gl:str="us",hl:str="en")->Dict[str,List[str]]:""" 递归挖掘 depth: 递归深度，1=种子词，2=种子+相关词，3=再挖一层 """all_keywords={"related":[],"paa":[],"original_seeds":seed_keywords.copy()}current_level=seed_keywords.copy()fordinrange(depth):print(f"\n=== 挖掘深度{d+1}===")next_level=[]forqueryincurrent_level:print(f" 正在搜索:{query}")data=self.search(query,gl=gl,hl=hl)ifnotdata:continuerelated=self.extract_related(data)paa=self.extract_paa(data)all_keywords["related"].extend(related)all_keywords["paa"].extend(paa)# 下一层的种子next_level.extend(related)time.sleep(0.8)# 控制 QPS，别浪current_level=list(set(next_level))# 去重print(f" 本层发现{len(current_level)}个新词")# 最终去重all_keywords["related"]=list(dict.fromkeys(all_keywords["related"]))all_keywords["paa"]=list(dict.fromkeys(all_keywords["paa"]))returnall_keywords

3.2 运行示例

miner=KeywordMiner(api_key="YOUR_KEY")# 技术博客的种子词seeds=["docker compose tutorial","python asyncio best practices","nextjs vs react"]results=miner.mine(seeds,depth=2,gl="us",hl="en")print(f"\n原始种子:{len(results['original_seeds'])}个")print(f"Related Searches:{len(results['related'])}个")print(f"People Also Ask:{len(results['paa'])}个")print(f"总计:{len(results['related'])+len(results['paa'])}个")# 保存到文件withopen("mined_keywords.json","w",encoding="utf-8")asf:json.dump(results,f,ensure_ascii=False,indent=2)

3.3 实际跑出来的效果

以 “docker compose tutorial” 为种子，深度2：

第一层 Related：docker compose tutorial for beginners, docker compose multiple containers, docker compose vs kubernetes…
第二层从 “docker compose multiple containers” 继续挖：docker compose mysql nodejs, docker compose nginx reverse proxy, docker compose env file…
PAA 出来的问题：What is the difference between docker compose and dockerfile? Is docker compose still used in 2025?

深度2就能挖出 150-200 个词。如果深度3，理论上能到 500+，但相关性会下降，需要更强的过滤。

四、关键词筛选：不是所有词都值得写

挖出来几百个词，不可能全写。需要按规则筛选。

4.1 筛选维度

我定的规则：

长度过滤：太短的词（<3个单词）通常竞争大，优先 4-8 个词的长尾
去重和归一：“docker compose” 和 “docker-compose” 算同一个词
业务相关性：包含种子词核心概念的保留，完全无关的剔除
问题词优先：PAA 里的问题直接对应文章标题，转化率通常更高

importreclassKeywordFilter:def__init__(self,core_concepts:List[str]):"""core_concepts: 业务核心词，比如 ['docker', 'kubernetes', 'container']"""self.core_concepts=[c.lower()forcincore_concepts]defis_relevant(self,keyword:str)->bool:kw_lower=keyword.lower()returnany(conceptinkw_lowerforconceptinself.core_concepts)defnormalize(self,keyword:str)->str:"""归一化：去掉多余空格，统一连字符"""kw=keyword.lower().strip()kw=re.sub(r'\s+',' ',kw)kw=kw.replace("-"," ")returnkwdeffilter_keywords(self,keywords:List[str],min_words:int=4,max_words:int=10)->List[Dict]:filtered=[]seen=set()forkwinkeywords:normalized=self.normalize(kw)ifnormalizedinseen:continueseen.add(normalized)word_count=len(normalized.split())ifnot(min_words<=word_count<=max_words):continueifnotself.is_relevant(normalized):continue# 标记是不是问题is_question=any(normalized.startswith(w)forwin['what','how','why','when','where','is','does','can'])filtered.append({"keyword":normalized,"word_count":word_count,"is_question":is_question,"priority":"high"ifis_questionelse"medium"})# 问题优先，再按词长排序（越长通常越精准）filtered.sort(key=lambdax:(0ifx["is_question"]else1,-x["word_count"]))returnfiltered# 使用filter_engine=KeywordFilter(core_concepts=["docker","container","kubernetes","compose"])all_keywords=results["related"]+results["paa"]qualified=filter_engine.filter_keywords(all_keywords,min_words=3,max_words=12)print(f"筛选后合格关键词:{len(qualified)}个")print("Top 10 问题词:")foritemin[kforkinqualifiedifk["is_question"]][:10]:print(f" ❓{item['keyword']}")

4.2 竞争度快速评估

长尾词的竞争度不能只看工具给的 KD 值（Keyword Difficulty），那个算法各家不一样，参考价值有限。

我的土办法：直接搜这个词，看第一页都是什么站。

defquick_competition_check(keyword:str,api_key:str)->Dict:"""快速评估竞争度"""params={"q":keyword,"api_key":api_key,"num":10,"hl":"en","gl":"us"}r=requests.get(BASE_URL,params=params,timeout=30)data=r.json()organic=data.get("organic_results",[])big_sites=["github.com","stackoverflow.com","medium.com","google.com","amazon.com","microsoft.com"]big_site_count=0total_results=len(organic)foriteminorganic:domain=item.get("link","").split("/")[2].replace("www.","")ifany(bindomainforbinbig_sites):big_site_count+=1# 规则：如果前10里超过7个是大站，竞争度极高；少于3个，有机会competition="high"ifbig_site_count>=7else("medium"ifbig_site_count>=3else"low")return{"keyword":keyword,"big_sites_in_top10":big_site_count,"competition_level":competition,"top_domains":[item.get("link","").split("/")[2]foriteminorganic[:5]]}# 对筛选后的词批量评估foriteminqualified[:20]:# 先评估前20个check=quick_competition_check(item["keyword"],API_KEY)item["competition"]=check["competition_level"]time.sleep(0.5)

这个评估虽然粗糙，但比第三方工具的 KD 值更真实，因为它看的是实际搜索结果。

五、实战数据：一周 200 个长尾词

我把这套流程跑了一周，数据如下：

步骤	数量
种子词	15 个
原始挖掘（深度2）	680 个
去重+归一后	420 个
相关性过滤后	245 个
竞争度评估后（low/medium）	198 个
最终选题（结合团队产能）	30 个