当前位置：首页 > news >正文

CiteSpace共现关键词分析：从零开始掌握知识图谱构建

news 2026/3/26 14:06:58

CiteSpace共现关键词分析：从零开始掌握知识图谱构建

最近在帮学弟学妹们做文献综述，发现很多科研新手在用CiteSpace做共现关键词分析时，总在几个地方卡壳。要么是数据导进去报错，要么是出来的图谱密密麻麻看不懂，要么就是参数调来调去结果都不理想。其实，只要把几个关键步骤和原理搞明白，CiteSpace完全可以成为你梳理领域知识脉络的得力助手。今天，我就结合自己的踩坑经验，整理一份从零开始的操作指南，希望能帮你快速上手。

1. 新手入门：先认清这些常见“坑”

在动手之前，了解新手常犯的错误能让你少走很多弯路。最常见的问题集中在数据、参数和解读三个阶段：

数据格式错误：这是第一道拦路虎。很多同学直接从Web of Science (WOS) 或中国知网 (CNKI) 导出数据后，不做任何处理就直接导入CiteSpace，结果软件无法识别。WOS需要导出为“纯文本”格式，并包含全记录与引用的参考文献；CNKI的数据则需要先进行格式转换。
节点类型选择困惑：在新建项目时，Node Types（节点类型）的选择直接决定了分析对象。是做Author（作者）合作分析，Institution（机构）分析，还是Keyword（关键词）共现分析？对于新手，建议从Keyword共现分析开始，它最直观地反映了领域的研究热点。
网络修剪算法误用：为了简化复杂的网络，CiteSpace提供了如Pathfinder（寻径网络）、Pruning sliced networks（修剪切片网络）等算法。新手容易随意选择或忽略，导致网络要么过于稠密无法阅读，要么丢失重要连接。理解它们的适用场景是关键。

2. 核心原理：理解关键算法与选择

工欲善其事，必先利其器。了解一两个核心算法，能让你在参数设置时更有底气。

Pathfinder (PFNET) 算法：这个算法的核心是“化简”。它会在所有可能的连接路径中，只保留最短的、最重要的那条路径，删除冗余的链接。适用场景：当你希望得到一个非常清晰、主干结构突出的网络时，比如想一眼看清某个领域最核心的几个关键词及其关联。
Pruning (修剪) 算法：CiteSpace中常用的是“Pruning sliced networks”和“Pruning the merged network”。前者在构建每个时间切片网络时就进行修剪，后者是在所有切片网络合并成总网络后再修剪。适用场景：当你处理的数据量很大，初步生成的网络像一团乱麻时，使用修剪算法可以有效减少交叉连线，让可视化结果更清爽。对于初学者，可以尝试勾选“Pruning sliced networks”，效果通常不错。

下图概括了从数据到知识图谱的核心流程，你可以把它存下来，跟着步骤操作：

[建议流程图文字描述] 1. 数据准备：从WOS/CNKI等数据库导出原始数据。 2. 数据预处理：使用Python脚本等进行格式清洗、去重、转换。 3. CiteSpace项目设置：新建项目，导入数据，设置时间切片、节点类型等参数。 4. 网络构建与修剪：选择阈值（如Top N），应用Pathfinder或Pruning算法。 5. 可视化与优化：生成网络后，调整节点、标签、聚类颜色等视觉参数。 6. 分析与解读：识别关键节点（高中介中心性）、聚类、实现词，生成时区图等视图。

3. 手把手操作：从数据导入到时区图生成

接下来，我们一步步走通整个流程。假设我们要分析“人工智能在教育中的应用”相关文献。

第一步：数据获取与预处理从WOS核心合集检索相关文献，导出时选择“纯文本”格式，记录内容选择“全记录与引用的参考文献”。通常你会得到一个.txt文件。CNKI的数据导出后，通常需要转换为WOS格式，CiteSpace官网提供了转换工具。

这里分享一个简单的Python预处理脚本，用于处理从其他渠道获取的、包含PMID（PubMed ID）的数据，进行去重和格式整理：

import pandas as pd # 读取原始数据文件，假设是CSV格式，包含‘PMID’, ‘Title’, ‘Keywords’等列 df = pd.read_csv('raw_literature_data.csv') # 1. 基于PMID去重（如果同一篇文章被多次收录） df_cleaned = df.drop_duplicates(subset=['PMID'], keep='first') # 2. 关键词处理：假设原始关键词列‘Keywords’是用分号隔开的字符串 # 将其转换为CiteSpace可识别的格式（例如，用分号隔开，且去除多余空格） df_cleaned['Keywords_processed'] = df_cleaned['Keywords'].apply( lambda x: '; '.join([kw.strip() for kw in str(x).split(';')]) if pd.notnull(x) else '' ) # 3. 保存为新的CSV文件，供后续分析或格式转换使用 df_cleaned.to_csv('cleaned_data_for_citespace.csv', index=False, encoding='utf-8-sig') print(f"数据预处理完成！原始记录 {len(df)} 条，去重后剩余 {len(df_cleaned)} 条。")

第二步：CiteSpace项目设置与数据导入

打开CiteSpace，点击“New”新建项目。
设置项目名称和存储路径。
“Data Directory”选择你存放.txt或转换后数据的文件夹。
“Project Home”会自动生成。
点击“Save”保存配置。

第三步：参数配置与网络构建

在主界面，时间切片“Time Slicing”根据你的研究跨度设置，比如2010-2023年，每1年或2年一个切片。
“Node Types”选择“Keyword”。这是进行关键词共现分析的关键设置。
“Selection Criteria”通常选用“Top N”，N值默认为50，即每个时间切片中选择出现频次最高的前50个关键词。新手可以从50开始，如果网络太密再调小。
在“Pruning”区域，可以勾选“Pathfinder”和“Pruning sliced networks”进行网络修剪。
点击“Go！”开始运行。

第四步：可视化优化与解读运行完成后，会生成一个初步的网络图。通常很乱，需要优化。

调节节点大小：节点大小通常代表关键词的出现频次（Frequency）。在控制面板的“Node Size”可以调整缩放比例，让重要节点更突出。
调节标签字体：在“Labels”选项卡下，可以调整字体大小（Font Size）、是否显示所有节点标签（Threshold of Labels）。建议先调大字体，然后通过提高阈值（比如只显示频次大于10的关键词标签）来避免重叠。
调节聚类颜色：CiteSpace会自动对网络进行聚类（Cluster）。在“Cluster”选项卡下，可以选择不同的聚类算法（如LLR算法），并可以重新着色（Recolor Clusters），让不同聚类区分更明显。

完成优化后，你可以：

识别研究热点：那些节点大、连线多的关键词（如“machine learning”, “online education”）往往是当前热点。
发现关键枢纽：在控制面板开启“Centrality”显示，节点外圈会出现紫色光环，光环越粗，其中介中心性（Betweenness Centrality）越高，代表该关键词是连接不同研究主题的关键枢纽。
生成时区视图：点击“Timezone View”，可以生成时区图（Timezone View），它能清晰展示不同关键词随时间演变的脉络，看出研究热点的兴起与变迁。

4. 避坑指南：这些细节决定成败

掌握了流程，还要注意这些细节，否则可能前功尽弃。

时区划分错误：时区图（Timezone View）的X轴是时间。务必确保在项目设置时，“Time Slicing”的起止年份和切片长度与你数据中文献的年份分布相匹配。如果数据中2010年前的文献很少，却从2000年开始切片，会导致前期时区大量空白，分析失真。
中介中心性误读：中介中心性（Betweenness Centrality）高的节点，确实是连接不同群组的关键。但不能直接等同于重要性或热度最高。一个关键词可能频次不高，但它恰好是连接两个热门子领域的唯一桥梁，其中介中心性就会很高。解读时需结合频次和聚类结果综合判断。
突现检测忽略：Burst Detection（突现检测）功能非常有用，它能识别那些在短时间内被引频次急剧上升的关键词，是发现新兴趋势的利器。很多新手做完共现分析就结束了，建议一定要在控制面板的“Burstness”选项卡下运行突现检测，会有新发现。
聚类标签过度解读：CiteSpace自动生成的聚类标签（如#0 deep learning）是基于算法提取的，它提供了一个理解聚类主题的视角，但未必完全准确。你需要回到原文献中，核查该聚类下的主要关键词和代表性文献，对聚类主题进行人工修正和命名，这样得出的结论才更可靠。