当前位置：首页 > news >正文

我用 Python 搭了一套知识管理系统：从零散笔记到结构化知识库，AI 帮我自动整理

news 2026/6/9 19:08:13

我用 Python 搭了一套知识管理系统：从零散笔记到结构化知识库，AI 帮我自动整理

适合有大量零散笔记/文档/收藏，想让 AI 帮忙整理成结构化知识库的人。
本文提供完整的 Python 代码，从文件扫描、分类、摘要到知识图谱，全程自动化。

问题：笔记越来越多，找东西越来越难

我有 200+ 篇笔记，分散在不同文件夹、不同格式（Markdown、TXT、PDF、网页收藏）。每次想找某个话题的资料，要在 5 个地方搜索，经常找不到。

根本原因是：笔记没有结构化。文件名不统一、没有标签、没有分类、没有关联。

后来我用 Python + AI 搭了一套知识管理系统，自动完成这些事情：

扫描所有笔记文件
AI 自动提取关键词和摘要
自动分类到对应目录
自动建立笔记之间的关联
生成知识图谱可视化

系统架构

文件扫描 → 内容提取 → AI 分类 → 自动整理 → 知识图谱

模块 1：文件扫描与内容提取

扫描指定目录下的所有文件，提取文本内容。

importosfrompathlibimportPathdefscan_files(root_dir,extensions=(".md",".txt",".py",".json")):"""扫描目录下所有指定类型的文件"""files=[]forextinextensions:files.extend(Path(root_dir).rglob(f"*{ext}"))print(f"扫描完成，找到{len(files)}个文件")returnfilesdefextract_content(file_path):"""提取文件内容"""path=Path(file_path)ext=path.suffix.lower()ifextin(".md",".txt",".py",".json",".yaml"):returnpath.read_text(encoding="utf-8",errors="ignore")elifext==".pdf":# 需要 PyPDF2 或 pdfplumbertry:importPyPDF2 reader=PyPDF2.PdfReader(str(path))return"\n".join(page.extract_text()or""forpageinreader.pages)exceptImportError:print(f"需要安装 PyPDF2: pip install PyPDF2")return""else:return""

模块 2：AI 自动提取关键词和摘要

fromopenaiimportOpenAI client=OpenAI()defextract_metadata(content,max_content=2000):"""用 AI 提取关键词、摘要、分类"""# 截取前 max_content 字符truncated=content[:max_content]prompt=f"""分析以下文本，返回 JSON 格式的元数据： 文本：{truncated}返回格式： {{ "title": "文章标题（如果没有明确标题就根据内容生成一个）", "summary": "50字以内的摘要", "keywords": ["关键词1", "关键词2", "关键词3"], "category": "分类（技术/方法论/复盘/工具/其他）", "tags": ["标签1", "标签2"] }}"""response=client.chat.completions.create(model="gpt-4",messages=[{"role":"user","content":prompt}],temperature=0.3)importjsontry:returnjson.loads(response.choices[0].message.content)exceptjson.JSONDecodeError:return{"title":"","summary":"","keywords":[],"category":"其他","tags":[]}

模块 3：自动分类整理

根据 AI 提取的分类，自动移动文件到对应目录。

importshutildefauto_organize(files,metadata_map,output_dir):"""根据 AI 分类自动整理文件"""category_dirs={"技术":"01_技术","方法论":"02_方法论","复盘":"03_复盘","工具":"04_工具","其他":"05_其他",}forfile_pathinfiles:meta=metadata_map.get(str(file_path),{})category=meta.get("category","其他")target_dir=Path(output_dir)/category_dirs.get(category,"05_其他")target_dir.mkdir(parents=True,exist_ok=True)# 重命名：标题_原文件名title=meta.get("title","")iftitle:new_name=f"{title[:30]}_{Path(file_path).name}"else:new_name=Path(file_path).name target=target_dir/new_name shutil.copy2(str(file_path),str(target))print(f"整理:{Path(file_path).name}→{category}/{new_name}")

模块 4：生成知识图谱

分析笔记之间的关键词关联，生成可视化知识图谱。

defbuild_knowledge_graph(metadata_map):"""基于关键词关联构建知识图谱"""# 收集所有关键词keyword_to_docs={}fordoc_path,metainmetadata_map.items():forkwinmeta.get("keywords",[])+meta.get("tags",[]):ifkwnotinkeyword_to_docs:keyword_to_docs[kw]=[]keyword_to_docs[kw].append(doc_path)# 找到共享关键词的文档对edges=[]keywords_list=list(keyword_to_docs.keys())foriinrange(len(keywords_list)):forjinrange(i+1,len(keywords_list)):kw1,kw2=keywords_list[i],keywords_list[j]shared=set(keyword_to_docs[kw1])&set(keyword_to_docs[kw2])iflen(shared)>=2:# 至少共享 2 篇文档edges.append((kw1,kw2,len(shared)))# 按关联强度排序edges.sort(key=lambdax:x[2],reverse=True)returnedges[:50]# 取 top 50 条关联

模块 5：生成 Markdown 索引

defgenerate_index(metadata_map,output_path):"""生成知识库的 Markdown 索引文件"""lines=["# 知识库索引\n"]lines.append(f"共{len(metadata_map)}篇文档\n\n")# 按分类分组by_category={}forpath,metainmetadata_map.items():cat=meta.get("category","其他")ifcatnotinby_category:by_category[cat]=[]by_category[cat].append((path,meta))forcategory,docsinsorted(by_category.items()):lines.append(f"##{category}（{len(docs)}篇）\n\n")forpath,metaindocs:title=meta.get("title",Path(path).stem)summary=meta.get("summary","")keywords=", ".join(meta.get("keywords",[])[:5])lines.append(f"###{title}\n")lines.append(f"- **摘要**:{summary}\n")lines.append(f"- **关键词**:{keywords}\n")lines.append(f"- **文件**: `{Path(path).name}`\n\n")Path(output_path).write_text("".join(lines),encoding="utf-8")print(f"索引已生成:{output_path}")

完整运行

defrun_knowledge_system(root_dir,output_dir):"""完整知识管理流程"""print("📂 Step 1: 扫描文件...")files=scan_files(root_dir)print("\n🤖 Step 2: AI 提取元数据...")metadata_map={}fori,file_pathinenumerate(files):content=extract_content(file_path)ifcontent:meta=extract_metadata(content)metadata_map[str(file_path)]=metaprint(f" [{i+1}/{len(files)}]{file_path.name}→{meta.get('category','?')}")print("\n📁 Step 3: 自动分类整理...")auto_organize(files,metadata_map,output_dir)print("\n📊 Step 4: 生成知识图谱...")graph=build_knowledge_graph(metadata_map)print(f" 找到{len(graph)}条关联")print("\n📝 Step 5: 生成索引...")generate_index(metadata_map,os.path.join(output_dir,"INDEX.md"))print("\n✅ 知识库整理完成！")# 运行run_knowledge_system(r"C:\my_notes",r"C:\knowledge_base")