当前位置：首页 > news >正文

我做了一个基于知识图谱的图书推荐系统，踩了不少坑

news 2026/3/26 17:34:30

我做了一个基于知识图谱的图书推荐系统，踩了不少坑

起因

去年做毕设的时候，导师给了个课题：做一个图书推荐系统。一开始想的很简单，不就是协同过滤嘛，sklearn 调个包就完事了。结果导师说：“你这推荐出来的书，用户问你为什么推荐，你怎么解释？”

这一问把我问住了。确实，传统的协同过滤、矩阵分解这些方法，推荐结果就是个黑盒，说不清楚为什么推荐这本书。

于是开始调研，看了一堆论文，最后决定用知识图谱 + 评论关键词的方案。现在系统已经上线了，分享一下整个过程。

在线体验地址：http://47.110.250.188:5000/ (服务器费用太贵，已不可用)

GitHub 地址：https://github.com/yangqunfeng/book-rec-kg-comments （欢迎 Star）

数据准备

爬虫部分

数据是用的 Scrapy 爬了大概一个月，最后拿到：

68 万本图书的基本信息（书名、作者、出版社、评分等）
367 万条用户评论

这里有个坑：网站的反爬很严格，IP 封得很快。最后是买了代理池 + 设置随机延迟才搞定的。

数据清洗

原始数据质量参差不齐，主要问题：

作者名字格式不统一（有的带国籍，有的不带）
出版社名字有各种变体
评论里有大量无意义的短评（“好看”、"不错"之类的）

清洗代码写了好几版，最后用正则 + 人工规则搞定。

技术方案

知识图谱构建

用 NetworkX 构建了一个异构图，包含 5 种实体：

图书
作者
出版社
译者
系列

关系有：

图书-作者（写作关系）
图书-出版社（出版关系）
图书-译者（翻译关系）
图书-系列（系列关系）

最后构建出来的图谱有 70 万+ 实体，100 万+ 关系。

评论关键词提取

这部分是核心创新点。传统的推荐系统只看图书的结构化信息，但评论里其实包含了很多有价值的特征。

比如《三体》的评论里，高频词有：科幻、宇宙、文明、物理、黑暗森林等。这些词能很好地描述这本书的特点。

关键词提取用了 TF-IDF + TextRank 双算法：

# TF-IDF 提取tfidf_keywords=jieba.analyse.extract_tags(comment_text,topK=50,withWeight=True)# TextRank 提取textrank_keywords=jieba.analyse.textrank(comment_text,topK=40,withWeight=True)# 合并权重forword,weightintfidf_keywords:keyword_dict[word]=weightforword,weightintextrank_keywords:keyword_dict[word]=keyword_dict.get(word,0)+weight*0.8

但这样提取出来的关键词质量不高，有很多无意义的词（“作者”、“小说”、"故事"之类的）。

后来加了智能过滤，只保留真正能描述图书特征的词：

主题词（科幻、历史、爱情等）
情节元素（战斗、阴谋、复仇等）
人物特征（主角、英雄、反派等）
风格特征（幽默、深刻、细腻等）

这部分调了很久，最后效果还不错。

性能优化

多进程加速

评论关键词提取很慢，367 万条评论，单进程要跑好几个小时。

后来改成多进程并行：

frommultiprocessingimportPool,cpu_count num_processes=cpu_count()-1withPool(processes=num_processes)aspool:results=pool.imap_unordered(process_book_comments,tasks)