当前位置：首页 > news >正文

基于Python的旅游景点推荐系统毕设：从数据建模到Flask部署的实战全流程

news 2026/7/7 23:29:44

1. 毕设常见痛点：数据稀疏、冷启动、工程化缺失

做推荐系统毕设，最容易被导师三连问：

“数据这么稀疏，结果靠谱吗？”
“新用户来了，你推啥？”
“代码跑通就算完？能上线吗？”

多数同学直接调 Surprise 或 LightFM，AUC 好看，却忽视工程闭环：
– 离线脚本一把梭，路径写死；
– 模型 PKL 一扔，前端调不通；
– 评审现场 502，当场社死。

痛点总结：

数据稀疏：用户-景点评分矩阵密度 <1%，纯协同过滤易过拟合。
冷启动：新用户无行为，新景点无评分，直接空白。
工程化缺失：没有 REST 接口、没有缓存、没有异常兜底，演示时一并发抖。

2. 技术选型：为什么 UserCF + 内容标签，而非矩阵分解或深度模型

方案	优点	缺点	毕设场景
矩阵分解 (SVD)	精度高	训练慢、黑盒、难解释	导师看不懂
深度学习 (DSSM)	能融合多模态	数据量要大、GPU 贵	服务器没有卡
UserCF + 内容	简单、可解释、冷启动友好	精度略逊	够用、能讲清

结论：时间紧、资源少、要演示，UserCF 负责“老朋友喜欢啥我推啥”，内容标签负责“新景点/新用户兜底”，两者加权融合，5 天可撸完。

3. 核心实现拆解

3.1 数据预处理

原始爬来的 CSV 长这样：

user_id,spot_id,rating,tag u001,s010,5,"古镇,人文"

步骤：

去重：同一用户对同一景点多次评分，取均值。
归一化：Min-Max 缩到 [0,1]，消除评分尺度差异。
构造“用户-景点”矩阵：pandas pivot_table，空值填 0，但保留 mask 供后续相似度计算忽略。

3.2 相似度计算

余弦相似度：适合稀疏向量，计算快。
皮尔逊修正：减去用户均值，抵消打分偏置。

代码片段（已 Clean Code）：

def cosine_plus_pearson(mat: csr_matrix, u_vec: np.ndarray, u_mean: float): """计算修正后的余弦相似度""" u_vec_centered = u_vec - u_mean sim = mat.dot(u_vec_centered) / ( norm(mat, axis=1) * norm(u_vec_centered) + 1e-8 ) return sim

3.3 混合推荐权重

UserCF 得分与内容标签得分线性加权：

final_score = α * usercf_score + (1-α) * content_score

α 按用户行为条数动态调整：
– 行为 ≥10，α=0.8；
– 行为 <10，α=0.3；
冷启动用户直接走内容推荐。

4. 完整可运行代码

项目结构：

travel-rec/ ├── app.py # Flask 入口 ├── rec/ │ ├── __init__.py │ ├── data.py # 数据加载 │ ├── model.py # 推荐逻辑 │ └── utils.py # 工具 └── data/ └── travel.csv

4.1 model.py（核心 50 行）

import pandas as pd import numpy as np from scipy.sparse import csr_matrix from sklearn.metrics.pairwise import cosine_similarity class HybridRec: def __init__(self, csv_path, top_k=20, alpha=0.7): self.top_k = top_k self.alpha = alpha self._load_data(csv_path) self._compute_similarity() def _load_data(self, path): df = pd.read_csv(path) self.user_mean = df.groupby('user_id')['rating'].mean().to_dict() self.mat = df.pivot_table(index='user_id', columns='spot_id', values='rating').fillna(0) self.spot_tags = df.groupby('spot_id')['tag'].first().to_dict() self.user_item = csr_matrix(self.mat.values) def _compute_similarity(self): self.sim_matrix = cosine_similarity(self.user_item) def recommend(self, user_id, n=5): if user_id not in self.mat.index: return self._cold_start(n) uid_idx = self.mat.index.get_loc(user_id) user_vec = self.mat.iloc[uid_idx].values u_mean = self.user_mean[user_id] sims = self.sim_matrix[uid_idx] # 找到最相似用户 top_users = np.argsort(sims)[-self.top_k:] # 加权平均得分 rec_scores = np.zeros(self.mat.shape[1]) for u in top_users: rec_scores += sims[u] * self.mat.iloc[u].values # 内容得分 content_scores = self._content_score(user_vec) # 融合 final = self.alpha * rec_scores + (1 - self.alpha) * content_scores # 排除已交互 seen = user_vec.nonzero()[0] final[seen] = -1 top_items = np.argsort(final)[-n:][::-1] return self.mat.columns[top_items].tolist() def _content_score(self, user_vec): """简单标签匹配：用户历史标签出现频次""" from collections import Counter visited = np.where(user_vec > 0)[0] tags = [] for idx in visited: spot = self.mat.columns[idx] tags.extend(self.spot_tags.get(spot, '').split(',')) user_tags = Counter(tags) content_vec = np.zeros(self.mat.shape[1]) for idx, spot in enumerate(self.mat.columns): spot_tag_list = self.spot_tags.get(spot, '').split(',') content_vec[idx] = sum(user_tags[t] for t in spot_tag_list if t in user_tags) return content_vec / (content_vec.max() + 1e-8) def _cold_start(self, n): """冷启动：返回热门景点""" return self.mat.sum().nlargest(n).index.tolist()

4.2 app.py（20 行）

from flask import Flask, request, jsonify from rec.model import HybridRec app = Flask(__name__) rec = HybridRec('data/travel.csv') @app.route('/rec', methods=['GET']) def recommend(): user_id = request.args.get('user_id') if not user_id: return jsonify({'error': 'missing user_id'}), 400 spots = rec.recommend(user_id) return jsonify({'spots': spots}) if __name__ == '__main__': app.run(debug=False, threaded=True)

启动：

export FLASK_APP=app.py flask run --host=0.0.0.0 --port=5000

5. 性能与安全

缓存：
使用 Flask-Caching 把/rec结果缓存 5 min，避免重复计算。
请求幂等：
GET 接口天然幂等，不加副作用。
隐私脱敏：
返回包只给 spot_id，不把用户历史明文带出；日志打码 user_id 后四位。

6. 生产环境避坑指南

坑	现象	解决
本地路径硬编码	换电脑就 FileNotFound	用`pathlib.Path(__file__).parent`动态拼
NaN 未处理	推荐结果空列表	`fillna(0)`后统一转 int
Flask 开发服务器并发	压测 20 线程直接卡死	上 Gunicorn + Gevent：`gunicorn -k gevent -w 4 app:app`
矩阵太大内存炸	10 万用户 8 G 爆	只保留交互 ≥3 的用户，稀疏度降到 0.3%