当前位置：首页 > news >正文

从零实现基于物品的协同过滤推荐引擎

news 2026/6/7 5:55:41

1. 项目概述：从“猜你喜欢”到亲手造出推荐引擎

你刷短视频时，为什么刚搜完咖啡机，下一秒就跳出三款不同价位的评测？你买完婴儿纸尿裤，购物App立刻给你推温奶器、湿巾收纳盒，甚至还有“新手爸妈睡眠指南”电子书？这不是魔法，也不是巧合——背后站着一个沉默但极其高效的工程师：推荐引擎。它不说话，却比你更懂你昨天没点开的那条视频、上个月删掉又重搜的那款耳机。今天我们要做的，不是调用某个云服务API点几下鼠标就完事，而是真正从零开始，用最基础的Python和真实数据，把推荐引擎的骨架一节一节搭起来。核心就一个词：Collaborative Filtering（协同过滤）。它不关心商品长什么样、参数多漂亮，只盯着人和人之间的行为相似性——就像老小区门口的王姨，从来不用看你的购物小票，光听你跟邻居聊两句“这车油耗真高”，就能精准推荐隔壁李叔家刚换的同款机油滤芯。我们用的是新加坡二手汽车市场的交易数据，每一条记录都包含用户ID、车型、价格、里程、年份等真实字段。没有花哨的深度学习框架，不依赖任何黑箱模型，就用NumPy算矩阵、用Pandas理关系、用Scikit-learn做相似度——所有代码你都能抄下来直接跑通，所有步骤你都能在本地笔记本上复现。适合谁？如果你是刚学完Python基础、想把课设升级成作品集的大学生；如果你是转行做数据分析的职场人，手头有业务数据却不知如何挖掘用户偏好；或者你只是对“平台怎么总能猜中我心思”这件事本身感到好奇——这篇就是为你写的。它不承诺让你明天就去大厂面试推荐系统岗，但它能让你亲手拧紧第一颗螺丝，看清整个引擎舱里齿轮是怎么咬合的。

2. 推荐算法全景图与协同过滤的底层逻辑

2.1 三大流派：内容、协同、混合——为什么我们选协同过滤？

市面上的推荐算法，粗略分三类：基于内容的（Content-Based）、协同过滤（Collaborative Filtering）、混合方法（Hybrid）。它们像三种不同的“识人术”，各有适用场景，也各有硬伤。

基于内容的推荐，核心是“物以类聚”。它给每个商品打标签：手机=屏幕尺寸+处理器+电池容量+摄像头像素，用户历史行为则被转化为对这些标签的偏好权重。比如你反复点击“大屏”“长续航”“游戏性能强”的手机，系统就给你推更多同类标签组合的商品。优点很实在：冷启动友好——新商品只要打好标签，立刻能被推荐；可解释性强——能清楚告诉你“推荐理由：您关注过类似屏幕尺寸和电池容量的产品”。但致命短板是“信息茧房”：它永远在你已知偏好的圈子里打转，推不出你根本没想到过的新品类。就像一个只读财经杂志的人，系统永远不会给他推《昆虫记》——因为两者标签向量距离太远。

混合方法则是前两者的缝合怪，常见做法是把内容推荐和协同过滤的结果加权融合。它确实能缓解单一方法的缺陷，但代价是复杂度陡增：要同时维护两套特征工程、两套模型训练流程、还要调参决定权重比例。对初学者而言，这相当于还没学会骑自行车，先去调试一辆混合动力摩托车的ECU。

而协同过滤，走的是“人以群分”路线。它完全不看商品本身是什么，只看“谁买了什么”。核心假设非常朴素：如果用户A和用户B过去购买/评分/点击了大量重叠商品，那么他们大概率口味相似；当A买了某件B还没接触过的商品X，这件X就极有可能也适合B。这个逻辑天然具备“惊喜感”——它能跨品类发现关联，比如买奶粉的用户和买儿童安全座椅的用户高度重合，系统就能把育儿类商品打包推荐，哪怕这两个品类在内容标签体系里毫无交集。更重要的是，它的实现门槛最低：不需要NLP处理商品描述，不需要CV提取图片特征，只需要一张干净的“用户-商品-行为”交互表（User-Item Interaction Matrix），就能开工。这正是我们选择它的根本原因：用最轻量的输入，撬动最本质的推荐逻辑。它不是终极方案，但它是理解整个推荐世界的最佳入口。

2.2 协同过滤的两种形态：用户协同 vs. 物品协同

协同过滤内部又分两大阵营：基于用户的协同过滤（User-Based CF）和基于物品的协同过滤（Item-Based CF）。它们像同一枚硬币的正反面，计算路径相反，但目标一致。

用户协同过滤（User-Based CF）的思路是：“找和你最像的人，看他喜欢什么”。具体步骤是：1）计算所有用户两两之间的相似度（比如用余弦相似度或皮尔逊相关系数）；2）为当前用户U找出K个最相似的邻居（K-Nearest Neighbors）；3）汇总这些邻居对未交互商品的评分（或行为强度），加权平均后生成U的预测评分。举个生活化例子：你和同事小张都买了MacBook、AirPods、罗技MX Master鼠标，还都给《三体》打了5星；某天小张买了Kindle Oasis，虽然你没买，但系统会认为“小张的品味和你高度一致，他选的阅读设备，你很可能也需要”，于是把Kindle推给你。它的优势是逻辑直观，容易理解；劣势是用户数通常远大于商品数（尤其在电商场景），计算所有用户对的相似度矩阵，时间复杂度是O(U²)，当用户量破百万，光算相似度就得跑几天。

物品协同过滤（Item-Based CF）则反其道而行之：“找和你买过的商品最像的商品，然后推荐”。步骤是：1）计算所有商品两两之间的相似度；2）对用户U已交互的每个商品I，找出与I最相似的K个商品；3）将这些相似商品按相似度加权，汇总成U的推荐列表。还是刚才的例子：你买了MacBook，系统发现MacBook和AirPods、Mac Mini、Final Cut Pro软件的共现频率极高（很多人买了MacBook后紧接着买这三样），那么即使你没买过AirPods，它也会被高概率推荐。它的核心优势在于稳定性——商品库相对静态，相似度矩阵可以离线预计算并缓存，线上推理只需查表，响应速度极快；而且商品数通常远少于用户数，O(I²)的计算压力小得多。Netflix早期的推荐系统就是Item-Based CF的典范，他们发现“看过《老友记》的人，大概率也会看《生活大爆炸》”，这种物品级关联比“和你口味相似的1000个人”更容易沉淀和复用。

我们这次构建的引擎，采用Item-Based CF。原因很实际：新加坡二手汽车数据中，车型（如“Toyota Camry 2018”、“Honda Civic 2019”）是明确的、有限的物品集合，总数约2000款；而用户ID虽匿名，但数量可能达数万。用Item-Based，我们只需计算2000×2000的商品相似度矩阵，内存占用可控，计算耗时在分钟级；若用User-Based，面对数万用户，相似度矩阵元素将超十亿，普通笔记本根本无法承载。这是工程实践中最朴素的取舍：不追求理论最优，只选在给定资源下最可行、最稳定、最容易调试的方案。

2.3 矩阵稀疏性：协同过滤必须直面的“数据荒漠”

真实世界的数据，从来不是理想化的稠密矩阵。在我们的二手车数据中，一个典型用户可能只浏览或购买过3-5款车型，而整个车型库有2000款。这意味着用户-物品交互矩阵中，99%以上的单元格都是空的——这就是“稀疏性”（Sparsity）。它不是bug，而是现实。稀疏性带来两个严峻挑战：一是相似度计算失真，两个用户可能只在一款车上重叠，仅凭这一个共同点就断言他们口味相似，显然不可靠；二是冷启动问题，新用户或新车型没有任何交互记录，系统完全无法计算相似度。

解决稀疏性的核心策略，不是强行填满空白，而是建立“可信度门槛”。我们不会用所有用户对所有车型的交互来算相似度，而是只考虑那些“共同交互过足够多车型”的用户对（对Item-Based，则是共同被足够多用户交互过的车型对）。具体操作上，我们会设置一个最小共现阈值（min_common_items），比如要求两款车型至少被50个相同用户浏览过，才允许计算它们的相似度。低于这个阈值的配对，直接视为“无足够证据证明相关”，相似度置为0。这就像现实中的口碑传播：如果只有两个人都说某家餐厅好吃，你不会轻易相信；但如果一百个人都提过，这个推荐才值得参考。这个阈值不是拍脑袋定的，它需要在召回率（Recall，能推荐出多少用户真正喜欢的商品）和精确率（Precision，推荐列表里有多少是用户真会点的）之间做权衡。我们会在后续实操中，通过交叉验证来确定最优值——先试10，再试30，最后试50，看哪个值让推荐结果在测试集上的F1分数最高。记住，所有算法参数都不是教科书里的固定答案，而是你和数据反复对话后得出的共识。

3. 数据准备与协同过滤核心模块实现

3.1 新加坡二手车数据解析：从原始CSV到交互矩阵

我们使用的数据集来自新加坡本地二手车交易平台，原始文件名为sg_used_cars.csv，包含以下关键字段：user_id（用户唯一标识，字符串）、car_model（车型全称，如"Toyota Corolla Altis 2015"）、price（售价，数值）、mileage（里程数，数值）、year（上牌年份，数值）、listing_date（上架日期，日期格式）。注意，这里没有显式的“评分”字段，但推荐引擎的核心是“用户对物品的行为强度”，评分只是其中一种形式。在电商或二手车场景，更自然的强度信号是：用户是否最终购买了该车？或者，用户对该车的浏览时长、收藏次数、询价次数？由于本数据集只提供成交记录，我们采用最保守也最可靠的代理指标：是否购买（Purchase Binary）。即，只要user_id和car_model在同一行出现，就视为该用户对该车型有一次正向交互（强度=1）。这避免了引入主观评分带来的噪声，也符合“协同过滤只关心行为，不关心原因”的哲学。

第一步，用Pandas加载并初步清洗：

import pandas as pd import numpy as np # 加载数据 df = pd.read_csv('sg_used_cars.csv') # 去重：同一用户购买同一车型多次，只保留一次（避免重复强化） df = df.drop_duplicates(subset=['user_id', 'car_model']) # 处理缺失值：user_id或car_model为空的记录，直接丢弃（它们无法构成有效交互） df = df.dropna(subset=['user_id', 'car_model']) # 重置索引 df = df.reset_index(drop=True) print(f"原始数据行数: {len(df)}") print(f"清洗后行数: {len(df)}") print(f"唯一用户数: {df['user_id'].nunique()}") print(f"唯一车型数: {df['car_model'].nunique()}")

运行后，我们得到约12,500条有效购买记录，覆盖4,200个唯一用户和1,850个唯一车型。这个规模对本地开发极其友好：内存占用小，计算速度快，便于我们快速迭代调试。

第二步，构建用户-物品交互矩阵。这是协同过滤的基石，一个二维数组，行是用户，列是物品，值是交互强度（此处为0或1）。但直接用二维数组存储会浪费巨量内存（4200行 × 1850列 ≈ 777万单元格，其中99%为0）。因此，我们采用稀疏矩阵（Sparse Matrix）——只存储非零值及其位置。Scipy的csr_matrix（Compressed Sparse Row）是业界标准，它用三个一维数组高效表示：data（非零值）、indices（列索引）、indptr（行指针）。构建代码如下：

from scipy.sparse import csr_matrix from sklearn.preprocessing import LabelEncoder # 对user_id和car_model进行编码，转换为连续整数索引（0,1,2...） user_encoder = LabelEncoder() item_encoder = LabelEncoder() df['user_id_encoded'] = user_encoder.fit_transform(df['user_id']) df['car_model_encoded'] = item_encoder.fit_transform(df['car_model']) # 提取稀疏矩阵所需的三元组 row_indices = df['user_id_encoded'].values col_indices = df['car_model_encoded'].values data_values = np.ones(len(df)) # 所有交互强度均为1 # 构建CSR稀疏矩阵 num_users = len(user_encoder.classes_) num_items = len(item_encoder.classes_) interaction_matrix = csr_matrix((data_values, (row_indices, col_indices)), shape=(num_users, num_items)) print(f"交互矩阵形状: {interaction_matrix.shape}") print(f"非零元素数: {interaction_matrix.nnz}") print(f"稀疏度: {1 - interaction_matrix.nnz / (num_users * num_items):.4f}")

输出显示，矩阵大小为4200×1850，非零元素12,500个，稀疏度高达99.83%。这印证了我们之前说的“数据荒漠”——绝大多数用户-车型组合从未发生过交互。但稀疏矩阵完美解决了存储问题：它只占用了约12,500个浮点数的内存，而非777万个。

3.2 物品相似度矩阵：用余弦相似度量化“车型亲密度”

Item-Based CF的核心，是计算任意两款车型之间的相似度。我们选用余弦相似度（Cosine Similarity），因为它衡量的是两个向量的方向一致性，而非绝对长度，特别适合处理稀疏的二值交互数据。数学上，对于车型i和j，它们的相似度定义为：

sim(i, j) = (A_i • A_j) / (||A_i|| * ||A_j||)

其中，A_i是交互矩阵中第i列的向量（即所有用户对车型i的购买行为，0或1），•是点积（即共同购买i和j的用户数），||A_i||是向量模长（即购买过车型i的用户总数）。分子是两款车型的共现用户数，分母是各自用户基数的几何平均，起到归一化作用，确保相似度在[-1, 1]区间内，且对热门车型不过度倾斜。

Scikit-learn的cosine_similarity函数可以直接计算，但要注意：它默认计算行向量相似度，而我们需要的是列向量（物品）相似度。因此，我们必须先对交互矩阵进行转置（.T），再计算：

from sklearn.metrics.pairwise import cosine_similarity # 转置矩阵：行变为物品，列变为用户 item_matrix = interaction_matrix.T # 形状: (1850, 4200) # 计算物品相似度矩阵 # 注意：cosine_similarity返回的是密集矩阵，但我们只关心上三角部分（对称矩阵） item_similarity_dense = cosine_similarity(item_matrix) item_similarity_sparse = csr_matrix(item_similarity_dense) print(f"物品相似度矩阵形状: {item_similarity_sparse.shape}") print(f"相似度范围: [{item_similarity_sparse.min():.4f}, {item_similarity_sparse.max():.4f}]")

运行后，我们得到一个1850×1850的相似度矩阵。最大值接近1.0（完全相同的购买群体），最小值接近0（几乎无共同用户）。但这里有个陷阱：余弦相似度对“共同用户数极少”的配对过于宽容。比如两款车A和B，只有1个用户同时买过，而A有1000个买家，B有500个买家，那么sim(A,B) = 1 / sqrt(1000*500) ≈ 0.0014，虽然数值小，但统计上极不可靠——单一样本无法代表整体关联。因此，我们必须叠加“共现阈值”过滤。我们定义一个函数，将相似度矩阵中，共现用户数低于min_common的配对，其相似度强制设为0：

def apply_common_threshold(sim_matrix, interaction_matrix, min_common=30): """ 对相似度矩阵应用共现阈值过滤 sim_matrix: 物品相似度矩阵 (csr_matrix) interaction_matrix: 用户-物品交互矩阵 (csr_matrix) min_common: 最小共现用户数阈值 """ # 计算物品共现矩阵：C[i,j] = 同时购买i和j的用户数 # 利用矩阵乘法：interaction_matrix.T @ interaction_matrix # 因为interaction_matrix是二值的，点积即为共现数 cooccurrence_matrix = interaction_matrix.T @ interaction_matrix # 将相似度矩阵转换为密集数组以便操作（注意内存，1850x1850约2.7MB，可接受） sim_dense = sim_matrix.toarray() # 获取共现矩阵的密集形式 cooc_dense = cooccurrence_matrix.toarray() # 创建掩码：共现数 < min_common 的位置设为False mask = cooc_dense >= min_common # 应用掩码：只保留满足阈值的相似度，其余置0 sim_dense_filtered = np.where(mask, sim_dense, 0.0) return csr_matrix(sim_dense_filtered) # 应用阈值，设min_common=30 item_similarity_filtered = apply_common_threshold( item_similarity_sparse, interaction_matrix, min_common=30 ) print(f"过滤后非零相似度数: {item_similarity_filtered.nnz}")

执行后，非零相似度数从约340万（1850²）锐减至约28万，意味着只有15%的车型对拥有足够可靠的共现证据。这个数字很健康——它剔除了噪声，保留了真正有意义的关联。例如，“Toyota Camry”和“Honda Accord”这对日系中型轿车，共现用户数可能高达200+，相似度0.65；而“Toyota Camry”和“Tesla Model 3”这对燃油与电动的跨界组合，共现用户可能不足10，被果断过滤。这就是数据在说话，不是我们在设定规则。

3.3 推荐生成器：从相似度到个性化列表

有了过滤后的物品相似度矩阵，推荐就变成了一个高效的“查表+加权求和”过程。对任意一个用户U，我们的目标是：找出U所有已购买的车型，对每个车型i，取出与其最相似的K个车型（K=10），然后根据相似度加权，汇总成一个推荐得分向量，最后按得分排序，取Top-N（N=5）作为最终推荐。

关键在于“最相似的K个”如何高效获取。对每个车型i，遍历1850个相似度值找Top-K，时间复杂度O(IK)，看似不高，但当用户数达数千，实时响应就会变慢。更好的方式是，预先为每个物品i，计算并存储其Top-K相似物品的索引和相似度值，形成一个“物品邻居字典”。这样，线上推荐时，只需O(1)查字典，再O(K|U_items|)聚合即可。代码实现如下：

def build_item_knn_dict(similarity_matrix, k=10): """ 为每个物品构建Top-K相似物品字典 返回: dict, key为物品索引，value为[(相似物品索引, 相似度), ...]的列表 """ knn_dict = {} # 遍历每个物品（行） for i in range(similarity_matrix.shape[0]): # 获取第i行的所有相似度值及列索引 row_data = similarity_matrix.getrow(i).toarray().flatten() # 获取非零相似度的索引和值 nonzero_indices = np.nonzero(row_data)[0] if len(nonzero_indices) == 0: knn_dict[i] = [] continue nonzero_values = row_data[nonzero_indices] # 按相似度降序排列，取Top-K # 注意：排除自身（i==j），但我们的相似度矩阵对角线是1.0，需手动过滤 # 这里我们简单地取Top-(K+1)，然后去掉第一个（通常是自身） topk_indices = np.argsort(nonzero_values)[::-1][:k+1] topk_similarities = nonzero_values[topk_indices] topk_item_indices = nonzero_indices[topk_indices] # 过滤掉自身（索引i） valid_pairs = [] for idx, sim_val in zip(topk_item_indices, topk_similarities): if idx != i: # 排除自身 valid_pairs.append((idx, sim_val)) if len(valid_pairs) >= k: break knn_dict[i] = valid_pairs[:k] return knn_dict # 构建KNN字典，k=10 item_knn_dict = build_item_knn_dict(item_similarity_filtered, k=10) print(f"KNN字典构建完成，共{len(item_knn_dict)}个物品有邻居")

现在，推荐函数就变得异常简洁：

def get_recommendations_for_user(user_id_encoded, interaction_matrix, item_knn_dict, item_encoder, k=10, n_recommend=5): """ 为指定用户生成Top-N推荐 user_id_encoded: 用户编码后的整数ID interaction_matrix: 用户-物品交互矩阵 item_knn_dict: 物品KNN字典 item_encoder: 物品编码器，用于解码回原始车型名 k: 每个物品的邻居数 n_recommend: 返回的推荐数 """ # 获取该用户所有已交互的物品索引（即购买过的车型） # interaction_matrix[user_id_encoded] 是一个稀疏行向量 user_row = interaction_matrix.getrow(user_id_encoded) # 获取非零列索引（即用户购买过的物品ID） purchased_items = user_row.nonzero()[1] if len(purchased_items) == 0: return [] # 新用户，无历史，无法推荐 # 初始化推荐得分字典：{物品ID: 得分} recommendation_scores = {} # 对用户购买的每个物品i for item_i in purchased_items: # 获取物品i的Top-K相似物品 similar_items = item_knn_dict.get(item_i, []) # 对每个相似物品j，将其相似度累加到j的得分上 for item_j, similarity in similar_items: if item_j not in purchased_items: # 避免推荐用户已购买过的 recommendation_scores[item_j] = recommendation_scores.get(item_j, 0.0) + similarity # 按得分降序排序，取Top-N sorted_items = sorted(recommendation_scores.items(), key=lambda x: x[1], reverse=True) top_n_items = [item_id for item_id, score in sorted_items[:n_recommend]] # 解码回原始车型名 original_names = item_encoder.inverse_transform(top_n_items) return list(original_names) # 测试：为第一个用户（编码ID=0）生成推荐 test_user_id = 0 recommendations = get_recommendations_for_user( test_user_id, interaction_matrix, item_knn_dict, item_encoder ) print(f"用户 {user_encoder.inverse_transform([test_user_id])[0]} 的推荐:") for i, car in enumerate(recommendations, 1): print(f"{i}. {car}")

运行后，我们看到类似这样的输出：

用户 U100234 的推荐: 1. Honda Civic 2019 2. Toyota Corolla Altis 2018 3. Mazda 3 2020 4. Nissan Sylphy 2017 5. Subaru Impreza 2019

这个结果非常合理：用户U100234购买的是“Toyota Camry 2018”，系统推荐的全是同级别、同年代、同市场定位的日系紧凑型/中型轿车，没有推荐越野车或豪华品牌，说明相似度计算抓住了真实的用户偏好模式。整个过程，从读取用户历史，到查KNN字典，到加权聚合，再到排序输出，全部在毫秒级完成，完全满足实时推荐的性能要求。

4. 实操全流程与关键参数调优实战

4.1 从零开始的完整代码流程：可直接复制粘贴运行

为了让你能立刻上手，我把前面所有步骤整合成一个连贯、自包含的Python脚本。你只需确保安装了pandas,numpy,scipy,scikit-learn这四个包（pip install pandas numpy scipy scikit-learn），然后将数据文件sg_used_cars.csv放在同一目录下，即可一键运行。代码中每一处都添加了详细注释，解释其目的和原理，方便你理解每一步在做什么。

# -*- coding: utf-8 -*- """ Build Your First Recommendation Engine - Singapore Used Cars Author: Songhao Wu (Adapted for clarity and completeness) A complete, runnable implementation of Item-Based Collaborative Filtering. """ import pandas as pd import numpy as np from scipy.sparse import csr_matrix from sklearn.preprocessing import LabelEncoder from sklearn.metrics.pairwise import cosine_similarity import time # ------------------- STEP 1: DATA LOADING & CLEANING ------------------- print("=== STEP 1: Loading and cleaning data ===") start_time = time.time() # Load the dataset df = pd.read_csv('sg_used_cars.csv') # Basic cleaning: drop duplicates and NaNs in key columns df = df.drop_duplicates(subset=['user_id', 'car_model']) df = df.dropna(subset=['user_id', 'car_model']) df = df.reset_index(drop=True) print(f"Data loaded. Rows: {len(df)}, Unique Users: {df['user_id'].nunique()}, " f"Unique Cars: {df['car_model'].nunique()}") # ------------------- STEP 2: ENCODING & INTERACTION MATRIX ------------------- print("\n=== STEP 2: Encoding and building interaction matrix ===") # Encode user_id and car_model to integers user_encoder = LabelEncoder() item_encoder = LabelEncoder() df['user_id_encoded'] = user_encoder.fit_transform(df['user_id']) df['car_model_encoded'] = item_encoder.fit_transform(df['car_model']) # Build sparse interaction matrix (users x items) row = df['user_id_encoded'].values col = df['car_model_encoded'].values data = np.ones(len(df)) num_users = len(user_encoder.classes_) num_items = len(item_encoder.classes_) interaction_matrix = csr_matrix((data, (row, col)), shape=(num_users, num_items)) print(f"Interaction matrix built. Shape: {interaction_matrix.shape}, " f"Sparse density: {1 - interaction_matrix.nnz / (num_users * num_items):.4f}") # ------------------- STEP 3: ITEM SIMILARITY MATRIX ------------------- print("\n=== STEP 3: Computing item-item similarity matrix ===") # Transpose to get items as rows item_matrix = interaction_matrix.T # Compute cosine similarity between all pairs of items print("Computing cosine similarity... (this may take a minute)") similarity_dense = cosine_similarity(item_matrix) item_similarity_sparse = csr_matrix(similarity_dense) # Apply common threshold filter (min 30 co-purchases) def apply_common_threshold(sim_matrix, inter_matrix, min_common=30): cooc_matrix = inter_matrix.T @ inter_matrix sim_dense = sim_matrix.toarray() cooc_dense = cooc_matrix.toarray() mask = cooc_dense >= min_common sim_dense_filtered = np.where(mask, sim_dense, 0.0) return csr_matrix(sim_dense_filtered) item_similarity_filtered = apply_common_threshold( item_similarity_sparse, interaction_matrix, min_common=30 ) print(f"Similarity matrix filtered. Non-zero entries: {item_similarity_filtered.nnz}") # ------------------- STEP 4: BUILD KNN DICTIONARY ------------------- print("\n=== STEP 4: Building Top-K item neighbors dictionary ===") def build_item_knn_dict(sim_matrix, k=10): knn_dict = {} for i in range(sim_matrix.shape[0]): row_data = sim_matrix.getrow(i).toarray().flatten() nonzero_indices = np.nonzero(row_data)[0] if len(nonzero_indices) == 0: knn_dict[i] = [] continue nonzero_values = row_data[nonzero_indices] # Get top (k+1) indices, then filter out self topk_idx = np.argsort(nonzero_values)[::-1][:k+1] topk_vals = nonzero_values[topk_idx] topk_items = nonzero_indices[topk_idx] valid_pairs = [] for idx, val in zip(topk_items, topk_vals): if idx != i: valid_pairs.append((idx, val)) if len(valid_pairs) >= k: break knn_dict[i] = valid_pairs[:k] return knn_dict item_knn_dict = build_item_knn_dict(item_similarity_filtered, k=10) print(f"KNN dictionary built. Items with neighbors: {sum(1 for v in item_knn_dict.values() if v)}") # ------------------- STEP 5: GENERATE RECOMMENDATIONS ------------------- print("\n=== STEP 5: Generating recommendations for sample users ===") def get_recommendations_for_user(user_id_enc, inter_mat, knn_dict, item_enc, k=10, n=5): user_row = inter_mat.getrow(user_id_enc) purchased_items = user_row.nonzero()[1] if len(purchased_items) == 0: return [] scores = {} for item_i in purchased_items: for item_j, sim in knn_dict.get(item_i, []): if item_j not in purchased_items: scores[item_j] = scores.get(item_j, 0.0) + sim sorted_items = sorted(scores.items(), key=lambda x: x[1], reverse=True) top_n_ids = [item_id for item_id, _ in sorted_items[:n]] return list(item_enc.inverse_transform(top_n_ids)) # Test on first 3 users for test_id in [0, 1, 2]: if test_id < num_users: recs = get_recommendations_for_user(test_id, interaction_matrix, item_knn_dict, item_encoder) original_user = user_encoder.inverse_transform([test_id])[0] print(f"User {original_user}: {recs}") print(f"\nTotal execution time: {time.time() - start_time:.2f} seconds")

将这段代码保存为recommendation_engine.py，在终端运行python recommendation_engine.py，你就能看到完整的执行日志和推荐结果。整个流程耗时通常在10-30秒内，取决于你的机器性能。这就是“第一个推荐引擎”的全部：没有魔法，只有清晰的步骤、可验证的逻辑、和可复现的结果。

4.2 参数调优实战：min_common与K值的黄金平衡点

算法效果的好坏，很大程度上取决于两个关键参数：min_common（最小共现用户数）和K（每个物品的邻居数）。它们不是固定的，必须通过实验找到最适合你数据的值。我们采用最朴实的网格搜索（Grid Search）加交叉验证（Cross-Validation）方法。

首先，定义评估指标。推荐系统常用的是Hit Rate@N（命中率）和Mean Average Precision@N（MAP@N）。Hit Rate@5 表示：在为用户生成的Top-5推荐中，是否有至少一个是他/她未来会购买的车型？MAP@5则更精细，它计算每个用户推荐列表的平均精度（AP），再对所有用户取平均。AP的计算是：对每个在Top-5中命中的商品，计算“到该位置为止的精度”，然后求平均。例如，用户真实购买了A、B、C三款车，推荐列表为[X, A, Y, B, Z]，则A在位置2，精度=1/2；B在位置4，精度=2/4=1/2；所以AP = (1/2 + 1/2) / 2 = 0.5。

我们模拟一个简单的留一法（Leave-One-Out）交叉验证：对每个用户，随机隐藏他/她的一次购买记录作为测试集，用剩下的记录训练模型，然后看推荐Top-5是否能命中这个隐藏项。

def evaluate_hit_rate_at_k(user_id_enc, interaction_matrix, item_knn_dict, k=10, n=5): """Evaluate Hit Rate@N for a single user using leave-one-out.""" user_row = interaction_matrix.getrow(user_id_enc) purchased_items = user_row.nonzero()[1] if len(purchased_items) < 2: return 0 # 至少需要2次购买才能留一 # 随机选择一个作为测试项 test_item = np.random.choice(purchased_items) train_items = purchased_items[purchased_items != test_item] # 用train_items生成推荐 scores = {} for item_i in train_items: for item_j, sim in item_knn_dict.get(item_i, []): if item_j not in train_items and item_j != test_item: scores[item_j] = scores.get(item_j, 0.0) + sim # 获取Top-N推荐 sorted_items = sorted(scores.items(), key=lambda x: x[1], reverse=True) top_n_ids = [item_id for item_id, _ in sorted_items[:n]] # 检查是否命中 return 1 if test_item in top_n_ids else 0 # 在100个随机用户上评估Hit Rate@5 np.random.seed(42) # 固定随机种子保证可重现 hit_rates = [] for _ in range(100): user_id = np.random.randint(0, num_users) hit = evaluate_hit_rate_at_k(user_id, interaction_matrix, item_knn_dict, n=5) hit_rates.append(hit) print(f"Average Hit Rate@5 (100 users): {np.mean(hit_rates):.4f}")

现在，我们系统性地测试不同min_common和K的组合。我们创建一个参数网格：min_common取[10, 20, 30, 40, 50]，K取[5, 10, 15, 20]。对每一组参数，我们：