当前位置：首页 > news >正文

纯Pandas实现内容型电影推荐系统：零机器学习框架的可解释推荐

news 2026/8/3 9:59:09

1. 项目概述：用纯 Pandas 构建电影推荐系统，为什么这件事值得你花 45 分钟认真读完

我带过十几届数据科学训练营，每次讲到推荐系统，学员第一反应都是：“得上 Scikit-learn 吧？”“是不是得调 TensorFlow？”“至少也得用 Surprise 库吧？”——结果我当场打开 Jupyter Notebook，只 import pandas as pd，三分钟跑出一个能打的电影推荐器，全场安静。这不是炫技，而是回归本质：推荐系统的核心逻辑，从来就不是模型复杂度，而是数据结构的设计与语义关系的显式表达。这篇内容讲的，就是一个完全不依赖任何机器学习框架、仅靠 Pandas 的索引对齐、向量化运算和 DataFrame 操作完成的完整内容型电影推荐系统。它不追求 AUC 0.99，但每一步都可解释、可调试、可复现——你改一行代码，就能立刻看到推荐结果怎么变；你删掉一个用户评分，就能马上验证权重如何重新分配。关键词里写的“Artificial Intelligence”，在这里不是黑箱模型，而是你亲手搭建的数据流动管道：从原始 CSV 文件开始，清洗年份、拆解类型、构造二值特征矩阵、计算用户画像向量、加权匹配全量电影库，最后输出带标题、年份、类型的真实电影列表。适合三类人：刚学完 Pandas 基础想练手的新手、被各种 ML 库绕晕想找回直觉的中级从业者、以及需要快速验证推荐逻辑是否合理的算法工程师。它不替代工业级系统，但它让你看清骨架——就像木匠不会先造电锯才学刨子，我们得先知道“推荐”这件事在数据层面到底长什么样。

2. 整体设计思路拆解：为什么放弃所有 ML 库，只用 Pandas？

2.1 推荐系统的两种底层范式，决定了工具选型

市面上绝大多数教程一上来就讲协同过滤（Collaborative Filtering）或矩阵分解（Matrix Factorization），这没错，但它们依赖的是“群体行为统计”，核心是稀疏用户-物品交互矩阵的低秩近似。而本文选择的是内容型推荐（Content-Based），它的出发点完全不同：“这个用户喜欢什么，就给他找相似的东西”。这里的“相似”，不是基于别人怎么评，而是基于物品自身的属性——对电影来说，就是类型（Genre）、年份（Year）、导演、演员、剧情关键词等。而类型，恰恰是这个数据集里最稳定、最易提取、最无歧义的结构化特征。所以整个系统的设计锚点非常明确：把“类型”从字符串变成可计算的向量，把“用户偏好”从离散评分变成连续权重向量，再用向量内积衡量匹配度。这个过程，本质上就是线性代数里的矩阵乘法：用户画像向量（1×N） × 电影特征矩阵（N×M） = 推荐得分向量（1×M）。Pandas 的.dot()方法原生支持 DataFrame 间的矩阵乘法，且自动按列名/索引对齐，比手写 NumPy 循环更安全、比调用 Scikit-learn 的TfidfVectorizer更透明。我试过用 Scikit-learn 做同样事：先fit_transform生成稀疏矩阵，再转成 dense，再做 dot，中间报错要查文档半小时；而 Pandas 方案，所有中间结果.head()一眼可见，.dtypes一查就明，.isna().sum()一跑就清。这不是偷懒，是把调试成本压到最低。

2.2 为什么不用 One-Hot Encoder？手写循环才是关键控制点

你可能会问：Pandas 不是有pd.get_dummies()吗？为什么原文要写那个看起来很笨的 for 循环？

for index, row in movies_df.iterrows(): for genre in row['genres']: movies_with_genres.at[index, genre] = 1

答案藏在数据特性里。movies.csv中的genres字段是类似"Action|Comedy|Drama"的竖线分隔字符串。如果直接pd.get_dummies(movies_df['genres'].str.get_dummies('|'))，会得到一个维度爆炸的稀疏矩阵——因为每个组合（如"Action|Comedy"）会被当作独立类别。但我们要的是单个类型标签的独立存在性：一部电影属于 Action 就标 1，属于 Comedy 就标 1，两者不互斥。手写循环强制遍历每个 genre 字符串，对其中每个子类型单独赋值，确保最终列名就是"Action","Comedy","Drama"这些原子类型。这带来了两个不可替代的优势：第一，列名可读性强，调试时movies_with_genres['Action'].sum()直接告诉你多少部动作片；第二，后续用户画像计算时，Lawrence_profile['Action']的值有明确业务含义——它代表用户对动作片的综合偏好强度，而不是某个模糊组合的权重。我踩过的坑是：某次误用get_dummies生成了"Action|Comedy"列，结果推荐列表里全是《死侍》这类混搭片，完全偏离用户真实意图。手写循环多敲 5 行代码，换来的是逻辑可控性，这笔账怎么算都值。

2.3 用户画像构建：不是平均分，而是加权中心

很多初学者以为“用户画像”就是给每个类型算个平均分。比如 Lawrence 给 3 部动作片打了 4.5、4.0、5.0，就认为他动作片偏好是 4.5。这是严重误解。真实场景中，用户对不同电影的评分力度不同，且同一类型下电影质量差异巨大。所以我们的方案是：用电影的类型向量（0/1）乘以该电影的评分，再对所有电影求和。数学上就是∑(genre_vector_i * rating_i)。这意味着：如果 Lawrence 给一部纯动作片（[1,0,0,...]）打了 5.0，它对 Action 维度的贡献就是 5.0；如果他给一部动作+喜剧片（[1,1,0,...]）打了 3.0，那么 Action 和 Comedy 各得 3.0 贡献。最终Lawrence_profile['Action'] = 5.0 + 3.0 + ...。这个值越大，说明他在动作类型上的“总曝光强度”越高。它天然包含了用户评分的置信度——打高分的电影，其类型获得更高权重；打低分的，拉低对应维度。这比简单平均更符合人类决策逻辑：你不会因为看了十部平庸的动作片就爱上动作片，但一部神作可能彻底改变你的偏好。我在实测中对比过两种方式：用平均分画像，Top10 推荐里有 4 部冷门B级片；用加权中心画像，Top10 全是《盗火线》《黑暗骑士》这类公认标杆，用户反馈“这确实是我会点开的”。

3. 核心细节解析与实操要点：从原始数据到可运行代码的每一处陷阱

3.1 数据加载阶段：为什么`na_values`参数必须手动指定？

原始movies.csv和ratings.csv看似干净，但真实世界数据永远有惊喜。我下载后用文本编辑器打开movies.csv，发现第 127 行标题是"Toy Story (1995)"，而第 892 行是"--"，第 3456 行是"?"。Pandas 默认只识别""、"NaN"、"None"为缺失值，对"--"或"?"会当成字符串加载，导致后续.astype('int16')报错invalid literal for int()。这就是为什么原文必须写：

missing_values = ['na','--','?','-','None','none','non'] movies_df = pd.read_csv(movies_data, na_values=missing_values)

这个列表不是随便凑的，而是基于经验：'--'是 Excel 导出常用占位符，'?'是某些数据库空值标记，'-'是手工录入省略，'na'是小写未规范化的 NaN。漏掉任何一个，都可能让year列混入字符串，破坏后续数值计算。我曾因漏掉'-'，导致movies_df['year'].fillna(0)实际填充的是字符串'0'，astype('int16')后变成 Unicode 编码值，推荐结果全乱。实操心得：永远先print(movies_df['year'].unique())查看实际值分布，再决定na_values清单，而不是盲目复制教程。

3.2 年份提取：正则表达式中的括号陷阱与`expand=False`

提取年份看似简单，但原文两行正则：

movies_df['year'] = movies_df.title.str.extract('(\(\d\d\d\d\))', expand=False) movies_df['year'] = movies_df.year.str.extract('(\d\d\d\d)', expand=False)

第一行捕获带括号的(1995)，第二行从(1995)中再抽1995。为什么要分两步？因为正则'$(\d{4})$'理论上能一步到位，但str.extract()在expand=True（默认）时返回 DataFrame，expand=False才返回 Series。而expand=False的关键作用是：当正则无匹配时，返回 NaN；若expand=True，则返回含 NaN 的单列 DataFrame，后续.str.extract()会报错。我试过合并为一行：movies_df['year'] = movies_df.title.str.extract('$(\d{4})$', expand=False)，结果发现《The Matrix Reloaded (2003)》能匹配，但《12 Angry Men》无括号，返回 NaN，没问题；可一旦遇到《(500) Days of Summer》，正则$(\d{4})$会错误匹配(500)，导致年份变成500。所以原文先捕获完整(1995)，再从中抽数字，双重保险。避坑技巧：执行后立刻检查movies_df[movies_df['year'] < 1900]['title']，人工核对异常值，比写复杂正则更可靠。

3.3 类型拆分：`str.split('|')`为何要转义？`U+007C`是什么鬼？

movies_df['genres'] = movies_df['genres'].str.split(r'\|')

r''表示原始字符串，\|显式转义。如果不转义，split('|')会把字符串按每个字符切分，"Action|Comedy"变成['A','c','t','i','o','n','|','C','o','m','e','d','y']，后续循环直接崩溃。我第一次没转义，movies_with_genres.head()显示全是单字母列名，debug 半小时才发现是正则作祟。经验总结：所有str.split()、str.replace()涉及特殊字符（.,*,+,?,|,^,$），一律加r''前缀并转义，宁可啰嗦，绝不侥幸。

3.4 特征矩阵构建：`at[]`与`loc[]`的性能与安全性抉择

原文用movies_with_genres.at[index, genre] = 1赋值，而非movies_with_genres.loc[index, genre] = 1。区别在哪？at[]是标量访问器，专为单值设置优化，速度比loc[]快 3-5 倍；更重要的是，at[]在列不存在时会自动创建新列，而loc[]会报错KeyError。在循环中动态创建上百个类型列时，at[]是唯一可行方案。但at[]有风险：如果index或genre有拼写错误，它会静默失败（不报错，但值没设上）。所以必须在循环后验证：

# 确保所有类型列都已创建 expected_genres = set(sum(movies_df['genres'].tolist(), [])) actual_columns = set(movies_with_genres.columns) - set(['movieId','title','genres','year']) assert expected_genres.issubset(actual_columns), f"Missing genres: {expected_genres - actual_columns}"

我曾因genre.strip()没做，导致"Action "（带空格）和"Action"被视为两列，Lawrence_profile计算时漏掉一半权重。实操提醒：循环后必跑movies_with_genres.columns.tolist()[:10]，肉眼确认前几列是"Action","Adventure"等标准名，而非"Action ","Adventure "。

4. 实操过程与核心环节实现：从零开始的完整可复现步骤

4.1 环境准备与数据获取：绕过 GitHub 限速的本地缓存策略

原文直接从 GitHub raw URL 加载：

movies_data = 'https://raw.githubusercontent.com/.../movies.csv'

但实际运行时，GitHub 对未认证请求有速率限制，常出现HTTP 403或超时。更鲁棒的做法是：

import os import requests def load_data(url, local_path): if not os.path.exists(local_path): print(f"Downloading {url}...") r = requests.get(url) r.raise_for_status() with open(local_path, 'wb') as f: f.write(r.content) print("Download complete.") return pd.read_csv(local_path, na_values=['na','--','?','-','None','none','non']) movies_df = load_data( 'https://raw.githubusercontent.com/Lawrence-Krukrubo/Building-a-Content-Based-Movie-Recommender-System/master/movies.csv', 'movies.csv' )

这样首次运行下载并缓存，后续直接读本地文件，速度提升 10 倍。同时requests.get()可加timeout=30防卡死。参数说明：na_values列表必须包含'-'，因为ratings.csv中有大量-表示缺失评分，不处理会导致rating列变为 object 类型，无法.astype('float64')。

4.2 数据清洗全流程：逐行代码详解与中间状态验证

步骤 1：年份提取与清理

# 提取年份（带括号） movies_df['year'] = movies_df['title'].str.extract(r'(\(\d{4}\))', expand=False) # 去括号，只留数字 movies_df['year'] = movies_df['year'].str.extract(r'(\d{4})', expand=False) # 从标题中移除年份括号 movies_df['title'] = movies_df['title'].str.replace(r'\(\d{4}\)', '', regex=True) # 清理首尾空格 movies_df['title'] = movies_df['title'].str.strip() # 验证：检查年份列是否有非数字 print("Year column unique values (first 10):", movies_df['year'].unique()[:10]) print("Year column dtype:", movies_df['year'].dtype) # 若有非数字，强制转 numeric 并设 errors='coerce' movies_df['year'] = pd.to_numeric(movies_df['year'], errors='coerce') # 填充缺失年份为 0，并转 int16 movies_df['year'] = movies_df['year'].fillna(0).astype('int16')

提示：str.replace(..., regex=True)显式声明正则，避免 Pandas 未来版本默认行为变更。

步骤 2：类型拆分与标准化

# 拆分类型，去除空格 movies_df['genres'] = movies_df['genres'].str.split(r'\|').apply( lambda x: [g.strip() for g in x] if isinstance(x, list) else [] ) # 验证拆分效果 print("Sample genres after split:", movies_df.iloc[0]['genres']) print("All unique genres count:", len(set(sum(movies_df['genres'].tolist(), [])))) # 创建特征矩阵 movies_with_genres = movies_df.copy() # 初始化所有类型列为 0 all_genres = set(sum(movies_df['genres'].tolist(), [])) for genre in all_genres: movies_with_genres[genre] = 0 # 逐行赋值（关键！） for idx, row in movies_df.iterrows(): for genre in row['genres']: if genre in all_genres: # 防御性检查 movies_with_genres.at[idx, genre] = 1 # 填充 NaN 为 0（应对未覆盖的行） movies_with_genres = movies_with_genres.fillna(0)

注意：sum(movies_df['genres'].tolist(), [])是扁平化嵌套列表的 Pythonic 写法，比双重 for 循环快。

步骤 3：用户输入处理与 ID 匹配

# Lawrence 的评分（注意：电影名必须与 movies_df 完全一致） Lawrence_movie_ratings = [ {'title': 'Predator', 'rating': 4.9}, {'title': 'Final Destination', 'rating': 4.9}, # ... 其他电影 ] # 转 DataFrame Lawrence_ratings_df = pd.DataFrame(Lawrence_movie_ratings) # 关键：用 merge 而非 map，因 title 可能重复，merge 保证一对一 merged = pd.merge( Lawrence_ratings_df, movies_df[['movieId', 'title']], on='title', how='inner' # 只保留 movies_df 中存在的电影 ) # 检查匹配结果 print(f"Input movies: {len(Lawrence_ratings_df)}") print(f"Successfully matched: {len(merged)}") if len(merged) < len(Lawrence_ratings_df): unmatched = set(Lawrence_ratings_df['title']) - set(merged['title']) print(f"Unmatched titles: {unmatched}") # 最终用户评分表 Lawrence_movie_ratings = merged.copy()

实操心得：永远用how='inner'，避免因电影名拼写差异引入 NaN；unmatched集合帮你快速定位问题，如原文要求"Avengers, The"而不是"The Avengers"。

4.3 用户画像构建：矩阵运算的完整推导与验证

步骤 1：提取用户观看电影的类型矩阵

# 获取 Lawrence 看过的电影在特征矩阵中的行 Lawrence_genres_df = movies_with_genres[ movies_with_genres['movieId'].isin(Lawrence_movie_ratings['movieId']) ].copy() # 重置索引，删除无关列 Lawrence_genres_df = Lawrence_genres_df.reset_index(drop=True) Lawrence_genres_df = Lawrence_genres_df.drop(['movieId', 'title', 'genres', 'year'], axis=1) # 验证形状：行数=评分电影数，列数=总类型数 print(f"Lawrence_genres_df shape: {Lawrence_genres_df.shape}")

步骤 2：计算用户画像向量

# 确保评分列与 genres 行数对齐 assert len(Lawrence_genres_df) == len(Lawrence_movie_ratings), "Row count mismatch!" # 计算点积：genres_matrix.T @ ratings_vector # Lawrence_genres_df.T 是 (N_types × N_movies)，Lawrence_movie_ratings['rating'] 是 (N_movies,) Lawrence_profile = Lawrence_genres_df.T.dot(Lawrence_movie_ratings['rating']) # 验证：profile 值应为正数，且总和 > 0 print(f"Lawrence_profile sum: {Lawrence_profile.sum():.2f}") print(f"Top 5 genres: {Lawrence_profile.nlargest(5)}") # 归一化（可选，使分数在 0-1 间） Lawrence_profile_norm = Lawrence_profile / Lawrence_profile.sum()

数学原理：dot()等价于np.dot(A.T, B)，结果是每个类型列与评分向量的内积，即∑(genre_j_i * rating_i)，完美对应加权中心定义。

步骤 3：生成推荐列表

# 准备全量电影特征矩阵（去除非类型列） movies_features = movies_with_genres.set_index('movieId') movies_features = movies_features.drop(['title', 'genres', 'year'], axis=1) # 计算所有电影的匹配分：features_matrix @ profile_vector scores = movies_features.dot(Lawrence_profile) # 排序并取 Top 20 recommendation_table = scores.sort_values(ascending=False) # 关联电影信息 movies_info = movies_df.set_index('movieId')[['title', 'year', 'genres']] top_20_ids = recommendation_table.index[:20] recommended_movies = movies_info.loc[top_20_ids].copy() recommended_movies['score'] = recommendation_table.values[:20] # 输出结果（按 score 降序） print(recommended_movies[['title', 'year', 'genres', 'score']].round(3))

关键点：movies_features.dot(Lawrence_profile)自动按列名对齐，Lawrence_profile的索引（类型名）必须与movies_features的列名完全一致，否则返回 NaN。这就是为什么前面要严格标准化类型名。

5. 常见问题与排查技巧实录：那些让新手卡住 3 小时的真问题

5.1 问题速查表：症状、原因、解决方案

症状	可能原因	解决方案
`KeyError: 'Action'`在`Lawrence_profile['Action']`	`movies_with_genres`中无`'Action'`列	运行`print(set(movies_with_genres.columns))`，检查类型名是否含空格或大小写不一致；用`movies_df['genres'].explode().value_counts()`查看原始类型分布
`ValueError: matrices are not aligned`在`.dot()`	`Lawrence_genres_df`列名与`movies_features`列名不匹配	执行`set(Lawrence_genres_df.columns) == set(movies_features.columns)`，不等则用`movies_features = movies_features.reindex(columns=Lawrence_genres_df.columns, fill_value=0)`对齐
推荐列表全是同一年份（如 1995）	`movies_df['year']`未正确提取，导致`movies_with_genres`索引混乱	检查`movies_df['movieId'].is_unique`，若为 False，说明`movieId`重复，需`movies_df = movies_df.drop_duplicates(subset=['movieId'])`
`Lawrence_profile.sum()`为 0	用户评分电影在`movies_with_genres`中无匹配行	运行`Lawrence_movie_ratings['movieId'].isin(movies_with_genres['movieId']).sum()`，若为 0，说明 ID 匹配失败，回溯`pd.merge`步骤
推荐分数全为`inf`或`nan`	`Lawrence_profile.sum()`为 0，除零错误	在`recommendation_table_df = (movies_with_genres.dot(Lawrence_profile)) / Lawrence_profile.sum()`前加`if Lawrence_profile.sum() == 0: raise ValueError("Profile sum is zero!")`

5.2 真实调试案例：我如何定位并修复“推荐结果为空”的问题

上周一位学员发来截图：recommendation_table_df.head()显示全NaN。我让他依次执行：

print(Lawrence_genres_df.shape)→ 输出(0, 20)，说明Lawrence_genres_df为空；
print(Lawrence_movie_ratings['movieId'].head())→ 显示[1, 2, 3, ...]；
print(movies_with_genres['movieId'].head())→ 显示[1, 2, 3, ...]；
print(Lawrence_movie_ratings['movieId'].isin(movies_with_genres['movieId']).sum())→ 输出0；问题定位：ID 类型不一致！Lawrence_movie_ratings['movieId']是float64（因 merge 时某列有 NaN），而movies_with_genres['movieId']是int32。isin()对浮点和整数比较返回 False。
解决方案：在 merge 后立即转换类型：

Lawrence_movie_ratings['movieId'] = Lawrence_movie_ratings['movieId'].astype('int32')

加这一行，问题解决。教训：永远用df.dtypes检查关键列类型，不要假设。

5.3 性能优化技巧：处理百万级数据的 Pandas 实践

虽然本例只有 9742 部电影，但逻辑可扩展。当movies_with_genres达到 10 万行时，for循环会变慢。优化方案：

向量化替代循环：用pd.concat()和pd.get_dummies()组合：

# 展平 genres 列 exploded = movies_df.explode('genres') # 生成哑变量 genre_dummies = pd.get_dummies(exploded['genres'], prefix='', prefix_sep='') # 按 movieId 汇总（max 聚合，因只需 0/1） movies_features = genre_dummies.groupby(exploded['movieId']).max()

内存节省：对movies_features使用pd.SparseDtype("int", 0)存储稀疏矩阵；

并行加速：用swifter库加速str.split()：

import swifter movies_df['genres'] = movies_df['genres'].swifter.apply(lambda x: x.split(r'\|'))

5.4 业务增强建议：让推荐结果更“像人”

纯技术实现只是起点。我在实际项目中增加了三个小改进，显著提升用户体验：

多样性控制：Top 20 中避免同类电影扎堆。在排序后，用贪心算法重排：

diverse_list = [] seen_genres = set() for movie_id in top_20_ids: movie_genres = set(movies_df[movies_df['movieId']==movie_id]['genres'].iloc[0]) if not seen_genres.intersection(movie_genres): diverse_list.append(movie_id) seen_genres.update(movie_genres)

新片加权：对year > 2010的电影，分数* 1.2，鼓励发现新内容；
冷启动提示：若用户评分少于 3 部，返回"基于您有限的评分，我们推荐经典作品：" + top_3_classics。

6. 工具链与工程化思考：从 Notebook 到生产环境的跨越

6.1 如何将此逻辑封装为可复用函数？

不要让每次推荐都重跑全部清洗。封装核心函数：

class ContentRecommender: def __init__(self, movies_csv_path, ratings_csv_path=None): self.movies_df = self._load_and_clean_movies(movies_csv_path) self.movies_features = self._build_features_matrix(self.movies_df) def _load_and_clean_movies(self, path): # 复用前述清洗逻辑 pass def _build_features_matrix(self, df): # 复用前述特征矩阵构建 pass def get_recommendations(self, user_ratings, n=20): """ user_ratings: list of dict [{'title': 'Movie', 'rating': 4.5}] Returns: pd.DataFrame with columns ['title', 'year', 'genres', 'score'] """ # 复用前述画像与推荐逻辑 pass # 使用 recommender = ContentRecommender('movies.csv') recs = recommender.get_recommendations([ {'title': 'Inception', 'rating': 4.8}, {'title': 'Interstellar', 'rating': 4.9} ], n=10)

这样，前端只需传 JSON，后端调用get_recommendations()，5 行代码集成。

6.2 为什么说这是“AI 工程师的基本功”？

有人质疑：“这算 AI 吗？连模型都没训练。” 我的回答是：真正的 AI 工程，80% 是数据工程，15% 是评估，5% 是模型选择。这个 Pandas 推荐器暴露了所有关键决策点：特征如何定义（类型 vs 导演 vs 关键词）、缺失值如何处理（填 0 vs 插值）、用户信号如何聚合（加权和 vs 平均 vs 最大值）、结果如何归一化（除以 sum vs min-max）。这些选择没有标准答案，取决于业务目标。比如电商推荐，用户点击是强信号，应加权；而电影评分是弱信号，需结合观看时长。Pandas 方案强迫你直面每一个选择，而不是交给surprise.Trainset.build_full_trainset()黑箱处理。我带的团队，新人入职第一周任务就是用纯 Pandas 复现这个推荐器，第二周再对比 LightFM 结果。只有亲手拧过每一颗螺丝，才知道哪颗该用合金，哪颗该用塑料。

6.3 后续可扩展方向：不止于电影

这套范式可无缝迁移到其他领域：

新闻推荐：genres→topic_tags（从文章正文 TF-IDF 提取）；
商品推荐：genres→product_attributes（品牌、价格区间、材质）；
音乐推荐：genres→audio_features（BPM、能量值、声乐度，来自 Spotify API）。核心不变：把物品属性向量化，把用户行为加权聚合，用内积匹配。下次你看到推荐系统，先问自己：它的“类型”是什么？它的“评分”是什么？它的“匹配”是如何计算的？答案往往就藏在几行 Pandas 代码里。

我在实际使用中发现，最有效的推荐往往不是最复杂的，而是最透明的。当产品同学指着推荐结果问“为什么推这个？”，你能打开 Jupyter，movies_with_genres.loc[1234]一行展示这部电影的类型向量，再Lawrence_profile一行展示用户偏好，最后movies_with_genres.loc[1234].dot(Lawrence_profile)算出分数——这种可解释性，是任何黑箱模型都无法替代的信任基石。

查看全文

http://www.jsqmd.com/news/985335/