当前位置：首页 > news >正文

Ali-tianchi news：all

news 2026/7/16 1:12:14

一、Data

offline：线下，从分离数据集构造验证集，检验效果
valid：线上，特征工程√，召回和排序模型的参数已经调优完毕后对全部数据使用

1.1 offline 离线划分：留一法

从训练集随机筛选50,000 个用户作为离线验证集用户，将他们交互流中的最后1条点击剥离作为验证目标，其余交互回填入大盘日志用来做特征和召回计算

df_click:留一法剩余训练集+测试集全部行为按'user_id','click_timestamp'排序
df_query：留一法+测试集['user_id', 'click_article_id']→\rightarrow→test集click_article_id=-1

1.2 valid

df_click:训练集+测试集全部行为按'user_id','click_timestamp'排序
df_query：测试集['user_id', 'click_article_id']→\rightarrow→test集click_article_id=-1

二、itemcf 召回

u-点击i-相似i

2.1 cal_sim相似度矩阵计算

遍历所有用户的历史点击序列，计算出文章与文章之间的相似度矩阵WWW
Sim(i,j)=∑u∈Ui∩Ujα⋅0.9∣loc2−loc1∣−1log⁡(1+∣Iu∣)∣Ui∣⋅∣Uj∣\text{Sim}(i, j) = \frac{\sum_{u \in U_{i} \cap U_{j}} \frac{\alpha \cdot 0.9^{|loc2 - loc1| - 1}}{\log(1 + |I_u|)}}{\sqrt{|U_i| \cdot |U_j|}}Sim(i,j)=∣Ui∣⋅∣Uj∣∑u∈Ui∩Ujlog(1+∣Iu∣)α⋅0.9∣loc2−loc1∣−1∣Iu∣|I_u|∣Iu∣：用户u的总点击新闻数
Ui，∣Ui∣U_i，|U_i|Ui，∣Ui∣：点击了新闻事件iii的用户集合，总数量

user_item_dict字典：按照用户id分组聚合{user_id:click_article_id序列}
基础相似度计算：对于同一用户序列中的文章i，ji，ji，j对应距离下标loc1，loc2loc1，loc2loc1，loc2
- 新闻具有单向兴趣流转特征loc2>loc1loc2 > loc1loc2>loc1（先点iii后点jjj），方向权重α\alphaα= 1，反之 0.7。
- 惩罚1位置距离衰减同一序列2篇文章离得越远，相关性越低：0.9(∣loc2−loc1∣−1)0.9^{(|loc2 - loc1| - 1)}0.9(∣loc2−loc1∣−1)
- 惩罚2用户活跃度惩罚点击过多新闻的用户水军贡献低，分母除以log⁡(1+∣Iu∣)\log(1 +|I_u|)log(1+∣Iu∣)来打压。
余弦相似度归一化：使用传统的协同过滤归一化公式进行平滑，消除热门偏置：Sim基础∣Ui∣⋅∣Uj∣\frac{Sim_{基础}}{\sqrt{|U_i| \cdot |U_j|}}∣Ui∣⋅∣Uj∣Sim基础

返回sim_dict物品间相似度字典, user_item_dict用户-物品字典{user_id:click_article_id序列}
sim_dict{当前文章_A: {关联文章_B: 0.334, 关联文章_C: 0.125}}

2.2 多进程并行化近邻召回

触发异步多进程：multitasking
召回 recall：df_query
- 双击近邻策略（最近兴趣截断）：逆序截断，只取出用户最近点击的2 个文章作为特征传导
- 位置衰减&相似度累加：对最近 2 个文章，分别从矩阵中召回与之最相似的200个文章。先应用0.7loc0.7^{loc}0.7loc进行位置衰减，再累加得分。最终取Top 100个文章。
打标签 (Labeling)：
- valid：判断召回的文章是否等于用户真正的下一跳，是则标记 label=1，其余为 0。
- online：真实标签统一初始化为占位符 NaN。