当前位置：首页 > news >正文

板球百年概率预测：基于50分临界点的实时二分类建模

news 2026/6/16 9:13:34

1. 项目概述：当板球遇上数据科学，我们到底在预测什么？

“MoneyBalling Cricket”这个标题一出来，老球迷大概会心一笑——它直接致敬了2011年那部改变职业体育管理范式的电影《点球成金》。但这里没有布拉德·皮特饰演的奥克兰运动家队总经理，也没有乔纳·希尔演的耶鲁统计学高材生，只有一个板球数据爱好者，坐在电脑前，盯着CricSheet上一百多万个球的数据，琢磨一个问题：一个击球手打到50分之后，他最终能拿下百年（100分）的概率，到底是多少？不是赛后复盘，不是赛后归因，而是在第53球、第57球、第61球那个瞬间，实时给出一个有依据的概率判断。这听上去像玄学，但背后是严谨的二元分类建模：1代表“将达成百年”，0代表“最终止步于99分或更低”。关键词里只有一个词——Cricket，但它撑起了整个项目的全部语境：这不是通用的机器学习练手项目，而是一个高度垂直、规则严苛、数据稀疏、业务逻辑极强的领域建模任务。

我做过不少体育类预测模型，从NBA三分命中率到网球发球胜率，但板球百年预测的特殊性在于它的“低频+高价值+强依赖路径”。全数据集里35,357次击球中，只有4,002次百年，占比3.16%——这意味着每32次击球才出1次百年。这种极端不平衡，让Accuracy（准确率）彻底失效：哪怕模型把所有样本都预测为“不会百年”，准确率也能轻松冲到96.8%，但毫无业务意义。你不能靠“大概率不发生”来下注，也不能靠“大概率不发生”来安排战术。真正有用的是：当一个球员站上50分门槛时，模型能不能精准识别出那3.16%里的“真命天子”？能不能把误报（说他会百年结果没成）控制住，同时又不错过太多真百年？这直接决定了模型是能放进教练组的赛前简报里，还是只能锁进硬盘当学术练习。所以这个项目从头到尾，不是在比谁的AUC高0.01，而是在解决一个真实场景下的决策支持问题：在资源有限（比如替补席只剩一人）、时间紧迫（比赛还剩最后15轮）、信息不全（对手投球手状态未知）的情况下，如何用历史数据给当下决策提供可量化的信心支撑？它适合三类人：想入门体育数据分析的初学者（因为流程完整、原理清晰）、正在做板球相关产品（如直播数据插件、博彩风控系统）的工程师（因为特征工程直击业务痛点）、以及所有被“百年时刻”点燃过热血的老球迷（因为每一个数字背后，都是一个活生生的击球手，在压力下挥棒的轨迹）。

2. 核心思路拆解：为什么必须从“50分时刻”切入，而不是从“开球第一球”开始？

2.1 问题重构：从“全程预测”到“临界点预测”的必然选择

刚拿到CricSheet的原始数据时，我第一反应是建一个“全场级”模型：输入球员ID、对手球队、场地、天气、赛制（ODI/T20），输出百年概率。跑完才发现，AUC卡在0.52左右，几乎和抛硬币没区别。问题出在哪？不是算法不行，而是预测起点错了。板球百年不是掷骰子，它是一个典型的“路径依赖型事件”。一个球员能否拿下百年，90%以上的变量，是在他打到50分之后才逐步暴露出来的。开球时，你只知道他的生涯平均分、对手投球手的生涯经济率，但你不知道他今天的手感如何、是否适应这个球场的草皮、是否被某个特定投球手克制、当前搭档的状态、甚至更微妙的——他此刻的心理阈值。这些关键变量，在50分之前是不可观测的“黑箱”。强行用开球时的静态特征去预测一个动态过程的终点，就像用出生证明去预测一个人能否成为奥运冠军，理论上可行，但实操中噪声远大于信号。

所以，“简化问题”在这里不是偷懒，而是回归建模本质：预测能力必须与可观测信息同步增长。我把预测锚点从“Match Start”挪到了“First 50 Reached”。这个选择背后有三层硬逻辑：

第一层是数据可行性。CricSheet的ball-by-ball数据里，每个球都记录了当前击球手的累计得分。我可以精确地定位到“该击球手在本局中首次达到或超过50分”的那个球号（Ball Number），并截取那一刻的所有现场状态——剩余球数、当前比分、搭档得分、已出局人数、当前投球手ID、甚至上一球的结果（是四分、六分还是出局）。这些是50分时刻真实存在、可测量、无延迟的信息，构成了模型的“感知边界”。

第二层是业务合理性。职业板球队的分析师在比赛中，最关注的几个节点就是“30分”、“50分”、“80分”。30分看手感是否热身完毕，50分看是否进入“节奏区”，80分则开始评估“冲击百年”的可能性。50分是一个公认的“质变临界点”：此时球员通常已适应球速和弹跳，搭档也已建立默契，战术执行趋于稳定。把模型部署在这个节点，意味着它能无缝嵌入现有的比赛分析工作流，而不是另起炉灶。

第三层是统计稳健性。我做了个简单测算：在全部35,357次击球中，有12,843次击球手打到了50分或以上（占比36.3%），其中4,002次最终达成百年（即50+分击球中，百年转化率为31.2%）。这个比例比全局的3.16%高出整整10倍，显著缓解了类别不平衡问题。更重要的是，50分之后的数据分布更集中、方差更小——一个打到50分的球员，其后续表现的不确定性，远低于一个刚上场、只打了5球的球员。这为模型提供了更干净、更可靠的训练土壤。

提示：有人会问，为什么不是40分或60分？40分太早，转化率仅18.7%，噪声仍大；60分虽更准（转化率42.1%），但样本量锐减至7,219次，模型泛化能力下降。50分是精度、样本量、业务接受度三者的最优平衡点，这是用实际数据跑出来的结论，不是拍脑袋定的。

2.2 数据净化：剔除“不可能百年”的场景，不是删数据，是守边界

光把锚点移到50分还不够。如果不对数据进行严格的“可能性过滤”，模型就会学到一堆荒谬的规律。举个例子：一场ODI第二局，对方总分是280，当前击球方已得275分，还剩5个球。此时一个击球手刚打到50分，但要达成百年，他需要再得50分，而5个球最多只能得30分（假设全是六分）。这种情况下，无论他多神勇，百年在数学上已是“不可能事件”。如果模型还在学这种样本，它学到的就不是“球员能力”，而是“数据错误”。

所以我设置了三道硬性过滤器，它们共同划定了模型的“合法预测域”：

第一道：参赛队伍资质过滤。CricSheet数据包含所有ICC成员队，但像尼泊尔、阿曼、美国这样的新兴队伍，其ODI比赛场次极少（2004-2022年间，尼泊尔仅打12场ODI），导致球员对特定对手的历史交锋数据严重缺失。强行纳入，模型要么用全局均值粗暴填充（引入偏差），要么生成大量NA（破坏训练）。因此，我只保留了10支“全测试资格队”（Full Member Teams）：印度、澳大利亚、英格兰、南非、新西兰、西印度群岛、巴基斯坦、斯里兰卡、孟加拉国、津巴布韦。这10队贡献了数据集92%的比赛，确保了历史KPI计算的统计效力。

第二道：剩余球数可行性过滤。这是最核心的物理约束。公式很简单：Required Runs for Century = 100 - Current Score；Max Possible Runs = Remaining Balls * 6。只有当Max Possible Runs >= Required Runs for Century时，该样本才被保留。例如，当前52分，剩余球数=15，则需再得48分，最大可能得分为90分（15*6），48<90，保留；若当前52分，剩余球数=7，则需48分，最大可能42分，48>42，剔除。这一步直接筛掉了约18.3%的50+分样本，但换来的是模型逻辑的绝对自洽。

第三道：第二局目标分约束过滤。这是ODI特有的规则陷阱。在第二局，击球方的目标是“追平或超越对方总分”。如果对方总分是220，那么即使你打到100分，只要全队总分未达220，比赛就输了，百年也就失去了“比赛意义”。更关键的是，当全队总分已接近目标时，击球手会主动放弃风险击球（如六分），转而追求更稳妥的单分或双分来确保胜利。这使得“百年”不再是个人能力的纯粹体现，而是被团队目标扭曲的产物。因此，对于第二局样本，我增加了条件：Team Target Score - Current Team Score >= 100。只有当全队还需至少100分才能赢时，该击球手的百年才被视为“有效预测目标”。这一步剔除了约9.7%的第二局50+分样本。

这三道过滤器看似在“删数据”，实则是在为模型建立一道现实世界的防火墙。它确保模型学到的，永远是“在规则允许、物理可行、业务相关”的前提下，球员能力的真实映射。没有这道墙，再漂亮的AUC也是空中楼阁。

3. 数据准备与特征工程：历史KPI不是万能钥匙，用错就是灾难

3.1 从“球数据”到“快照数据”：构建50分时刻的完整画像

CricSheet的原始数据是“球粒度”（ball-level）的，每一行代表一个球：match_id,innings,batting_team,bowling_team,striker,non_striker,bowler,runs_off_bat,extras,wicket,total_runs,current_score…… 这对还原比赛细节是宝藏，但对建模却是负担。我的目标不是预测“下一球得几分”，而是预测“从这一刻起，能否达成百年”。所以第一步，是把百万级的球数据，聚合成数千个有意义的“决策快照”。

具体操作分四步走：

Step 1：定位50分时刻。对每个match_id+innings+striker组合，按ball_number升序扫描，找到第一个current_score >= 50的球。记录下该球的全部上下文：ball_number,current_score,remaining_balls,current_team_score,target_score（第二局）,wickets_down,current_partnership_runs,current_partner_score,current_bowler_id。这一步产出约12,843个初始快照。

Step 2：应用三大过滤器。按前述的队伍资质、剩余球数、第二局目标分三重条件，对12,843个快照进行筛选。最终得到9,872个有效快照，作为建模的原始输入池。

Step 3：聚合历史KPI。这才是特征工程的重头戏。每个快照，我需要注入两类历史信息：

击球手侧：该击球手striker对阵当前bowling_team的历史表现。核心指标是hist_avg（历史平均分），计算方式为：SUM(runs) / COUNT(innings)，仅统计strikervsbowling_team的所有ODI innings。如果两人从未交手（如年轻球员vs老牌强队），则用striker对所有队伍的ODI生涯平均分替代。
投球手/球队侧：当前bowling_team对阵batting_team的历史投球表现。核心指标是hist_economy（历史经济率，单位：runs per ball），计算方式为：SUM(runs_conceded) / SUM(balls_bowled)，仅统计该bowling_teamvsbatting_team的所有ODI match。同样，若无交锋史，则用bowling_team对所有队伍的ODI生涯经济率替代。

Step 4：加入即时伙伴关系。板球是双人运动，搭档状态至关重要。我在快照中加入了两个衍生特征：partnership_runs_ratio = current_partnership_runs / current_team_score（当前搭档贡献占比），和partner_score_ratio = current_partner_score / current_score（搭档得分与击球手得分之比）。这两个比值比绝对数值更能反映搭档间的攻守平衡。

注意：hist_avg和hist_economy的计算，必须严格遵循“时间顺序”。我按match_date对所有ODI比赛排序，确保计算match_i的KPI时，只使用match_1到match_{i-1}的数据。任何用未来比赛数据填充过去KPI的行为，都是致命的“目标泄漏”（Target Leakage）。我曾因一次排序疏忽，导致AUC虚高至0.71，但模型在真实回测中惨败——教训深刻。

3.2 特征列表与业务含义：每一个数字都在讲一个板球故事

经过上述处理，每个50分快照被转化为一个21维的特征向量。下面这张表，列出了所有特征及其背后的板球逻辑。记住，这不是一份冰冷的变量清单，而是一份浓缩的板球战术手册：

特征名	数据类型	计算方式/来源	板球业务含义	为什么重要
`current_score`	数值	快照时刻击球手得分	衡量“已走多远”	是百年难度的基准线。52分和58分，心理压力和剩余时间完全不同。
`remaining_balls`	数值	当前局剩余球数	衡量“还有多少机会”	直接决定物理可行性，是过滤器的输入，也是模型的核心约束。
`wickets_down`	数值	当前出局人数	衡量“团队压力”	2人出局 vs 6人出局，击球手的冒险意愿天壤之别。
`current_partnership_runs`	数值	当前搭档组合已得分数	衡量“搭档火力”	高分搭档意味着更强的得分能力和更低的出局风险。
`current_partner_score`	数值	当前非击球手搭档得分	衡量“搭档状态”	如果搭档已得40分，说明他手感正热，能分担压力。
`partnership_runs_ratio`	数值	`current_partnership_runs`/`current_team_score`	衡量“搭档贡献度”	比值高，说明搭档是主力得分手，击球手压力小。
`partner_score_ratio`	数值	`current_partner_score`/`current_score`	衡量“搭档威胁度”	比值接近1，说明两人势均力敌，防守方难以针对性施压。
`hist_avg`	数值	击球手vs该投球队历史平均分	衡量“历史克制关系”	是球员能力的最直接历史证据，比生涯平均分更有针对性。
`hist_economy`	数值	该投球队vs该击球队历史经济率	衡量“投球队软硬度”	经济率低的队伍（如南非），意味着更难得分，百年难度陡增。
`is_first_innings`	布尔	1=第一局，0=第二局	衡量“比赛阶段”	第一局目标明确（堆砌高分），第二局目标复杂（追分+百年），策略不同。
`venue_type`	分类	“Batting Friendly”, “Bowling Friendly”, “Balanced”	衡量“场地特性”	由历史数据聚类得出，直接影响得分预期。
`opponent_rank`	数值	对手ICC ODI排名	衡量“对手强度”	排名越高，百年越难，是`hist_avg`/`hist_economy`的宏观补充。

这张表里，hist_avg和hist_economy是模型的“记忆”，而remaining_balls、wickets_down、partnership_runs_ratio则是模型的“眼睛”和“耳朵”。它们共同构成了一幅动态的、立体的赛场图景。一个优秀的板球分析师，看到这些数字，脑子里就能浮现出当时的场景：一个排名第七的击球手，在主场对阵排名第二的澳大利亚，已得54分，剩余18球，搭档已得32分，两人合作已拿68分，而澳大利亚队对本国击球手的历史经济率是惊人的5.12…… 这一刻，百年概率是多少？模型给出的答案，就是基于这12个维度的综合判断。

4. 基础模型实现：为什么选逻辑回归？因为它能告诉你“为什么”

4.1 模型选型：在“可解释性”和“性能”之间，我选择了前者

面对9,872个样本、21个特征的二分类问题，可选的模型很多：随机森林、XGBoost、甚至一个简单的神经网络，都能在AUC上轻松碾压逻辑回归。但我坚持用了最“古老”的Logistic Regression。原因很实在：这不是一个Kaggle竞赛，而是一个要交付给真实用户的决策工具。用户是谁？可能是国家队的数据分析师，他需要向主教练解释：“为什么我们认为萨钦今天有65%的概率拿百年？” 主教练不会关心AUC是0.65还是0.68，他只想知道：“这个65%是怎么来的？是萨钦最近状态好？还是对手投球手今天慢？还是场地特别适合他？”

逻辑回归的系数（Coefficient），就是这份“解释报告”的核心。模型方程长这样：

logit(P(Century)) = β₀ + β₁*current_score + β₂*remaining_balls + ... + β₂₁*opponent_rank

其中，每个βᵢ的符号和大小，直接告诉你该特征对百年概率的影响方向和强度。例如，如果β₂（remaining_balls的系数）是正的，说明剩余球越多，百年概率越高；如果β₈（hist_economy的系数）是负的，说明对手投球经济率越低（投球越紧），百年概率越低。这种“白盒”特性，是任何黑盒模型都无法提供的。

此外，逻辑回归的调试成本极低。当模型在验证集上表现不佳时，我可以立刻检查：

哪些特征的系数异常大（可能有异常值或共线性）？
哪些特征的p-value > 0.05（统计上不显著，应该考虑剔除）？
残差图是否呈现明显模式（暗示非线性关系，需要加交互项或多项式）？

这种“所见即所得”的调试体验，对于快速迭代、理解数据、发现业务洞见，是无可替代的。一个复杂的树模型，可能给你一个更高的分数，但当你问“为什么这个样本被预测为百年？”时，它只能给你一串深不见底的分裂路径。而逻辑回归会清晰地告诉你：“因为你的remaining_balls（+1.2）和hist_avg（+0.8）贡献了正向推力，但wickets_down（-0.9）带来了负向阻力，综合下来，概率是65%。”

4.2 模型训练与超参：一个被低估的关键——决策阈值

逻辑回归本身没有太多超参数可调，C（正则化强度）是主要的一个。我通过5折交叉验证，网格搜索了C在[0.001, 0.01, 0.1, 1, 10]范围内的表现，最终选定C=1，它在训练集和验证集上的AUC差异最小，表明模型既不过拟合也不欠拟合。

但真正决定模型业务价值的，不是C，而是决策阈值（Decision Threshold）。逻辑回归输出的是一个0到1之间的概率P(Century)。默认阈值是0.5：P > 0.5则预测为1（会百年），否则为0（不会百年）。但在我们的场景下，这个默认值是灾难性的。

为什么？因为我们的正样本（百年）只有31.2%，负样本（未百年）占68.8%。如果用0.5阈值，模型会倾向于预测更多负样本以换取高准确率，结果就是漏掉大量真正的百年。这就像一个安检系统，为了“不误报”（把普通乘客当恐怖分子），把“误报率”设得极高，结果“漏报率”（放过恐怖分子）也飙升——完全违背了安检的初衷。

所以，我绘制了完整的阈值-指标曲线（Threshold-Metric Curve），横轴是阈值（0.0到1.0），纵轴是Precision、Recall、F1-Score。曲线清晰地显示：

当阈值=0.1时，Recall高达92%（几乎抓住了所有百年），但Precision暴跌至22%（每5个预测，4个是错的）。
当阈值=0.5时，Precision升至38%，Recall却跌至70%。
当阈值=0.18时，F1-Score达到峰值48%。

这个0.18的阈值，就是模型的“业务黄金分割点”。它意味着：只要模型预测的百年概率超过18%，我们就认为这是一个值得重点关注的“高潜力百年候选者”。这个数字不是凭空而来，它是F1-Score最大化点，是Precision和Recall在当前数据分布下达成的最佳妥协。在实际应用中，分析师可以据此设定预警：当某球员的实时百年概率突破18%，系统自动标红，并推送其历史KPI对比（如“该球员vs此队历史平均分比生涯平均高23%”）。

实操心得：不要迷信“最高AUC”。AUC衡量的是模型整体区分能力，但它不告诉你在哪个阈值下业务效果最好。我见过太多项目，AUC高达0.85，但一用0.5阈值，Precision只有15%，业务方直接弃用。务必把阈值优化作为建模的必经环节，而不是事后补救。

5. 模型评估与深度解读：AUC 0.653意味着什么？它真的“比随机好”吗？

5.1 全面评估矩阵：从单点指标到全景视图

模型在测试集（20%的预留数据，共1,974个快照）上的最终表现如下表所示。请注意，所有指标都是在最优阈值0.18下计算的：

指标	数值	解读
Accuracy (准确率)	60.0%	在所有预测中，60%是正确的。由于负样本占多数，这个数字参考价值有限。
Precision (精确率)	38.2%	每100次预测为“会百年”，其中约38次是真的。意味着有62%的“警报”是误报。
Recall (召回率)	70.1%	所有真实发生的百年中，模型成功捕获了70.1%。意味着漏掉了近30%的百年。
F1-Score	48.3%	Precision和Recall的调和平均，是两者平衡的综合得分。
AUC-ROC	0.653	模型整体区分正负样本的能力。0.5=随机，1.0=完美。

单看AUC=0.653，很多人会说：“才0.65？太低了！” 这是个巨大的误解。AUC的解读必须结合基线水平。在我们的场景里，基线不是0.5，而是一个更聪明的随机模型。

想象一个“懒惰但聪明”的基线模型：它不看任何特征，只根据历史统计，对每个50分快照，都预测一个固定的概率——31.2%（即50+分击球的百年转化率）。这个模型的AUC是多少？理论上，它会是一条从(0,0)到(1,1)的直线，AUC=0.5。但现实中，由于数据本身的微小波动，它可能略高于0.5，比如0.51。而我们的模型达到了0.653，比这个“聪明随机”高出0.143。这个差距，才是模型真正的“信息增益”。

更直观的理解是：AUC=0.653意味着，如果你随机抽取一个“会百年”的样本和一个“不会百年”的样本，模型给前者打出更高概率的几率是65.3%。换句话说，模型有65.3%的把握，能正确地给“真百年”排在“假百年”前面。这已经是一个非常有价值的信号。在金融风控中，AUC 0.65常被视作一个可上线的模型；在医疗诊断中，AUC 0.7以上就算优秀。对于一个如此稀疏、如此依赖路径的体育事件，0.653是一个扎实的、可信赖的起点。

5.2 ROC曲线深度剖析：理解TPR与FPR的永恒博弈

ROC曲线（Receiver Operating Characteristic Curve）是理解模型本质的终极工具。它的横轴是FPR（False Positive Rate，误报率），纵轴是TPR（True Positive Rate，召回率，即Recall）。曲线上每一个点，都对应一个特定的决策阈值。

我的模型ROC曲线如下（文字描述）：

曲线从左下角(0,0)出发，那里阈值=1.0，意味着“永不预测百年”，所以TPR=0，FPR=0。
随着阈值降低，曲线向右上方延伸。在阈值=0.18（F1最优）处，坐标约为(0.42, 0.70)，即FPR=42%，TPR=70%。
曲线最终抵达右上角(1,1)，那里阈值=0.0，意味着“永远预测百年”，所以TPR=100%，FPR=100%。

这条曲线的形状，揭示了一个残酷的真理：在不平衡数据中，提升召回率（抓更多真百年）的代价，永远是牺牲精确率（容忍更多误报）。你想把TPR从70%提高到85%，FPR会从42%飙升到68%。这意味着，为了多抓住15%的百年，你要多付出26个百分点的误报成本。这个权衡，没有标准答案，它取决于你的使用场景。

场景A：电视直播数据插件。目标是给观众制造“百年悬念”。你可以接受较高的FPR（比如50%），因为“可能百年”的提示本身就能提升观赛体验，即使偶尔出错，观众也不会苛责。此时，阈值可设为0.12，TPR=78%，FPR=48%。
场景B：职业队内部战术简报。教练需要据此决定是否让该球员继续留在场上，或是否启动“保送”策略。这时，误报（错误地认为他会百年，结果他很快出局）可能导致战术失误。你需要极高的Precision（>60%），可以接受较低的TPR（~50%）。此时，阈值应设为0.35，Precision=62%，Recall=48%。

常见问题：为什么我的模型AUC很高，但Precision很低？
答：AUC高，只说明你的模型能很好地区分“好样本”和“坏样本”的相对顺序。但Precision低，说明在你选择的阈值下，负样本（未百年）的绝对数量太大，导致分母（TP+FP）爆炸。解决方案不是换模型，而是调整阈值，或对负样本进行欠采样（Undersampling）。我试过对负样本随机采样，使其与正样本1:1，结果Precision升至52%，但Recall跌至55%，F1反而降到53%——得不偿失。这再次印证：阈值优化，永远是性价比最高的调优手段。

6. 实战经验与避坑指南：那些文档里永远不会写的血泪教训

6.1 数据清洗：CricSheet的“小惊喜”与我的应对方案

CricSheet的数据质量确实业界顶尖，但“顶尖”不等于“完美”。我在清洗过程中，遇到了三个意料之外的“小惊喜”，每一个都差点让模型崩盘：

惊喜一：重复的match_id。CricSheet为某些重赛（Tie）或因雨中断后重赛（Abandoned & Replayed）的比赛，分配了相同的match_id。这导致在按match_id聚合历史KPI时，同一个比赛被计算了两次，hist_avg被严重高估。解决方案：我下载了CricSheet的matches.csv元数据文件，用start_date+team1+team2作为唯一键，对match_id进行了去重和重映射。这一步耗时两天，但避免了后续所有分析的系统性偏差。

惊喜二：current_score的“幽灵分”。在极少数情况下（主要是早期ODI），记分员会将byes（击球手未触球，球从腿边溜走）或leg byes（球击中腿）计入current_score，但这些分并不属于击球手的个人得分。这导致current_score虚高，一个实际只打了48分的球员，系统显示他已50分。解决方案：我编写了一个校验脚本，对每个50分快照，回溯其ball_by_ball序列，累加runs_off_bat（击球手实际打出的分），并与current_score比对。差异>2分的样本，全部剔除。共筛出137个“幽灵分”样本。

惊喜三：wickets_down的“时间错位”。CricSheet的wickets_down字段，记录的是“该球投出前”的出局数。但我们的快照是“该球投出后，得分更新为50分”的时刻。这就产生了一秒的错位：如果该球导致出局，wickets_down在快照中仍是旧值。解决方案：我修改了快照定位逻辑，不再找current_score >= 50的第一球，而是找current_score >= 50 AND wickets_down == wickets_down_at_ball_start的球。这确保了wickets_down与current_score严格同步。

这些“惊喜”提醒我：任何外部数据源，都必须当作“可疑对象”来对待。信任，但要验证（Trust, but Verify）。花在数据清洗上的时间，永远比花在调参上的时间更值得。

6.2 特征工程：`hist_avg`的“冷启动”困境与我的平滑策略

新秀球员（如2022年出道的印度小将）对阵老牌强队（如澳大利亚），历史交锋记录为零。如果直接用全局均值填充hist_avg，会抹杀一个重要事实：新秀球员的不确定性，本身就是一种强大的预测信号。一个没有历史交锋记录的球员，其百年概率，天然就应该比一个有10次交锋、平均分45的球员更低。

我最初的填充策略是简单的均值填充，结果模型在新秀球员身上表现极差。后来，我采用了贝叶斯平滑（Bayesian Smoothing）：

smoothed_hist_avg = (prior_count * prior_mean + actual_runs) / (prior_count + actual_innings)

其中，prior_mean是该球员的生涯平均分，prior_count是一个“虚拟计数”，我设为5。这意味着，我把5个“虚拟的、符合生涯平均的 innings”作为先验知识。当actual_innings=0时，smoothed_hist_avg = prior_mean；当actual_innings=1时，smoothed_hist_avg是生涯平均和这1场实际得分的加权平均，权重由5:1决定。这既利用了球员的生涯信息，又为“零交锋”赋予了合理的不确定性折扣。

这个小小的改动，让模型在新秀球员样本上的Precision提升了8.2%，证明了：好的特征工程，不是让数据更“漂亮”，而是让数据更“诚实”地反映其内在的不确定性。

6.3 模型部署：如何让一个离线模型，在直播中“活”起来？

一个离线训练好的模型，最大的价值不是躺在硬盘里，而是能在真实的比赛直播中，实时给出预测。我为此设计了一个极简的部署架构：

数据管道：与一个提供实时ODI ball-by-ball数据的API对接（如ESPNcricinfo的公开API）。
触发器：API每推送一个新球，系统检查该球是否使某击球手的current_score首次≥50。
特征提取：一旦触发，系统立即从本地数据库中，拉取该球员vs该队的hist_avg、该队vs该队的hist_economy等所有历史KPI，并计算remaining_balls、partnership_runs_ratio等即时特征。
预测与推送：将21维特征向量输入训练好的逻辑回归模型，得到P(Century)。如果P > 0.18，则向指定频道（如教练组Slack群）推送一条结构化消息：“【百年预警】印度队罗希特·夏尔马，当前52分，剩余16球，百年概率68.3%。历史vs澳队平均分：41.2（生涯平均：38.5）