当前位置：首页 > news >正文

AI 工具提升刷题效率：一场为期四周的对照实验报告

news 2026/6/29 15:39:31

AI 工具提升刷题效率：一场为期四周的对照实验报告

一、刷题效率到底能不能被 AI 提升——实验设计的出发点

"用 ChatGPT 刷题"已经是公开的秘密，但很少有人认真量化过 AI 工具到底能提升多少效率。是 10% 还是 300%？提升的是做题速度还是理解深度？有没有可能反而降低了学习效果——因为看 AI 题解太容易，自己思考的时间变少了？

这些问题不是靠直觉能回答的。本文记录了一场为期四周的对照实验：两组水平相近的刷题者，一组纯手动刷题，另一组使用 AI 辅助工具（包括 AI 提示、代码审查、复杂度验证），对比两组的做题数量、首次 AC 率、知识留存率等指标。

二、实验设计与数据采集架构

2.1 实验变量与控制

维度	控制组	实验组
刷题平台	LeetCode	LeetCode
每日刷题时间	2 小时	2 小时
题目来源	按标签随机	按标签随机（同组题目）
AI 工具	禁止使用	允许使用 ChatGPT / Claude
题解查看	只看官方题解	AI 辅助 + 官方题解
编程语言	Python	Python

控制变量：题目难度分布相同（Easy:Medium:Hard = 2:5:3），刷题时间相同，编程语言相同。唯一差异是是否使用 AI 工具。

2.2 数据采集指标

graph TD A[数据采集维度] --> B[效率指标] A --> C[质量指标] A --> D[留存指标] B --> B1[每日做题数量] B --> B2[首次 AC 耗时] B --> B3[提交次数] C --> C1[首次 AC 率] C --> C2[代码通过率] C --> C3[复杂度达标率] D --> D1[一周后重做正确率] D --> D2[同类型新题正确率] D --> D3[知识迁移得分]

2.3 AI 辅助的使用规范

实验组使用 AI 工具时遵循以下规范，避免"直接抄答案"：

提示模式：只向 AI 描述思路卡点，不直接要代码
审查模式：先自己写代码，再让 AI 审查边界条件
验证模式：自己分析复杂度后，让 AI 验证是否正确
禁止模式：不允许直接让 AI 生成完整题解代码

三、实验数据与核心代码

3.1 数据采集与统计模块

from dataclasses import dataclass, field from datetime import date from typing import Optional @dataclass class DailyRecord: """每日刷题记录。""" record_date: date group: str # "control" 或 "experiment" problems_attempted: int # 尝试题目数 problems_ac: int # AC 题目数 avg_time_to_ac: float # 平均首次 AC 耗时（分钟） avg_submissions: float # 平均提交次数 complexity_correct_rate: float # 复杂度分析正确率 @dataclass class RetentionRecord: """知识留存测试记录。""" test_date: date group: str redo_correct_rate: float # 重做正确率 new_type_correct_rate: float # 同类型新题正确率 migration_score: float # 知识迁移得分（0-100） class ExperimentAnalyzer: """ 实验数据分析器。 计算各指标的均值、标准差和统计显著性。 """ def __init__(self): self.daily_records: list[DailyRecord] = [] self.retention_records: list[RetentionRecord] = [] def add_daily(self, record: DailyRecord) -> None: """添加每日记录。""" self.daily_records.append(record) def add_retention(self, record: RetentionRecord) -> None: """添加留存记录。""" self.retention_records.append(record) def compute_group_stats( self, group: str, metric: str ) -> dict[str, float]: """ 计算指定组别的某项指标统计量。 返回均值、标准差、样本量。 """ if metric == "retention": values = [ r.redo_correct_rate for r in self.retention_records if r.group == group ] else: attr_map = { "problems_ac": "problems_ac", "avg_time": "avg_time_to_ac", "submissions": "avg_submissions", "complexity": "complexity_correct_rate", } attr = attr_map.get(metric, "problems_ac") values = [ getattr(r, attr) for r in self.daily_records if r.group == group ] if not values: return {"mean": 0.0, "std": 0.0, "n": 0} n = len(values) mean = sum(values) / n variance = sum((v - mean) ** 2 for v in values) / n return {"mean": mean, "std": variance ** 0.5, "n": n}

3.2 统计显著性检验

import math def cohens_d(group_a: list[float], group_b: list[float]) -> float: """ 计算 Cohen's d 效应量。 |d| < 0.2：微小效应 0.2 <= |d| < 0.5：小效应 0.5 <= |d| < 0.8：中等效应 |d| >= 0.8：大效应 """ n_a, n_b = len(group_a), len(group_b) if n_a == 0 or n_b == 0: return 0.0 mean_a = sum(group_a) / n_a mean_b = sum(group_b) / n_b var_a = sum((v - mean_a) ** 2 for v in group_a) / n_a var_b = sum((v - mean_b) ** 2 for v in group_b) / n_b # 合并标准差 pooled_std = math.sqrt( ((n_a - 1) * var_a + (n_b - 1) * var_b) / (n_a + n_b - 2) ) if pooled_std == 0: return 0.0 return (mean_a - mean_b) / pooled_std

3.3 实验结果摘要

四周实验的核心数据（模拟数据，基于真实趋势）：

指标	控制组均值	实验组均值	Cohen's d
每日 AC 数量	3.2	4.8	0.92（大效应）
平均首次 AC 耗时	28.5 min	18.3 min	0.78（中等效应）
首次 AC 率	62%	71%	0.45（小效应）
复杂度分析正确率	55%	73%	0.85（大效应）
一周后重做正确率	68%	61%	-0.35（小效应，负向）

graph LR A[AI 辅助效果] --> B["效率提升：大效应<br/>AC 数量 +50%，耗时 -36%"] A --> C["质量提升：中等效应<br/>复杂度分析 +18%"] A --> D["留存下降：小效应<br/>重做正确率 -7%"] B --> E[结论：AI 提升短期效率<br/>但可能削弱长期记忆] C --> E D --> E