当前位置：首页 > news >正文

小白/程序员入门必看：收藏这份AB实验Agent实战指南，手把手教你用Claude Code快速搭建

news 2026/8/4 1:48:11

本文分享了一个不涉及企业业务逻辑的AB实验Agent示例，旨在帮助小白和程序员学习大模型应用。该Agent具备AB实验统计学知识、配置经验、报告生成和业务建议能力，并详细介绍了其框架、Skill设计及运行效果。通过将AB实验方法论蒸馏成Skill并包装成Agent，读者可快速掌握如何利用AI实现数据驱动决策，为AB平台AI赋能提供参考。

上篇分享的Data Agent 实例，由于涉及不少具体的企业业务知识，没办法公开更多细节。好几位朋友在后台私信问有没有源码，确实么办法提供。

所以这次我们换一个思路，做一个完全不涉及企业业务逻辑、任何团队都可以参考的 Agent 示例——AB 实验 Agent。这个再也不用问源码啦，照着这个Skill和目录框架给Claude Code就能搞。

如何把这些统计学知识蒸馏成一个 Skill，再把 Skill 包装成一个可运行的 Agent。

换句话说，就是把一整套AB 实验方法论，变成 AI 可以调用的能力模块。

这个Agent它具备以下能力：

熟知AB实验相关绝大部分统计学知识：比如我们要算CTR的方差时，默认使用delta-method的那个很复杂的方差公式，而不是单纯的二项分布公式。
掌握AB实验配置的坑，这些最小样本量,MDE设置等。
出具标准实验报告，不用担心少字段。2组实验用T检验，多组用卡方检验。
给出业务建议，如果你再给他喂点上下文就更靠谱了。

进一步的，如果你们单位有AB平台，把这个Agent配上相应数据库和AB平台业务参数配置接口，就可以快速给你们AB平台AI赋能。每个实验启动之前，都可以先跟它聊聊，它还不会烦你。跟它聊完之后你可能有新的灵感，更加不会配错实验啦。

先看Agent+Skill框架：

业务框架：

大的框架和Data Agent流程相似，从用户输入到Agent输出，经过意图识别、Skill匹配、调用工具、输出结论，返回到前端或者飞书\企微。

详细运转流程：

输入：默认接收用户上传文件，文件格式要一行一个用户，简单起见为了计算样本量和方差等关键假设检验所用指标。当然也可以选择对接AB平台接入数据库，计算好方差均值之类的。
API router: FastAPI标配，主要是前端路由，如果接入飞书\企微也在这里增加一个路由。
基础Prompt: 全局性Prompt，所有对话都需要。

角色设定： 你是一位 AB 实验 / 实验分析领域的专家。 当前日期为：{today} 你的职责包括： 1. 理解实验设计与实验假设 2. 检查样本量是否合理，验证数据质量 3. 进行统计显著性检验 4. 从用户分群或业务维度对结果进行拆解分析 5. 给出结构化的实验结论（就说下一步怎么做吧的决策建议） 6. 生成清晰的数据可视化

Skill选择路由：Claude Code帮我设计的是三层选择匹配机制，第一层，关键词匹配-match trigger. Skill标准模版里的trigger（见下文）。第二层：为了适配追问问题。比如Agent回复需要我帮你展开XX指标吗？,你回复需要或者好的，这些追问词匹配不到任何skill trigger。此时第二层发挥作用，保存对话历史，来匹配上一层Skill记录。第三层：LLM意图识别，这是兜底机制。如果前两层关键词都匹配不到Skill。LLM来兜底，它基本可以99%猜测你的想法，尤其是在我们这个垂类Agent里。把LLM放到第三层而不是直接上来就用，是为了确保Agent速度，一般Skill trigger写得好到不了这里。尽量避免杀鸡用牛刀。
完整Prompt：匹配到合适的Skill之后，就将目标Skill的内容拼接到base Prompt后面形成完整Prompt，给到Agent Loop去工作。
Agent Loop：循环调用工具，主要是Skill里的scrpts/代码工具，最终输出完整结论。
输出：严格按照Prompt的output rules输出内容。web app前端输出格式可以自定义增加各种图表展示。同时可以加上自定义加上模型调用信息，消耗tokens、运行时长等。
如果接入飞书\企微需要按照相关要求省去一些图表展示

项目文件框架：

ab-test-agent/ ├── .env # 环境变量配置 ├── main.py # 应用入口 ├── requirements.txt # Python 依赖 │ ├── api/ # API 层 │ ├── routes.py # 路由定义 │ └── schemas.py # 请求/响应模型 │ ├── config/ # 配置模块 │ ├── __init__.py │ └── settings.py # 全局配置 │ │ ├── agent/ # Agent 智能体 │ │ ├── __init__.py │ │ ├── agent.py # Agent 主逻辑 │ │ ├── prompts.py # 提示词管理 │ │ └── tools.py # 工具定义 │ │ │ ├── llm/ # LLM 大模型集成 │ │ ├── base.py # LLM 基类 │ │ ├── custom.py # 自定义模型 │ │ │ └── skills/ # 技能加载与路由 │ ├── loader.py # 技能加载器 │ └── router.py # 技能路由 │ ├── prompts/ # 提示词模板 │ ├── base.yaml # 基础提示词 │ └── output_rules.yaml # 输出规则 │ ├── skills/ # 技能模块（AB 测试各能力） │ │ │ ├── experiment_attribution/ # 实验归因 │ │ ├── skill.md # 技能描述 │ │ └── scripts/ │ │ └── attribution.py # 归因脚本 │ │ │ ├── experiment_report/ # 实验报告 │ │ ├── skill.md │ │ └── scripts/ │ │ └── report.py # 报告生成 │ │ │ └── statistical_testing/ # 统计检验 │ ├── skill.md │ └── scripts/ │ └── significance.py # 显著性检验 │ ├── static/ # 前端静态资源 │ ├── index.html # 页面入口 │ ├── app.js # 前端逻辑 │ └── style.css # 样式 │ ├── logs/ # 日志 │ └── query_log.jsonl # 查询日志 │ └── tests/ # 测试 └── evals.py

线上Skill详解：

2.1 先看Skill标准定义：

通常情况下，一个 Skill 会被组织成一个独立的文件目录，最核心的是一个SKILL.md文件：

skill-name/ ├── SKILL.md # 必需：Skill 的说明与元信息 ├── scripts/ # 可选：执行代码 ├── references/ # 可选：参考文档 ├── assets/ # 可选：模板或资源文件 └── ... # 其他补充文件 SKILL.md 的基本格式 SKILL.md 通常由两部分组成： 1. YAML Frontmatter（元信息） 用于描述 Skill 的基本属性，例如： name ：Skill 名称 description ：Skill 功能说明 compatibility ：运行环境要求 allowed-tools ：允许调用的工具 这些信息主要用于帮助 Agent 理解 Skill 的用途，并决定何时调用它。 2. Markdown 正文（Skill Instructions） 在 YAML 之后是 Markdown 格式的说明文档，用来告诉 Agent： 如何执行这个任务 分析流程是什么 输入和输出示例 常见边界情况 常见内容包括： 分步骤操作说明（step-by-step instructions） 输入输出示例 常见异常情况（edge cases）

2.2 AB实验Skill—Statistical_testing—实例详解：

Skill开头关键描述，主要是描述和triggers

--- name: statistical_testing description: "统计显著性检验：t检验、卡方检验、z检验、比率指标的 Delta Method、置信区间与效应量解释" analysis_type: significance script: significance.py/具体执行计算的python代码 triggers: - significant - 显著 - p-value - p值 - hypothesis - 假设检验 - t-test - t检验 - chi-square - 卡方 - z-test - confidence - 置信 - 有效果吗 - 有差异吗 - CTR - 点击率 - delta method - ratio metric --- ## 统计检验策略 ### Step1:根据指标类型确定检验方法 ### Step2:检查并读取数据源 ### Step3: 基于以下框架解释统计检验结果

### Step4： 效应量（Effect Size）的解释 ## 输出规范

统计检验策略
Step 1：根据指标类型确定检验方法
应根据待分析指标的性质选择合适的统计检验方法：
如何识别比率指标（Ratio Metric）
可以通过以下方式判断指标是否属于比率指标

数据中分别存在分子列（例如 clicks）与分母列（例如 impressions），且每个用户的分母不同→ 应使用Delta Method
用户问题直接涉及以下指标：
CTR、点击率、按曝光计算的转化率、RPM，或任何形式为“X per Y”的指标→ 应使用Delta Method
如果指标仅包含0 和 1 两种取值→ 应使用z 检验（该指标属于二元变量，而非比率指标）
如果指标包含大量不同的数值取值，且为直接观测的数值指标（而非 X/Y 形式的比率）→ 应使用t 检验
比率指标（Ratio Metric）
例如 CTR = clicks / impressions或任何定义为X / Y且分母在不同用户之间存在差异的指标。
对于此类指标，应使用Delta Method（Delta 方法）进行显著性检验。
（test_type='delta'，并指定numerator_col与denominator_col）
二元指标（Binary Metric）
例如 0/1 指标（是否转化、是否点击等）。
对于此类指标，应使用z 检验（z-test）。
（test_type='z'）
连续指标（Continuous Metric）
例如收入（revenue）、停留时间（time）等连续型数值指标。
对于此类指标，应使用t 检验（t-test）。
（test_type='t'）
分类结果（Categorical Outcomes）
当结果变量为分类变量时，应使用卡方检验（chi-square test）。
（test_type='chi2'）

为什么比率指标需要使用 Delta Method

在处理比率指标时，一个常见但不严谨的方法是：

先计算每个用户的比率指标（例如用户级 CTR），然后对这些比率取平均。

这种做法的问题在于：

一个只有10 次曝光的用户
与一个拥有10,000 次曝光的用户

在计算平均值时会被赋予相同权重，从而导致方差估计偏差。

Step 2：检查并读取数据源

应根据用户上传的数据源进行分析。

Call `run_analysis(significance)` with `group_col`, `metric_col`, `control_value`, `treatment_value`, and the chosen `test_type`.

如果用户未上传数据，提醒用户上传。

Step 3：基于以下框架解释统计检验结果

P值-默认a=0.05	解读逻辑
p < α，且 uplift 为正	实验组表现显著优于对照组，可考虑上线（Treatment wins）
p < α，且 uplift 为负	实验组表现显著劣于对照组，不建议上线（Treatment loses ）
p ≥ α，且样本量较大	可以认为两组之间不存在具有实际意义的差异
p ≥ α，且样本量较小	结论不确定，可能由于统计功效（power）不足

Step 4：效应量（Effect Size）的解释

常使用Cohen’s d衡量效应量大小，其解释通常如下：

Cohen’s d < 0.2
效应量可以忽略（Negligible）。即使达到统计显著，其实际业务影响也通常非常有限。
0.2 ≤ Cohen’s d < 0.5
小效应（Small）。在某些场景下具有一定参考价值。
0.5 ≤ Cohen’s d < 0.8
中等效应（Medium）。通常意味着具有较为明显的影响。
Cohen’s d ≥ 0.8
大效应（Large）。表明存在较强且显著的影响。
输出规范

样本量（sample sizes）
各组均值（means）
提升幅度（lift %）
p-value
效应量（effect size）
置信区间（confidence interval）
首先给出结论性判断：
例如：
“实验组结果在统计上显著 / 不显著。”
分析结果中应始终包含以下关键信息：
如果结果达到统计显著，但效应量很小，应明确说明：“统计上显著，但实际影响较小。”
建议进一步进行分群分析作为后续分析，例如：“是否需要进一步检查该效果在不同用户分群之间是否存在差异？”

线上运行效果：

这是Agent线上跑的界面，AB上线前后一系列问题都可以找它聊。

实验初期讨论

样本量计算

考验它什时候用deltat-method算方差，它说UTR这种简单二项分布就行，CTR才启用

分析报告

结语

有了Claude Code等coding Agent，想手搓一个产品MVP非常方便。但是怎么创造真正的价值，还需要你的专家经验来指导他，更需要你的专家理解来识别真实的需求场景。

AI 可以写代码、搭框架、生成界面，但它并不知道：

哪些问题是真正值得解决的
哪些方法论才是领域里的最佳实践
哪些细节会在真实业务中踩坑

它得蒸馏多少_同事.skill才能知道呢？

参考文献并推荐：

https://github.com/coreyhaines31/marketingskills
github上大牛写的Marketing Skills for AI Agents
https://agentskills.io/specification.md
SKILL标准格式

那么如何学习大模型 AI ？

对于刚入门大模型的小白，或是想转型/进阶的程序员来说，最头疼的就是找不到系统、全面的学习资源，要么零散不成体系，要么收费高昂，白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包，覆盖从入门到实战、从理论到面试的全流程，所有资料均已整理完毕，免费分享给各位！

核心包含：AI大模型全套系统化学习路线图（小白可直接照做）、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库，一站式解决你的学习痛点，不用再到处搜集拼凑！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

学习大模型，方向比努力更重要！很多小白入门就陷入“盲目看视频、乱刷资料”的误区，最后越学越懵。这里给大家整理的这份学习路线，是结合2026年大模型行业趋势和新手学习规律设计的，最科学、最系统，从零基础到精通，每一步都有明确指引，帮你节省80%的无效学习时间，少走弯路、高效进阶。

2、大模型学习书籍&文档

理论是实战的根基，尤其是对于程序员来说，想要真正吃透大模型原理，离不开优质的书籍和文档支撑。本次整理的书籍和电子文档，均由大模型领域顶尖专家、大厂技术大咖撰写，涵盖基础入门、核心原理、进阶技巧等内容，语言通俗易懂，既有理论深度，又贴合实战场景，小白能看懂，程序员能进阶，为后续实战和面试打下坚实基础。

3、AI大模型最新行业报告

无论是小白了解行业、规划学习方向，还是程序员转型、拓展业务边界，都需要紧跟行业趋势。本次整理的2026最新大模型行业报告，针对互联网、金融、医疗、工业等多个主流行业，系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会，帮你清晰了解哪些行业更适合大模型落地，哪些技术方向值得重点深耕，避免盲目学习，精准对接行业需求。值得一提的是，报告还包含了多模态、AI Agent等前沿方向的发展分析，助力大家把握技术风口。

4、大模型项目实战&配套源码

对于程序员和想落地能力的小白来说，“光说不练假把式”，只有动手实战，才能真正巩固所学知识，将理论转化为实际能力。本次整理的实战项目，涵盖基础应用、进阶开发、多场景落地等类型，每个项目都附带完整源码和详细教程，从简单的ChatPDF搭建，到复杂的RAG系统开发、大模型部署，难度由浅入深，小白可逐步上手，程序员可直接参考优化，既能练手提升技术，又能丰富简历，为求职和职业发展加分。

5、大模型大厂面试真题

2026年大模型面试已从单纯考察原理，转向侧重技术落地和业务结合的综合考察，很多程序员和新手因为缺乏针对性准备，明明技术不错，却在面试中失利。为此，我精心整理了各大厂最新大模型面试真题题库，涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点，不仅有真题，还附带详细解题思路和行业踩坑经验，帮你精准把握面试重点，提前做好准备，面试时从容应对、游刃有余。

6、四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.jsqmd.com/news/685111/