当前位置: 首页 > news >正文

小白/程序员入门必看:收藏这份AB实验Agent实战指南,手把手教你用Claude Code快速搭建

本文分享了一个不涉及企业业务逻辑的AB实验Agent示例,旨在帮助小白和程序员学习大模型应用。该Agent具备AB实验统计学知识、配置经验、报告生成和业务建议能力,并详细介绍了其框架、Skill设计及运行效果。通过将AB实验方法论蒸馏成Skill并包装成Agent,读者可快速掌握如何利用AI实现数据驱动决策,为AB平台AI赋能提供参考。

上篇分享的Data Agent 实例,由于涉及不少具体的企业业务知识,没办法公开更多细节。好几位朋友在后台私信问有没有源码,确实么办法提供。

所以这次我们换一个思路,做一个完全不涉及企业业务逻辑、任何团队都可以参考的 Agent 示例——AB 实验 Agent。这个再也不用问源码啦,照着这个Skill和目录框架给Claude Code就能搞。

如何把这些统计学知识蒸馏成一个 Skill,再把 Skill 包装成一个可运行的 Agent。

换句话说,就是把一整套AB 实验方法论,变成 AI 可以调用的能力模块。

这个Agent它具备以下能力:

  • 熟知AB实验相关绝大部分统计学知识:比如我们要算CTR的方差时,默认使用delta-method的那个很复杂的方差公式,而不是单纯的二项分布公式。
  • 掌握AB实验配置的坑,这些最小样本量,MDE设置等。
  • 出具标准实验报告,不用担心少字段。2组实验用T检验,多组用卡方检验。
  • 给出业务建议,如果你再给他喂点上下文就更靠谱了。

进一步的,如果你们单位有AB平台,把这个Agent配上相应数据库和AB平台业务参数配置接口,就可以快速给你们AB平台AI赋能。每个实验启动之前,都可以先跟它聊聊,它还不会烦你。跟它聊完之后你可能有新的灵感,更加不会配错实验啦。

  1. 先看Agent+Skill框架:

业务框架:

大的框架和Data Agent流程相似,从用户输入到Agent输出,经过意图识别、Skill匹配、调用工具、输出结论,返回到前端或者飞书\企微。

详细运转流程:

  • 输入:默认接收用户上传文件,文件格式要一行一个用户,简单起见为了计算样本量和方差等关键假设检验所用指标。当然也可以选择对接AB平台接入数据库,计算好方差均值之类的。

  • API router: FastAPI标配,主要是前端路由,如果接入飞书\企微也在这里增加一个路由。

  • 基础Prompt: 全局性Prompt,所有对话都需要。

角色设定: 你是一位 AB 实验 / 实验分析领域的专家。 当前日期为:{today} 你的职责包括: 1. 理解实验设计与实验假设 2. 检查样本量是否合理,验证数据质量 3. 进行统计显著性检验 4. 从用户分群或业务维度对结果进行拆解分析 5. 给出结构化的实验结论(就说下一步怎么做吧的决策建议) 6. 生成清晰的数据可视化
  • Skill选择路由:Claude Code帮我设计的是三层选择匹配机制,第一层,关键词匹配-match trigger. Skill标准模版里的trigger(见下文)。第二层:为了适配追问问题。比如Agent回复需要我帮你展开XX指标吗?,你回复需要或者好的,这些追问词匹配不到任何skill trigger。此时第二层发挥作用,保存对话历史,来匹配上一层Skill记录。第三层:LLM意图识别,这是兜底机制。如果前两层关键词都匹配不到Skill。LLM来兜底,它基本可以99%猜测你的想法,尤其是在我们这个垂类Agent里。把LLM放到第三层而不是直接上来就用,是为了确保Agent速度,一般Skill trigger写得好到不了这里。尽量避免杀鸡用牛刀。

  • 完整Prompt:匹配到合适的Skill之后,就将目标Skill的内容拼接到base Prompt后面形成完整Prompt,给到Agent Loop去工作。

  • Agent Loop:循环调用工具,主要是Skill里的scrpts/代码工具,最终输出完整结论。

  • 输出:严格按照Prompt的output rules输出内容。web app前端输出格式可以自定义增加各种图表展示。同时可以加上自定义加上模型调用信息,消耗tokens、运行时长等。

    如果接入飞书\企微需要按照相关要求省去一些图表展示

项目文件框架:

ab-test-agent/ ├── .env # 环境变量配置 ├── main.py # 应用入口 ├── requirements.txt # Python 依赖 │ ├── api/ # API 层 │ ├── routes.py # 路由定义 │ └── schemas.py # 请求/响应模型 │ ├── config/ # 配置模块 │ ├── __init__.py │ └── settings.py # 全局配置 │ │ ├── agent/ # Agent 智能体 │ │ ├── __init__.py │ │ ├── agent.py # Agent 主逻辑 │ │ ├── prompts.py # 提示词管理 │ │ └── tools.py # 工具定义 │ │ │ ├── llm/ # LLM 大模型集成 │ │ ├── base.py # LLM 基类 │ │ ├── custom.py # 自定义模型 │ │ │ └── skills/ # 技能加载与路由 │ ├── loader.py # 技能加载器 │ └── router.py # 技能路由 │ ├── prompts/ # 提示词模板 │ ├── base.yaml # 基础提示词 │ └── output_rules.yaml # 输出规则 │ ├── skills/ # 技能模块(AB 测试各能力) │ │ │ ├── experiment_attribution/ # 实验归因 │ │ ├── skill.md # 技能描述 │ │ └── scripts/ │ │ └── attribution.py # 归因脚本 │ │ │ ├── experiment_report/ # 实验报告 │ │ ├── skill.md │ │ └── scripts/ │ │ └── report.py # 报告生成 │ │ │ └── statistical_testing/ # 统计检验 │ ├── skill.md │ └── scripts/ │ └── significance.py # 显著性检验 │ ├── static/ # 前端静态资源 │ ├── index.html # 页面入口 │ ├── app.js # 前端逻辑 │ └── style.css # 样式 │ ├── logs/ # 日志 │ └── query_log.jsonl # 查询日志 │ └── tests/ # 测试 └── evals.py
  1. 线上Skill详解:

2.1 先看Skill标准定义:

  • Skill 的基本目录结构

通常情况下,一个 Skill 会被组织成一个独立的文件目录,最核心的是一个SKILL.md文件:

skill-name/ ├── SKILL.md # 必需:Skill 的说明与元信息 ├── scripts/ # 可选:执行代码 ├── references/ # 可选:参考文档 ├── assets/ # 可选:模板或资源文件 └── ... # 其他补充文件 SKILL.md 的基本格式 SKILL.md 通常由两部分组成: 1. YAML Frontmatter(元信息) 用于描述 Skill 的基本属性,例如: name :Skill 名称 description :Skill 功能说明 compatibility :运行环境要求 allowed-tools :允许调用的工具 这些信息主要用于帮助 Agent 理解 Skill 的用途,并决定何时调用它。 2. Markdown 正文(Skill Instructions) 在 YAML 之后是 Markdown 格式的说明文档,用来告诉 Agent: 如何执行这个任务 分析流程是什么 输入和输出示例 常见边界情况 常见内容包括: 分步骤操作说明(step-by-step instructions) 输入输出示例 常见异常情况(edge cases)

2.2 AB实验Skill—Statistical_testing—实例详解:

  • Skill开头关键描述,主要是描述和triggers
--- name: statistical_testing description: "统计显著性检验:t检验、卡方检验、z检验、比率指标的 Delta Method、置信区间与效应量解释" analysis_type: significance script: significance.py/具体执行计算的python代码 triggers: - significant - 显著 - p-value - p值 - hypothesis - 假设检验 - t-test - t检验 - chi-square - 卡方 - z-test - confidence - 置信 - 有效果吗 - 有差异吗 - CTR - 点击率 - delta method - ratio metric --- ## 统计检验策略 ### Step1:根据指标类型确定检验方法 ### Step2:检查并读取数据源 ### Step3: 基于以下框架解释统计检验结果
### Step4: 效应量(Effect Size)的解释 ## 输出规范
  • 统计检验策略

    Step 1:根据指标类型确定检验方法

    应根据待分析指标的性质选择合适的统计检验方法:

    如何识别比率指标(Ratio Metric)

    可以通过以下方式判断指标是否属于比率指标

  • 数据中分别存在分子列(例如 clicks)与分母列(例如 impressions),且每个用户的分母不同→ 应使用Delta Method

  • 用户问题直接涉及以下指标:
    CTR、点击率、按曝光计算的转化率、RPM,或任何形式为“X per Y”的指标→ 应使用Delta Method

  • 如果指标仅包含0 和 1 两种取值→ 应使用z 检验(该指标属于二元变量,而非比率指标)

  • 如果指标包含大量不同的数值取值,且为直接观测的数值指标(而非 X/Y 形式的比率)→ 应使用t 检验

  • 比率指标(Ratio Metric)

    例如 CTR = clicks / impressions或任何定义为X / Y分母在不同用户之间存在差异的指标。
    对于此类指标,应使用Delta Method(Delta 方法)进行显著性检验。
    test_type='delta',并指定numerator_coldenominator_col

  • 二元指标(Binary Metric)

    例如 0/1 指标(是否转化、是否点击等)。
    对于此类指标,应使用z 检验(z-test)
    test_type='z'

  • 连续指标(Continuous Metric)

    例如收入(revenue)、停留时间(time)等连续型数值指标。
    对于此类指标,应使用t 检验(t-test)
    test_type='t'

  • 分类结果(Categorical Outcomes)

    当结果变量为分类变量时,应使用卡方检验(chi-square test)
    test_type='chi2'

为什么比率指标需要使用 Delta Method

在处理比率指标时,一个常见但不严谨的方法是:

先计算每个用户的比率指标(例如用户级 CTR),然后对这些比率取平均。

这种做法的问题在于:

  • 一个只有10 次曝光的用户
  • 与一个拥有10,000 次曝光的用户

在计算平均值时会被赋予相同权重,从而导致方差估计偏差。

Step 2:检查并读取数据源

应根据用户上传的数据源进行分析。

Call `run_analysis(significance)` with `group_col`, `metric_col`, `control_value`, `treatment_value`, and the chosen `test_type`.

如果用户未上传数据,提醒用户上传。

Step 3:基于以下框架解释统计检验结果

P值-默认a=0.05解读逻辑
p < α,且 uplift 为正实验组表现显著优于对照组,可考虑上线(Treatment wins)
p < α,且 uplift 为负实验组表现显著劣于对照组,不建议上线(Treatment loses )
p ≥ α,且样本量较大可以认为两组之间不存在具有实际意义的差异
p ≥ α,且样本量较小结论不确定,可能由于统计功效(power)不足

Step 4:效应量(Effect Size)的解释

常使用Cohen’s d衡量效应量大小,其解释通常如下:

  • Cohen’s d < 0.2

    效应量可以忽略(Negligible)。即使达到统计显著,其实际业务影响也通常非常有限。

  • 0.2 ≤ Cohen’s d < 0.5

    小效应(Small)。在某些场景下具有一定参考价值。

  • 0.5 ≤ Cohen’s d < 0.8

    中等效应(Medium)。通常意味着具有较为明显的影响。

  • Cohen’s d ≥ 0.8

    大效应(Large)。表明存在较强且显著的影响。

  • 输出规范

  • 样本量(sample sizes)

  • 各组均值(means)

  • 提升幅度(lift %)

  • p-value

  • 效应量(effect size)

  • 置信区间(confidence interval)

  • 首先给出结论性判断
    例如:
    “实验组结果在统计上显著 / 不显著。”

  • 分析结果中应始终包含以下关键信息:

  • 如果结果达到统计显著,但效应量很小,应明确说明:“统计上显著,但实际影响较小。”

  • 建议进一步进行分群分析作为后续分析,例如:“是否需要进一步检查该效果在不同用户分群之间是否存在差异?”

  1. 线上运行效果:

这是Agent线上跑的界面,AB上线前后一系列问题都可以找它聊。

实验初期讨论

样本量计算

考验它什时候用deltat-method算方差,它说UTR这种简单二项分布就行,CTR才启用

分析报告

结语

有了Claude Code等coding Agent,想手搓一个产品MVP非常方便。但是怎么创造真正的价值,还需要你的专家经验来指导他,更需要你的专家理解来识别真实的需求场景。

AI 可以写代码、搭框架、生成界面,但它并不知道:

  • 哪些问题是真正值得解决的
  • 哪些方法论才是领域里的最佳实践
  • 哪些细节会在真实业务中踩坑

它得蒸馏多少同事.skill才能知道呢?

参考文献并推荐:

  • https://github.com/coreyhaines31/marketingskills

    github上大牛写的Marketing Skills for AI Agents

  • https://agentskills.io/specification.md

    SKILL标准格式

那么如何学习大模型 AI ?

对于刚入门大模型的小白,或是想转型/进阶的程序员来说,最头疼的就是找不到系统、全面的学习资源,要么零散不成体系,要么收费高昂,白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包,覆盖从入门到实战、从理论到面试的全流程,所有资料均已整理完毕,免费分享给各位!

核心包含:AI大模型全套系统化学习路线图(小白可直接照做)、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库,一站式解决你的学习痛点,不用再到处搜集拼凑!

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

学习大模型,方向比努力更重要!很多小白入门就陷入“盲目看视频、乱刷资料”的误区,最后越学越懵。这里给大家整理的这份学习路线,是结合2026年大模型行业趋势和新手学习规律设计的,最科学、最系统,从零基础到精通,每一步都有明确指引,帮你节省80%的无效学习时间,少走弯路、高效进阶。

2、大模型学习书籍&文档

理论是实战的根基,尤其是对于程序员来说,想要真正吃透大模型原理,离不开优质的书籍和文档支撑。本次整理的书籍和电子文档,均由大模型领域顶尖专家、大厂技术大咖撰写,涵盖基础入门、核心原理、进阶技巧等内容,语言通俗易懂,既有理论深度,又贴合实战场景,小白能看懂,程序员能进阶,为后续实战和面试打下坚实基础。

3、AI大模型最新行业报告

无论是小白了解行业、规划学习方向,还是程序员转型、拓展业务边界,都需要紧跟行业趋势。本次整理的2026最新大模型行业报告,针对互联网、金融、医疗、工业等多个主流行业,系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会,帮你清晰了解哪些行业更适合大模型落地,哪些技术方向值得重点深耕,避免盲目学习,精准对接行业需求。值得一提的是,报告还包含了多模态、AI Agent等前沿方向的发展分析,助力大家把握技术风口。

4、大模型项目实战&配套源码

对于程序员和想落地能力的小白来说,“光说不练假把式”,只有动手实战,才能真正巩固所学知识,将理论转化为实际能力。本次整理的实战项目,涵盖基础应用、进阶开发、多场景落地等类型,每个项目都附带完整源码和详细教程,从简单的ChatPDF搭建,到复杂的RAG系统开发、大模型部署,难度由浅入深,小白可逐步上手,程序员可直接参考优化,既能练手提升技术,又能丰富简历,为求职和职业发展加分。

5、大模型大厂面试真题

2026年大模型面试已从单纯考察原理,转向侧重技术落地和业务结合的综合考察,很多程序员和新手因为缺乏针对性准备,明明技术不错,却在面试中失利。为此,我精心整理了各大厂最新大模型面试真题题库,涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点,不仅有真题,还附带详细解题思路和行业踩坑经验,帮你精准把握面试重点,提前做好准备,面试时从容应对、游刃有余。

6、四阶段精细化学习规划(附时间节点,可直接照做)

结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/685111/

相关文章:

  • 杰理AC6329C4蓝牙5.0 MCU深度评测与应用实战
  • 别再死记硬背了!华为交换机日常运维,这10条display命令搞定80%的活儿
  • 2026-04-23:树中子图的最大得分。用go语言,给定一棵无向树(共 n 个节点,编号 0 到 n-1),树的边由数组 edges 描述:edges 长度为 n-1,edges[i] = [a,
  • 国产化Docker集群部署秘籍(飞腾+麒麟+达梦组合实测):从离线安装到国密SM4镜像签名全流程
  • 手把手教你用Excel和Python双验证PEARSON相关系数,搞定毕业论文数据分析
  • 量子优化算法在作业调度中的创新应用与实现
  • 成本敏感神经网络解决不平衡分类问题
  • 【技术解析】SegNeXt:卷积注意力如何重塑语义分割新范式
  • 2026年4月河南铝艺围栏安装服务商排行盘点 - 优质品牌商家
  • Go 语言中 go install 命令的正确用法与常见误区详解
  • 3步搞定宝可梦数据合法性验证:AutoLegalityMod终极使用指南
  • 决策树失效原因与优化实战指南
  • 瑞芯微(EASY EAI)RV1126B rknn-toolkit-lite2使用方法
  • Docker边缘配置效率提升300%:基于K3s+EdgeX的7步极简部署法(附生产环境压测数据)
  • 【Luckfox Pico实战指南】从零搭建嵌入式Linux开发环境
  • Vue转React终极指南:VuReact全特性语义对照
  • C#怎么使用属性Property C#自动属性和完整属性的区别get set怎么用【基础】
  • Docker低代码配置落地白皮书(2024企业级实施框架首次公开)
  • 如何轻松实现跨平台词库迁移:深蓝词库转换工具完整指南
  • Q-Learning原理与Python实现:从基础到实战
  • 无人驾驶:名词03【Planning Trajectory:主车输出轨迹】【Prediction Trajectory:动态障碍物预测轨迹】
  • 从Wi-Fi干扰到Zigbee共存:手把手教你用频谱仪分析BLE广播信道的真实环境
  • 用小龙虾构建Data Agent,聊聊天就把数据分析了!
  • MAA明日方舟助手:博士们的智能管家,让重复操作成为历史
  • AI模型加载慢、首请求延迟高、GPU显存泄漏频发,.NET 11推理性能瓶颈全排查,12个必检配置项清单已验证
  • mTLS(双向TLS)介绍(Mutual Transport Layer Security)(客户端和服务端相互验证身份)X.509、Service Mesh、Istio、Linkerd、东西流量
  • 神经网络优化算法:从梯度下降到零阶方法
  • 如何将 WSL 镜像无损迁移至非系统盘
  • Docker存储驱动选型决策树(Overlay2 vs ZFS vs Btrfs vs Devicemapper):基于10万容器集群压测数据的权威对比报告)
  • 避开这3个坑!GD32 SPI配置CKPH/CKPL时序详解与示波器实测对比