当前位置: 首页 > news >正文

A2 如何向AI描述需求(提示词模板库)

附录目标

  • 提供可直接复制使用的提示词模板
  • 帮助读者用自然语言准确描述数据分析需求
  • 覆盖数据分析全流程的各类场景
  • 核心能力:让AI帮你写代码,你只需要说清楚要什么

一、使用说明

1.1 提示词的黄金法则

法则说明示例
说清楚目标告诉AI你想达到什么目的“分析用户流失的原因”而不是“帮我算个数”
提供上下文告诉AI数据长什么样“有用户ID、注册时间、最后登录时间、消费金额”
指定输出格式告诉AI你想要什么形式的输出“输出一个表格,包含城市和平均消费”
分步执行复杂任务拆成多步先“显示前几行”,再“检查缺失值”

1.2 提示词模板的使用方法

【模板】→ 复制粘贴 → 替换【】中的内容 → 发送给AI

二、数据读取类

2.1 读取本地文件

场景提示词模板
读取CSV“读取【文件路径】这个CSV文件,显示前5行”
读取CSV(指定编码)“读取这个CSV文件,中文乱码了,用【gbk/utf-8】编码试试”
读取CSV(指定列类型)“读取CSV时,把【用户ID列/手机号列】当成字符串类型,不要转成数字”
读取CSV(只读部分行)“这个CSV文件很大,先只读前【1000】行让我看看数据结构”
读取CSV(分块读取)“这个CSV文件有【2GB】,内存装不下,帮我分块读取,每块【1万】行”
读取Excel“读取【文件路径】这个Excel文件”
读取Excel(指定Sheet)“读取这个Excel的第【2】个Sheet,Sheet名叫【销售明细】”
读取Excel(跳过行)“读取这个Excel,跳过前【3】行,第【4】行是列名”
读取Excel(处理合并单元格)“这个Excel有合并单元格,读取后帮我向下填充空值”
读取JSON“读取这个JSON文件,把它转成表格”
读取JSON(嵌套)“这个JSON里每个用户有多个订单,帮我展开,每个订单一行,用户信息重复带上”

2.2 读取数据库

场景提示词模板
连接SQLite“连接【database.db】这个SQLite数据库,读取【orders】表”
连接MySQL“连接MySQL数据库(地址【localhost】,用户名【root】,密码【123456】,数据库【shop】),读取【orders】表”
执行SQL查询“执行这段SQL:SELECT * FROM orders WHERE order_date >= ‘2024-01-01’”
带参数的查询“查询orders表,只要【北京】城市的订单”
只取部分数据“从数据库读取最近【30】天的订单数据,不要全表”

三、数据清洗类

3.1 数据概览与体检

场景提示词模板
快速查看“显示前【10】行,让我看看数据长什么样”
全身体检“用info查看数据集的基本情况:行数、列数、类型、缺失值”
统计摘要“对数值列做描述性统计分析(describe)”
缺失值检查“检查哪些列有缺失值,缺了多少,占比多少”
重复值检查“检查有没有完全重复的行”
类型检查“检查每列的数据类型是否正确”

3.2 缺失值处理

场景提示词模板
删除缺失行“缺失值很少,直接删除包含缺失值的行”
均值填充“用【年龄】列的均值填充缺失值”
中位数填充“用【收入】列的中位数填充缺失值”
众数填充“用【城市】列的众数(出现最多的值)填充缺失值”
前向填充“这个时间序列数据,用前一个值填充后面的缺失值”
指定值填充“把【未修复损伤】列中的【-】替换成空值”
删除整列“【备注】列缺失超过【50%】,删除这一列”

3.3 异常值处理

场景提示词模板
业务规则检查“找出【年龄】列中大于【120】或小于【0】的行”
IQR方法“用IQR方法找出【价格】列的异常值”
Z-score方法“用Z-score方法找出【收入】列的异常值,阈值设为3”
删除异常行“删除【功率】列为【0】的行”
盖帽法“把【价格】列中超过【100万】的设为100万”
分组替换“把【功率】列中异常的0值,用同【品牌】的中位数替换”

3.4 数据类型转换

场景提示词模板
文本转数字“把【年龄】列从文本转成整数”
文本转小数“把【价格】列从文本转成浮点数”
文本转日期“把【订单日期】列转成日期格式”
数字转文本“把【用户ID】列从整数转成字符串”
整数转日期“把【regDate】从整数转成日期,原格式是YYYYMMDD”
中文日期转日期“把【注册日期】从‘2024年1月15日’格式转成标准日期”
清理后转换“【年龄】列里有‘25岁’、‘30’、‘unknown’,先提取数字部分,再转成整数”

3.5 重复值处理

场景提示词模板
检查重复“检查【订单号】列有没有重复的值”
删除完全重复“删除完全重复的行,保留第一条”
按列去重“按【用户ID】去重,保留最新的一条(按【更新时间】排序)”
查看重复内容“把重复的行都显示出来,让我看看”

四、探索分析类

4.1 描述性统计

场景提示词模板
基础统计“对【价格】列做描述性统计,告诉我均值、中位数、标准差”
分布判断“分析【价格】列的分布,看看是左偏还是右偏”
对比均值中位数“计算【收入】的均值和中位数,差距大吗?说明什么?”
分组统计“按【品牌】分组,计算每组的价格均值、中位数、标准差”

4.2 分组对比

场景提示词模板
单维度分组“按【城市】分组,统计每个城市的用户数量和平均消费”
多维度分组“按【品牌】和【变速箱类型】分组,计算各组的平均价格”
分组排序“按【城市】分组计算平均消费,然后从高到低排序”
分组占比“计算每个【品类】的销售额占比”
分组对比分析“对比【自动挡】和【手动挡】的价格差异,自动挡贵多少?”

4.3 相关性分析

场景提示词模板
计算相关系数“计算所有特征与【价格】的相关系数,按绝对值从大到小排序”
画热力图“画一个相关系数热力图,展示所有数值特征之间的相关性”
找出强相关“找出与【价格】相关性最强的5个特征”
找多重共线性“找出特征之间相关系数超过0.8的特征对”

4.4 分布分析

场景提示词模板
单变量分布“画【价格】列的直方图,看分布形态”
多组分布对比“画箱线图,对比不同【品牌】的价格分布”
检测偏态“分析【收入】列的偏度,建议做log变换吗?”
检测双峰“检查【消费金额】列是否有两个明显的峰值”

4.5 时间序列分析

场景提示词模板
趋势查看“画【销售额】的时间序列折线图,看整体趋势”
季节性检查“按月分组画箱线图,看各月的销售额分布是否有规律”
自相关检查“计算销售额的自相关系数,画ACF图”
分解分析“对销售额做时间序列分解,拆出趋势、季节性和残差”

五、可视化类

5.1 基础图表

场景提示词模板
折线图“画折线图,X轴是【日期】,Y轴是【销售额】”
多条折线“在同一张图上画出【品类A】和【品类B】的月销售额趋势”
柱状图“画柱状图,X轴是【品牌】,Y轴是【平均价格】”
排序柱状图“画柱状图,按【平均价格】从高到低排序”
水平条形图“品牌名太长,画水平条形图展示各品牌的销量”
饼图“画饼图,展示各【品类】的销售额占比(不超过5类)”
直方图“画【价格】列的直方图,bin设为50”
箱线图“画箱线图,X轴是【品牌】,Y轴是【价格】”
散点图“画散点图,X轴是【里程】,Y轴是【价格】”
热力图“画热力图,展示所有数值特征的相关系数矩阵”

5.2 图表美化

场景提示词模板
添加标题“给图表加标题‘2024年各品牌平均价格对比’”
修改坐标轴“把Y轴标签改成‘价格(元)’,X轴标签旋转45度”
颜色调整“把【品牌A】设为蓝色,【品牌B】设为橙色,其他品牌设为灰色”
突出重点“在图上用箭头标注‘最高点’”
添加结论“在图表下方加一行文字:‘品牌A价格最高,是品牌C的3倍’”

5.3 图表组合

场景提示词模板
多个图表“把价格分布直方图和箱线图画在一起,上下排列”
仪表盘“把四张图排成2×2的布局,每张图下方加核心结论”
导出图表“把这张图保存为【price_distribution.png】,分辨率300dpi”

六、建模类

6.1 数据准备

场景提示词模板
划分特征与标签“把数据分成X和y,X是所有特征列,y是【价格】列”
划分训练测试集“用train_test_split按【8:2】划分训练集和测试集,随机种子42”
时间序列划分“按时间顺序划分:前【80%】训练,后【20%】测试”
标准化“对【年龄、收入】等数值特征做标准化”
独热编码“对【城市、品牌】等类别特征做独热编码”

6.2 回归建模

场景提示词模板
线性回归“用线性回归训练价格预测模型”
决策树回归“用决策树回归训练模型,限制最大深度为【10】”
随机森林回归“用随机森林回归训练模型,树的数量设为【100】”
输出评估指标“输出模型的MAE、RMSE、R²”
特征重要性“输出随机森林的特征重要性,按从高到低排序”
预测新数据“用训练好的模型预测这批新车的价格”

6.3 分类建模

场景提示词模板
逻辑回归“用逻辑回归训练流失预测模型”
随机森林分类“用随机森林训练客户流失预测模型”
处理不平衡“数据中流失用户只占【5%】,用class_weight处理不平衡”
输出评估指标“输出混淆矩阵、精确率、召回率、F1分数、AUC”
输出概率“输出每个用户的流失概率,按概率从高到低排序”
找最佳阈值“帮我找出最佳分类阈值,平衡精确率和召回率”

6.4 聚类分析

场景提示词模板
K-Means聚类“对用户做K-Means聚类,K=【4】”
确定K值“用手肘法帮我确定最佳的K值”
特征标准化“对R、F、M三个特征做标准化,量纲差异很大”
解读聚类结果“帮我分析每个聚类的特征,给出业务解读”
画聚类图“把聚类结果画成散点图,用不同颜色表示不同组”

6.5 模型调优

场景提示词模板
诊断问题“帮我判断模型是欠拟合还是过拟合”
画学习曲线“画学习曲线,横轴是训练数据量,纵轴是误差”
交叉验证“用5折交叉验证评估模型”
网格搜索“用网格搜索调优随机森林,参数:n_estimators=[50,100,200],max_depth=[5,10,15]”
随机搜索“用随机搜索调参,迭代20次”

6.6 时间序列预测

场景提示词模板
移动平均“用过去【7】天的移动平均预测明天的销售额”
指数平滑“用指数平滑预测下个月的销售额,自动选择最优alpha”
Holt趋势“用Holt趋势模型预测未来【6】个月,数据有上升趋势”
Holt-Winters“用Holt-Winters模型预测未来【12】个月,有趋势和年度季节性”
评估预测“用MAE、RMSE、MAPE评估预测准确率”

七、完整工作流提示词模板

7.1 数据分析完整流程

“帮我完成一个完整的数据分析项目: 【项目目标】:分析二手车价格的影响因素 【数据】:一个CSV文件,包含15万条记录,字段有:车龄、里程、品牌、功率、变速箱、价格 请按以下步骤做: 1. 读取数据,显示前几行 2. 检查缺失值和数据类型 3. 对价格做描述性统计,画分布图 4. 分析不同品牌、变速箱的价格差异 5. 计算各特征与价格的相关系数 6. 总结核心发现,给出业务建议 ”

7.2 建模完整流程

“帮我完成一个完整的预测建模任务: 【问题类型】:回归(预测二手车价格) 【数据】:已清洗的数据,特征包括:车龄、里程、功率、品牌编码、变速箱编码;目标是价格 请按以下步骤做: 1. 划分特征X和标签y 2. 按8:2划分训练集和测试集 3. 训练随机森林回归模型 4. 输出MAE、RMSE、R² 5. 输出特征重要性排序 6. 画预测值vs实际值的散点图 ”

八、提示词质量自检清单

检查项好例子坏例子
是否说明了目标?“分析哪个渠道用户质量最好”“帮我分析数据”
是否提供了上下文?“数据有用户ID、注册时间、消费金额”(什么都不说)
是否指定了输出格式?“输出一个表格,包含渠道和平均留存率”“给我结果”
是否分步了?“先画图看分布,再做统计检验”“做完整分析”
是否具体了?“找出价格大于100万的异常值”“找出异常值”

九、快速索引

你想要做的事去哪个章节
读取CSV/Excel/JSON2.1 数据读取类
处理缺失值、异常值、重复值3.2-3.5 数据清洗类
统计数据、分组对比、相关性4.1-4.3 探索分析类
画折线图、柱状图、热力图5.1-5.2 可视化类
训练回归/分类/聚类模型6.2-6.4 建模类
调参、交叉验证6.5 模型调优
时间序列预测6.6 时间序列预测
完整工作流7. 完整流程模板

下一节预告:A3 常见问题与解决思路 —— 数据分析中经常遇到的坑和相应的解决方法。

http://www.jsqmd.com/news/811708/

相关文章:

  • Deeplearning4j完全指南
  • 别再为进度条出图发愁了!手把手教你扩展Unity UGUI Image组件,让Filled模式完美支持九宫格
  • 如何永久免费使用AI编程助手:Cursor Free VIP完整指南
  • AI从入门到精通:一条清晰的脉络,带你读懂机器学习、深度学习与大模型的底层逻辑!
  • 实在Agent实测:解决采购合同审核流程冗长与原材料交付周期拉长的架构之道
  • 说说损失膝盖的行为和保护膝盖的方法
  • NSGA-III算法详解:从‘参考点’这个核心概念出发,彻底搞懂多目标优化新思路
  • 2026.5.9
  • 进阶篇如何学习编写 Shell 脚本?
  • AI工程化实战:四层驾驭模型解决开发盲区,打造稳定智能工作流
  • AI生物标志物发现:从海量数据中找真正的信号
  • Cursor Pro激活器:3分钟永久解锁AI编程助手高级功能
  • 2711P-K7C4D1 触摸屏面板
  • 数据流架构芯片深度科普:打破指令围墙,让数据像水一样流动
  • 【Oracle数据库指南】第32篇:Oracle归档日志管理与LogMiner日志分析
  • 5月13号
  • 告别裸机轮询:用STM32CubeMX+外部中断实现高效按键响应(附F072工程源码)
  • OLED内卷之王?微星MPG 271QR QD-OLED X50流光到底值不值得买
  • RAG系统落地秘籍:一张图看懂5大模块如何构建高效问答平台!
  • 第九届河北省大学生程序设计竞赛 L题思路分享(数学,三阶差分)
  • 【Oracle数据库指南】第35篇:Oracle特殊对象——簇与索引组织表(IOT)
  • 乌海豆包AI推广找哪家?宁夏壹山网络全域AI营销实力甄选 - 宁夏壹山网络
  • Confluence数据迁移踩坑实录:从物理机到K8s集群,我是如何无损迁移200G知识库的?
  • 深度解析:城通网盘直连地址获取技术方案
  • 告别裸奔MCU!手把手教你用OSAL调度器重构STM32项目(附看门狗实战)
  • GPT-4 Turbo访问权、优先响应、高级数据分析——ChatGPT Plus五大隐藏权益深度拆解,92%用户根本没用全
  • 2026实测|10款去AI痕迹工具红黑榜 - 殷念写论文
  • Taotoken在数据预处理与分析脚本中调用大模型的集成案例
  • Anthropic Claude Haiku 4.5 安全突破:勒索行为从96%降至0%
  • 基于MCP协议构建AI驱动的Upwork自动化工作流:从工具化接口到安全实践