当前位置: 首页 > news >正文

【Python】pandas Week 8 - 1:环境搭建与基础概念

一、学习目标

  • 搭建Python 环境
  • 理解 DataFrame 和 Series
  • 学会读取和查看数据

二、Pandas vs SQL 语法对照

SQL概念pandas对应学习重点
SELECT * FROM tabledfdf.head()查看数据
SELECT col1, col2df[['col1', 'col2']]选择列
WHEREdf[df['col'] > 100]条件筛选
GROUP BYdf.groupby('col')分组聚合
JOINpd.merge(df1, df2)表关联
ORDER BYdf.sort_values('col')排序
SUM/AVG/COUNTdf['col'].sum()聚合函数
CASE WHENdf.apply()np.where()条件判断

三、学习内容

1、环境搭建

# 安装 Anaconda 或 pip 安装 pip install pandas numpy sqlalchemy pymysql jupyter # 启动 jupyter jupyter notebook

2、第一个 pandas 程序

import pandas as pd # 创建 DataFrame (一个类似 SQL 的表) df = pd.DataFrame({ 'product_id': [1, 2, 3, 4, 5], 'product_name': ['产品A', '产品B', '产品C', '产品D', '产品E'], 'price': [100, 200, 150, 300, 250], 'quantity': [10, 20, 15, 5, 8] }) # 查看数据(类似 SQL 的 SELECT) print('查看全部数据:\\n',df) # 查看全部数据 print('查看前3行数据(LIMIT 3):\\n', df.head(3)) # print('查看最后2行数据:\\n', df.tail(2)) # 最后2行 print('查看维度(行数,列数):\\n', df.shape) # 维 print('查看数据信息(DESC)\\n', df.info()) # 数据信 print('查看统计描述:\\n', df.describe()) # 统计描述

3、读取外部数据

import pandas as pd from sqlalchemy import create_engine # 写入数据 df.to_csv('products.csv', index=False) # index=False 不写入索引 df.to_excel('products.xlsx', index=False) # 读取数据 df1 = pd.read_csv('products.csv') # 读取 CSV 文件 df2 = pd.read_excel('products.xlsx') # 读取 Excel 文件 print(df1) print(df2) # 读取 SQL engine = create_engine( 'mysql+pymysql://@10.200.13.59:9031/ads?charset=utf8', connect_args={ 'user': 'garciashan', 'password': 'garciashan@205324', 'port': 9031, } ) df = pd.read_sql('SELECT * FROM ads.ads_dim_site', engine) print(df) # 保存数据 df.to_csv('output.csv', index=False) df.to_excel('output.xlsx', index=False)

四、本周练习

练习1:创建一个包含以下列的 DataFrame

  • 员工 ID 、姓名、部门、工资、入职日期
  • 至少10条数据
  • 用 head() 、tail()、info()、describe() 查看
from sqlalchemy import create_engine import pandas as pd df = pd.DataFrame({ '员工ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], '姓名': ['Sasa', 'Ami', 'Kimi', 'Jason', 'Sara', 'Tom', 'Jim', 'Phill', 'Zoe', 'Mike'], '部门': ['HR', 'HR', 'IT', 'IT', 'FIN', 'FIN', 'OPS', 'OPS', 'OCT', 'OCT'], '工资': [10000, 20000, 30000, 40000, 50000, 60000, 70000, 80000, 90000, 100000], '入职日期': ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01', '2022-06-01', '2022-07-01', '2022-08-01', '2022-09-01', '2022-10-01'], }) print('df.head():\\n', df.head()) print('df.tail():\\n',df.tail()) print('df.info():\\n', df.info()) print('df.describe():\\n', df.describe())

练习2:从你的工作数据库读取一张表到 pandas

from sqlalchemy import create_engine import pandas as pd engine = create_engine( 'mysql+pymysql://@10.200.13.59:9031/ads?charset=utf8', connect_args={ 'user': 'garciashan', # 注意这里要加 default_cluster: 前缀 'password': 'garciashan@250324', 'port': 9031 } ) df = pd.read_sql("SELECT * FROM ads.ads_dim_site LIMIT 100", engine) # print(df) print(df.head()) print(df.shape)
http://www.jsqmd.com/news/650346/

相关文章:

  • 闲置瑞祥黑金卡别浪费!3种贴心安心回收方法,新手也能轻松变现 - 京回收小程序
  • 终极整合:如何一键搞定所有Visual C++运行库
  • 轻量级 AI短剧剧本生成器源码,小白也能二次开发
  • 从山大地纬笔试看Java与数据库核心考点解析
  • 2026 碰焊机选型避坑指南:覆盖汽配/重工/五金,这 6 家厂商精准适配 - 深度智识库
  • 2026乌鲁木齐搬家公司选购指南:透明收费安全搬运正规资质 - 精选优质企业推荐榜
  • Blender3mfFormat:终极3D打印工作流解决方案,5分钟掌握专业格式转换
  • 丰田以“尽情享受休闲时光”活动庆祝全新 RAV4 上市
  • 观察者补丁全息理论如何让符号学成为物理现实的底层协议
  • 知信恒温水浴锅哪家供应商靠谱?授权经销商盘点 - 品牌推荐大师
  • 物联网LoRa系列-33:LoRaWAN智能水表数据采集实战:从脉冲信号到云端数据的完整链路解析
  • 终极MSG文件查看解决方案:跨平台Java邮件查看器完整指南
  • 终极B站视频解析工具完整使用指南:快速获取高质量视频资源
  • 终极指南:如何用LinkSwift网盘直链下载助手让文件下载速度提升10倍
  • 顶会论文模块复现与二次创新:顶会 NeurIPS 2025:Gated Linear Attention(门控线性注意力)简易实现与实验
  • 大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
  • 顶会论文模块复现与二次创新:二次创新:将 MLP-Mixer 的跨 token 混合机制引入 ConvNeXt Block
  • 口碑好的军事拓展训练公司盘点,怎么收费 - 工业品牌热点
  • 商用扫地机出口欧盟需要做EMC+LVD+MD三指令
  • 小爱音箱音乐播放困境的突破性解决方案:XiaoMusic一站式智能化音乐中心
  • RT-Thread BSP提交指南:从个人项目到开源贡献,你的代码如何通过社区审核?
  • OpenRocket终极指南:5步快速掌握开源火箭设计与飞行仿真
  • T-POT 20.06 蜜罐平台:从零到一的实战部署与避坑指南
  • ESP32 Homekit实战 - 让Siri掌控你的RGB氛围灯
  • 筑牢企业品控防线:TVA故障应急处置指南(中篇)
  • 阿里新王炸?HappyHorse 1.0 AI视频生成模型全解析
  • ComfyUI-WanVideoWrapper:基于扩散模型的模块化视频生成架构与工作流构建
  • 别再乱买了!根据预算和应用,锁定余氯仪前十品牌 - 陈工日常
  • 多模态增量学习失效真相(92%团队踩中的4个隐性灾难点)
  • 专业抖音直播代运营托管:数据驱动,精准提升品牌价值