当前位置: 首页 > news >正文

【数据分析】python-pandas速查文档(2)

python-pandas速查文档(2)

博客主页:源码速查
本文档共 4 部分,当前为第 2 部分

文章目录

  • python-pandas速查文档(2)
    • 六、公开方法速查(按功能分类)
        • searchsorted():查找插入位置
        • set_axis():重设轴标签
        • set_categories():重新设定分类值
        • set_closed():设置闭合方式
        • set_codes():设置编码值
        • set_eng_float_format():设置工程浮点格式
        • set_index():设置行索引列
        • set_levels():设置层级标签值
        • set_names():设置索引名称
        • set_option():全局配置项
        • set_ordered():设置有序标记
        • shift():数据位移
        • sort():排序
        • sort_index():按索引排序
        • sort_values():按值排序
        • sortlevel():多级索引层级排序
        • stack():列转行堆叠
        • strftime():日期格式化输出
        • swaplevel():交换索引层级
        • symmetric_difference():对称差集
        • transform():分组内逐行计算
        • tz_convert():时区转换
        • tz_localize():标记时区
        • unstack():行索引转列
        • update():原地更新数据
        • update_dtype():更新类型
      • 计算聚合
        • agg():聚合计算
        • aggregate():聚合计算(同义)
        • argmax():最大值位置
        • argmin():最小值位置
        • autocorr():自相关系数
        • corr():相关系数矩阵
        • corrwith():按轴计算相关系数
        • count():非空值计数
        • cov():协方差矩阵
        • cummax():累计最大值
        • cummin():累计最小值
        • cumprod():累计乘积
        • cumsum():累计求和
        • describe():统计描述
        • describe_option():查看配置项说明
        • groupby():分组操作
        • groups():HDF5分组列表
        • idxmax():最大值索引标签
        • idxmin():最小值索引标签
        • max():最大值
        • mean():平均值
        • median():中位数
        • min():最小值
        • prod():乘积
        • quantile():分位数
        • std():标准差
        • sum():求和
        • value_counts():频数统计
    • 八、快速索引
      • 方法快速索引
    • 九、参考资料

【pandas 公开成员统计】:共 41 个公开类,628 个公开方法,239 个公开属性

六、公开方法速查(按功能分类)

本部分继续列出公开方法详细条目。

searchsorted():查找插入位置
Series.searchsorted(self, value: 'NumpyValueArrayLike | ExtensionArray', side: "Literal['left', 'right']" = 'left', sorter: 'NumpySorter | None' = None) -> 'npt.NDArray[np.intp] | np.intp'

归属:pandas.Series

说明:在已排序的 Series 中二分查找指定值的插入位置,保持有序。

importpandasaspd s=pd.Series([80,100,120,150],index=[1990,1991,1992,1993],name="价格指数")print("100 应插入位置:",s.searchsorted(100))# 输出: 1print("115 应插入位置:",s.searchsorted(115))# 输出: 2

set_axis():重设轴标签
DataFrame.set_axis(self, labels, *, axis: 'Axis' = 0, copy: 'bool | None' = None) -> 'DataFrame'

归属:pandas.DataFrame

说明:替换行索引或列名称,适合整理来自英文或数据库默认字段名的表格。

importpandasaspd 销售底表=pd.DataFrame({"city":["北京","上海"],"amount":[120,150],"channel":["线上","门店"]})改名表=销售底表.set_axis(["城市","销售额","渠道"],axis=1)print(改名表.columns.tolist())# 输出: ['城市', '销售额', '渠道']

归属:pandas.Series

说明:替换 Series 的行索引标签。

importpandasaspd s=pd.Series([120,80,150],index=["北京","上海","广州"],name="销售额")s2=s.set_axis(["B京","S海","G州"])print(s2)# 输出:# B京 120# S海 80# G州 150

set_categories():重新设定分类值
Categorical.set_categories(self, new_categories, ordered=None, rename: 'bool' = False)

归属:pandas.Categorical

说明:修改分类的合法类别集合,可添加新类别或移除旧类别。

importpandasaspd 等级=pd.Categorical(["初级","中级","初级"],categories=["初级","中级"],ordered=True)新等级=等级.set_categories(["初级","中级","高级"],ordered=True)print(新等级.categories.tolist())# 输出: ['初级', '中级', '高级']

归属:pandas.CategoricalIndex

说明:修改分类索引的合法类别集合。

importpandasaspd idx=pd.CategoricalIndex(["低","中","高"],categories=["低","中","高"],ordered=True)新索引=idx.set_categories(["低","中","高","特高"],ordered=True)print(新索引.categories.tolist())# 输出: ['低', '中', '高', '特高']

set_closed():设置闭合方式
IntervalIndex.set_closed(self, *args, **kwargs)

归属:pandas.IntervalIndex

说明:修改区间索引的端点闭合方式(left/right/both/neither)。

importpandasaspd 区间=pd.IntervalIndex.from_breaks([0,10,20])# 默认右侧闭合print("修改前闭合:",区间.closed)# 输出: rightprint("修改后闭合:",区间.set_closed("left").closed)# 输出: left

set_codes():设置编码值
MultiIndex.set_codes(self, codes, *, level=None, verify_integrity: 'bool' = True) -> 'MultiIndex'

归属:pandas.MultiIndex

说明:修改指定层级的编码值,直接控制该层级指向 levels 中哪个标签。

importpandasaspd 多级=pd.MultiIndex.from_tuples([("手机","北京"),("平板","上海")],names=["产品","城市"])新编码=多级.set_codes([[0],[1]],level=0)# 仅保留第0层第一组print(新编码)

set_eng_float_format():设置工程浮点格式
pd.set_eng_float_format(accuracy: 'int' = 3, use_eng_prefix: 'bool' = False) -> 'None'

归属:pandas

说明:设置 DataFrame 中浮点数的工程计数法显示格式。

importpandasaspd pd.set_eng_float_format(accuracy=2,use_eng_prefix=True)df=pd.DataFrame({"电阻":[1000,2200000,0.0047]})print(df)# 输出: 电阻# 0 1.00k# 1 2.20M# 2 4.70mpd.reset_option("display.eng_float_format")

set_index():设置行索引列
DataFrame.set_index(self, keys, *, drop: 'bool' = True, append: 'bool' = False, inplace: 'bool' = False, verify_integrity: 'bool' = False) -> 'DataFrame | None'

归属:pandas.DataFrame

说明:将指定列提升为行索引,默认从 DataFrame 中删除该列。

importpandasaspd 员工表=pd.DataFrame({"工号":["E001","E002"],"姓名":["张三","李四"],"部门":["技术部","市场部"]})设置后=员工表.set_index("工号")print(设置后)# 输出:# 姓名 部门# 工号# E001 张三 技术部# E002 李四 市场部

set_levels():设置层级标签值
MultiIndex.set_levels(self, levels, *, level=None, verify_integrity: 'bool' = True) -> 'MultiIndex'

归属:pandas.MultiIndex

说明:替换指定层级的去重标签列表。

importpandasaspd 多级=pd.MultiIndex.from_tuples([("手机","北京"),("手机","上海")],names=["产品","城市"])新层级=多级.set_levels(["上海","广州"],level=1)print(新层级.levels[1].tolist())# 输出: ['上海', '广州']

set_names():设置索引名称
Index.set_names(self, names, *, level=None, inplace: 'bool' = False) -> 'Self | None'

归属:pandas.Index

说明:设置单层或多层索引的名称。

importpandasaspd 城市索引=pd.Index(["北京","上海","广州"])有名称=城市索引.set_names("城市名")print(有名称.name)# 输出: 城市名

set_option():全局配置项
pd.set_option(*args, **kwds) -> 'T'

归属:pandas

说明:设置 pandas 全局显示或行为选项,如最大行数、最大列宽、浮点精度。

importpandasaspd pd.set_option("display.max_rows",20)pd.set_option("display.max_columns",10)pd.set_option("display.float_format",lambdax:f"{x:.2f}")df=pd.DataFrame({"A":[1.23456,2.34567]})print(df)# 输出: A# 0 1.23# 1 2.35

set_ordered():设置有序标记
Categorical.set_ordered(self, value: 'bool') -> 'Self'

归属:pandas.Categorical

说明:修改分类数据是否有序,影响后续的大小比较和排序行为。

importpandasaspd 等级=pd.Categorical(["初级","高级","中级"],categories=["初级","中级","高级"])等级.set_ordered(True,inplace=True)print(等级.ordered,"初级 < 高级:",等级[0]<等级[1])# 输出: True 初级 < 高级: True

shift():数据位移
DataFrame.shift(self, periods: 'int | Sequence[int]' = 1, freq: 'Frequency | None' = None, axis: 'Axis' = 0, fill_value: 'Hashable' = <no_default>, suffix: 'str | None' = None) -> 'DataFrame'

归属:pandas.DataFrame

说明:将数据沿轴方向移动指定步数,空出的位置填 NaN,常用于构造滞后特征。

importpandasaspd 股票数据=pd.DataFrame({"日期":pd.date_range("2026-05-20",periods=4,freq="D"),"收盘价":[100,102,105,103]})股票数据["昨收"]=股票数据["收盘价"].shift(1)股票数据["涨跌"]=股票数据["收盘价"]-股票数据["昨收"]print(股票数据[["日期","收盘价","昨收","涨跌"]])# 输出:# 日期 收盘价 昨收 涨跌# 0 2026-05-20 100 NaN NaN# 1 2026-05-21 102 100.0 2.0# 2 2026-05-22 105 102.0 3.0# 3 2026-05-23 103 105.0 -2.0

sort():排序
Index.sort(self, *args, **kwargs)

归属:pandas.Index

说明:对 Index 按值进行排序(已废弃,推荐使用 sort_values)。

importpandasaspd idx=pd.Index(["广州","北京","上海"],name="城市")print(idx.sort_values().tolist())# 输出: ['上海', '北京', '广州'](按拼音排序)

sort_index():按索引排序
DataFrame.sort_index(self, *, axis: 'Axis' = 0, level: 'IndexLabel | None' = None, ascending: 'bool | Sequence[bool]' = True, inplace: 'bool' = False, kind: 'SortKind' = 'quicksort', na_position: 'NaP...

归属:pandas.DataFrame

说明:按行索引(或列索引)的值对 DataFrame 排序。

importpandasaspd 销售表=pd.DataFrame({"产品":["手机","平板"],"销量":[300,120]},index=["2026-05","2026-04"])排序后=销售表.sort_index()print(排序后)# 输出:# 产品 销量# 2026-04 平板 120# 2026-05 手机 300

归属:pandas.Series

说明:按 Series 的索引排序。

http://www.jsqmd.com/news/904917/

相关文章:

  • 教育科技项目利用Taotoken为学生提供稳定的AI答疑接口
  • Web 红包题第二弹
  • Dism++终极指南:免费开源的Windows系统优化神器
  • 油压机PLC数据采集到MES系统,实现生产状态实时管控
  • 大语言模型上下文污染:成因、诊断与四层防御策略
  • 如何快速清理百度文库页面:三步免费获取纯净文档的完整指南
  • D3keyHelper终极指南:5分钟掌握暗黑破坏神3自动化技能宏
  • 【信息科学与工程学】【金融工程】【财务领域】【会计领域】第四十七篇 产品定价_非寿险定价01
  • AMD Ryzen终极调试工具SMUDebugTool:免费解锁硬件性能的完整指南
  • 学Simulink——风光储一体化并网逆变器的能量管理策略仿真
  • NVIDIA Profile Inspector新手入门:解锁显卡隐藏性能的终极指南
  • 零基础学 Python合集--1:list列表-持续更新
  • 【AVRCP】规范精讲[18]: 从字节到交互,全流程拆解AVRCP命令与响应实战
  • 2026最新【四六级历年真题2017-2025.12】分享
  • 解密浏览器Cookie本地导出:Get cookies.txt LOCALLY实战指南
  • 终极指南:Dell G15散热控制中心的开源替代方案完全解析
  • Python进阶 面向对象基础
  • 在线去本地视频水印的工具推荐:一篇实测横评看完
  • AI浪潮来袭:小白程序员如何把握机遇,成为超级个体并收藏这份成长指南?
  • 告别卡顿!实测对比:Parallels Desktop vs. VMware Fusion vs. UTM,谁才是Mac上跑Win10的最佳选择?
  • Path of Building PoE2终极指南:流放之路2最强构建规划工具完全教程
  • 2026农用薄膜十大品牌排行榜-农用薄膜哪个牌子好-大家比精选排行榜单 - GrowthUME
  • BOM 核心对象
  • Arduino生日音乐盒制作:从硬件选型到代码调试全解析
  • 【限时解禁】Sora 2多角色视频生成私有Prompt语法手册(OpenAI内部培训PPT第47–89页原图直出)
  • 手把手教你学Simulink——UPS系统中双向DC-AC逆变器的并联均流控制仿真
  • 推荐1款提升办公效率的神级软件,简真是Windows神器!
  • 【 linux 】认识make和makefile
  • 2026年4月高架库定做厂家有哪些,自动化立体仓库/高架库/立体仓储/智能仓库/智能仓储/立体仓库,高架库优质厂家推荐 - 品牌推荐师
  • 6.1 机器学习概述