当前位置: 首页 > news >正文

ydata-profiling 汉化魔改

@

目录
  • 1. 背景
  • 2. 汉化
  • 3. 改版
    • 3.1. 旧有
    • 3.2. 新增
  • 4. 优化
  • 5. 安装

1. 背景

那么可能首先得唠一唠这个库,我记得最早还是叫pandas-profiling

后来貌似在 23 年 4 月份更名为ydata-profiling,具体情况不知道

当时版本升级的时候好像还有一些报错,可以参考这个[1]

至于这个库有什么用,可以参考这个[2]、这个[3]

大概是之前做某个东西的时候,需要改一下这个库,给的需求的是:

  1. 汉化翻译,报告结构到图片坐标再到鼠标悬停的提示,都搞成中文

  2. 优化结构,增加分析项目,扩大数据展示规模

  3. 提升速度,大幅砍掉变量交互信息的计算,跳过变量类型推断

啊,对了,有必要说一下我下面举例所使用的版本,是这个[4]

以及好像有时候中文显示也会出点问题,可以参考这个[5]

那,接下来就按照上面的展开吧

2. 汉化

首先是汉化翻译,这一块主要是更改HTML模板

它这个模式,感觉就是jinja2那种,把数据填充到预设的模板里面

文件的大概路径是在:

ydata-profiling-develop\src\ydata_profiling\report\presentation\flavours\html\templates

这里面有一堆乱七八遭的东西

一部分单词在这里,还有一部分在其他地方,可以通过VS Code根据关键词快速搜索:

在这里插入图片描述

后面遇到什么奇奇怪怪的,没有被翻译到的单词,都可以通过这种方式来定位,然后再进行翻译

3. 改版

3.1. 旧有

这一块主要是调整文档的结构,一些地方可以通过调整设置来进行更改,可以参考这个[6]

主要是更改Yaml文件里面的设置,或者直接新建一个,然后使用这个新的配置文件

配置文件的使用在这里:

D:\Software\Projects\ydata-profiling-develop\src\ydata_profiling\profile_report.py

ProfileReport类初始化的时候会传入一个config参数作为配置文件的路径

看起来似乎默认使用的是这个文件:

D:\Software\Projects\ydata-profiling-develop\src\ydata_profiling\config_minimal.yaml

3.2. 新增

如果要增加一些版面的话,就得看一下它的结构了

我的感觉大概是,首先是这个文件:

D:\Software\Projects\ydata-profiling-develop\src\ydata_profiling\profile_report.py

毕竟被调用的类就在这里面写着,然后这里面的某一个主部分是是report函数,大概是由它返回整个报告:

    @propertydef report(self) -> Root:if self._report is None:self._report = get_report_structure(self.config, self.description_set)return self._report

在这里面调用了get_report_structure来形成结构,传入的self.config参数是配置文件,而self.description_set就是这个数据集的描述数据,使用这些数据就可以生成一份分析报告

所以如果要增加模块的话,首先要确保self.description_set里面有新模块的数据,也就是说新模块的计算过程要放在生成self.description_set的地方,也就是这里

D:\Software\Projects\ydata-profiling-develop\src\ydata_profiling\model\describe.py

除此之外,还要对新模块的展示创建代码,主要是在get_report_structure部分,看那里面是如何把数据填充到HTML里面的,当然新模块对应的HTML文件也是需要新建的。

4. 优化

类型推断什么的,其实是可以在YAML设置文件调整的,比如说:

# infer dtypes
infer_dtypes: false

要砍掉一些模块的话,其实和上面调整版本的部分差不多:

  1. 首先要删去计算过程,也就是self.description_set的生成过程那里,注释掉相关的代码

  2. 然后是删去展示结构,也就是get_report_structure部分

5. 安装

改完乱七八遭的东西之后,就可以安装了,官方文档给的是:

pip install -e .

大概含义是这个[7]

记得我之前的操作好像还是:

python setup.py build
python setup.py install

这个操作的解释在这里[8]


  1. pandas_profiling报错,使用新版ydata_profiling_pandas profiling包换名字了-CSDN博客 ↩︎

  2. 独家 | 用pandas-profiling做出更好的探索性数据分析 - 知乎 ↩︎

  3. EDA神器pandas-profiling万岁? - 知乎 ↩︎

  4. GitHub - ydataai/ydata-profiling at 35cb5b9c9bb7919ada09b11b7bc7248cab5804f4 ↩︎

  5. pandas_profiling不能显示中文,如何处理? - 知乎 ↩︎

  6. 数据集分析工具pandas-profiling进阶:个性化定制配置文件与参数_pandas_profiling如何改bins-CSDN博客 ↩︎

  7. pip常用指令详解——(pip install -e .等)-CSDN博客 ↩︎

  8. python setup.py install/build 与 python setup.py develop的区别 (python setup.py build_ext --inplace)-CSDN博客 ↩︎

http://www.jsqmd.com/news/432860/

相关文章:

  • 【开题答辩全过程】以 基于web的学校田径运动会管理系统开发与实现为例,包含答辩的问题和答案
  • 2026年3月桥梁模板实力厂家,彰显国产技术实力 - 品牌鉴赏师
  • Go - fmt.Scanln()
  • 2026年3月三氟甲基丙烯酸厂家推荐,售后体系完善实用指南 - 品牌鉴赏师
  • 适配国人肤质 自然堂三八赞「美」礼盒开启科学护肤新体验 - 速递信息
  • PLSQLDEV.EXE-无法找到入口
  • Yi.Net平台管理--工作流
  • VS Code 配置 Markdown 环境
  • 2026年3月三氟丙烯厂家权威推荐,高性能稳定性强行业优选 - 品牌鉴赏师
  • 一文带你了解nginx
  • Win10 自用 Bat 脚本小工具
  • Docker:从入门到实战,解锁容器化部署新姿势
  • 安卓手机配置通用多屏协同及自动化脚本
  • 原生部署迁移至K8S
  • 全球化征途的“定海神针”:eRoad 如何重塑跨国企业的合规与效能基石
  • 2026年3月尼龙厂家权威推荐,高性能稳定性强行业优选 - 品牌鉴赏师
  • 2026年3月三氟乙胺厂家权威推荐,高性能稳定性强行业优选 - 品牌鉴赏师
  • xv6如何开始运行第一个用户进程 - Xwj
  • 免 Xcode 的 iOS 开发新选择?聊聊一款更轻量的 iOS 开发 IDE kxapp 快蝎
  • Lenovo在2026年世界移动通信大会推出自适应AI PC、模块化概念产品和Lenovo Qira
  • 2026年3月箱体钣金加工厂家推荐,各类箱体外壳定制加工 - 品牌鉴赏师
  • NTT DOCOMO BUSINESS与Airlinq建立全球物联网战略合作关系
  • SQL server高可用架构——Failover Cluster Instance
  • Centos配置RabbitMQ
  • 2026年2-溴三氟丙烯(BTP)厂家权威推荐,高性能稳定性强行业优选 - 品牌鉴赏师
  • OpenClaw 消息 Channel 快速部署:飞书、钉钉与主流 IM 一体化接入
  • 和小葛去石家庄。
  • 终将成为你 莉兹与青鸟 短评——2026.3.3 鲜花
  • 2026年3月甲基丙烯酸三氟乙酯厂家推荐,售后体系完善实用指南 - 品牌鉴赏师
  • Windows Terminal 配置 oh-my-posh