当前位置: 首页 > news >正文

人工智能之编程进阶 Python高级:第六章 文件类模块

人工智能之编程进阶 Python高级

第六章 文件类模块


@

目录
  • 人工智能之编程进阶 Python高级
  • 前言
  • 一、csv 模块:读写 CSV 文件
    • 1. 写入 CSV
    • 2. 读取 CSV
  • 二、json 模块:处理 JSON 数据
    • 1. 基本用法
    • 2. 读写文件
  • 三、xml 处理:使用 xml.etree.ElementTree
    • 1. 解析 XML(从字符串或文件)
    • 2. 构建 XML
  • 四、io.StringIO / io.BytesIO:内存中的文件模拟
    • 1. StringIO(文本)
    • 2. BytesIO(二进制)
  • 五、pickle 模块:Python 对象序列化
    • 1. 基本用法
    • 2. 序列化到内存
  • 六、with 语句:上下文管理器(Context Manager)
    • 1. 文件操作(最常见)
    • 2. 支持多个资源
    • 3. 自定义上下文管理器
  • 七、模块对比与选型建议
  • 八、总结
  • 资料关注


前言

本文主要介绍和文件相关的模块,包括文件类型csv、json、xml,文件模拟在内存中创建的StringIO,数据的序列化与反序列化,以及最常见的上下文管理器with。


一、csv 模块:读写 CSV 文件

用于处理逗号分隔值(Comma-Separated Values) 文件,常用于表格数据导入导出。

1. 写入 CSV

import csv# 写入列表数据
with open('data.csv', 'w', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(['Name', 'Age', 'City'])        # 表头writer.writerow(['Alice', 30, 'New York'])writer.writerows([['Bob', 25, 'London'], ['Charlie', 35, 'Tokyo']])# 写入字典数据(推荐)
with open('data_dict.csv', 'w', newline='', encoding='utf-8') as f:fieldnames = ['Name', 'Age', 'City']writer = csv.DictWriter(f, fieldnames=fieldnames)writer.writeheader()writer.writerow({'Name': 'Alice', 'Age': 30, 'City': 'New York'})

2. 读取 CSV

# 读取为列表
with open('data.csv', 'r', encoding='utf-8') as f:reader = csv.reader(f)for row in reader:print(row)  # ['Alice', '30', 'New York']# 读取为字典(推荐)
with open('data_dict.csv', 'r', encoding='utf-8') as f:reader = csv.DictReader(f)for row in reader:print(row['Name'], row['Age'])  # Alice 30

✅ ​注意​:

  • 使用 newline='' 避免空行(Windows)
  • 指定 encoding='utf-8' 防止中文乱码

二、json 模块:处理 JSON 数据

用于​序列化/反序列化 JSON​(JavaScript Object Notation),是 Web API 和配置文件的通用格式。

1. 基本用法

import jsondata = {"name": "Alice","age": 30,"hobbies": ["reading", "coding"],"active": True,"balance": None
}# 序列化:Python → JSON 字符串
json_str = json.dumps(data, ensure_ascii=False, indent=2)
print(json_str)# 反序列化:JSON 字符串 → Python
parsed = json.loads(json_str)
print(parsed['name'])  # Alice

2. 读写文件

# 写入 JSON 文件
with open('config.json', 'w', encoding='utf-8') as f:json.dump(data, f, ensure_ascii=False, indent=2)# 读取 JSON 文件
with open('config.json', 'r', encoding='utf-8') as f:config = json.load(f)

🔑 ​参数说明​:

  • ensure_ascii=False:支持中文
  • indent=2:美化输出(适合人类阅读)
  • sort_keys=True:按键排序

⚠️ ​限制​:
JSON 不支持 setdatetime、自定义类等类型。需自定义 default 函数或预处理。


三、xml 处理:使用 xml.etree.ElementTree

Python 标准库提供轻量级 XML 解析器(​不验证 DTD/XSD​)。

1. 解析 XML(从字符串或文件)

import xml.etree.ElementTree as ETxml_data = '''
<bookstore><book id="1"><title>Python指南</title><author>张三</author><price>59.9</price></book><book id="2"><title>数据科学实战</title><author>李四</author><price>79.9</price></book>
</bookstore>
'''# 从字符串解析
root = ET.fromstring(xml_data)# 或从文件解析
# tree = ET.parse('books.xml')
# root = tree.getroot()# 遍历
for book in root.findall('book'):title = book.find('title').textauthor = book.find('author').textprice = float(book.find('price').text)book_id = book.get('id')  # 获取属性print(f"ID:{book_id} | {title} by {author} - ¥{price}")

2. 构建 XML

# 创建根元素
root = ET.Element("students")# 添加子元素
student = ET.SubElement(root, "student", id="101")
ET.SubElement(student, "name").text = "王五"
ET.SubElement(student, "grade").text = "A"# 写入文件
tree = ET.ElementTree(root)
tree.write("students.xml", encoding="utf-8", xml_declaration=True)

✅ ​优点​:内存占用小(适合大文件)
❌ ​缺点​:功能有限,复杂场景建议用 lxml(第三方库)


四、io.StringIO / io.BytesIO:内存中的文件模拟

在​内存中读写字符串或字节​,无需真实文件,常用于测试、缓存、API 响应。

1. StringIO(文本)

from io import StringIO# 写入内存
f = StringIO()
f.write("Hello, ")
f.write("World!")
content = f.getvalue()  # "Hello, World!"
f.close()# 读取内存
f = StringIO("Line 1\nLine 2\nLine 3")
for line in f:print(line.strip())
f.close()# with 语句自动关闭
with StringIO() as f:f.write("Test")print(f.getvalue())  # Test

2. BytesIO(二进制)

from io import BytesIO# 模拟二进制文件(如图片、PDF)
buffer = BytesIO()
buffer.write(b'\x89PNG\r\n\x1a\n')  # PNG 文件头
png_data = buffer.getvalue()
buffer.close()

✅ ​典型用途​:

  • 单元测试中模拟文件对象
  • 将数据直接传给需要 file-like object 的函数(如 pandas.read_csv(StringIO(...))

五、pickle 模块:Python 对象序列化

将​任意 Python 对象​(包括自定义类)序列化为二进制,用于保存/恢复程序状态。

1. 基本用法

import pickledata = {'users': ['Alice', 'Bob'], 'count': 42, 'flag': True}# 序列化到文件
with open('data.pkl', 'wb') as f:  # 注意:二进制模式 'wb'pickle.dump(data, f)# 从文件反序列化
with open('data.pkl', 'rb') as f:  # 'rb'loaded = pickle.load(f)print(loaded)  # {'users': ['Alice', 'Bob'], ...}

2. 序列化到内存

# 转为 bytes
serialized = pickle.dumps(data)
# 从 bytes 恢复
restored = pickle.loads(serialized)

⚠️ ​严重警告​:

  • 不要反序列化不可信来源的 pickle 数据!​(可执行任意代码)
  • pickle 不是跨语言格式(仅限 Python)
  • 不同 Python 版本可能不兼容

✅ ​适用场景​:
临时缓存、进程间通信(同一系统)、机器学习模型保存(如 joblib 基于 pickle)


六、with 语句:上下文管理器(Context Manager)

确保资源(如文件、锁、网络连接)​自动正确释放​,即使发生异常。

1. 文件操作(最常见)

# 自动关闭文件,无需 f.close()
with open('file.txt', 'r') as f:content = f.read()
# 文件在此处已关闭

2. 支持多个资源

with open('input.txt', 'r') as fin, open('output.txt', 'w') as fout:fout.write(fin.read().upper())

3. 自定义上下文管理器

class Timer:def __enter__(self):self.start = time.time()return selfdef __exit__(self, exc_type, exc_val, exc_tb):print(f"耗时: {time.time() - self.start:.2f}秒")with Timer():time.sleep(1)  # 耗时: 1.00秒

✅ ​核心优势​:

  • 避免资源泄漏(如忘记关闭文件)
  • 代码更简洁、安全
  • 自动处理异常后的清理

七、模块对比与选型建议

格式/模块 可读性 跨语言 安全性 适用场景
csv ✅ 高 ✅ 是 ✅ 安全 表格数据交换
json ✅ 高 ✅ 是 ✅ 安全 Web API、配置文件
xml ⚠️ 中 ✅ 是 ✅ 安全 企业级数据、文档
pickle ❌ 二进制 ❌ 否 危险 Python 内部对象持久化
StringIO 内存中模拟文件

八、总结

  1. 能用 JSON 就别用 pickle
    除非你百分百确定数据是你自己生成的,而且只在 Python 里用。不然 pickle 不光别人看不懂,还可能被用来搞坏事(比如执行恶意代码)。
  2. 打开文件一定要用 with
    这样不管程序跑没跑完、出没出错,文件都会自动关掉。省得忘了关,占着资源还容易出 bug。
  3. 记得加上 encoding='utf-8'
    特别是处理中文的时候,不加这个很容易乱码。加上就安心,一劳永逸。
  4. 读写 CSV 推荐用 DictReaderDictWriter
    用字典操作字段名(比如 row['name']),比记第几列直观多了,代码也更好读、好维护。
  5. XML 太复杂?试试 lxml
    标准库的 XML 功能比较基础。如果你要查节点、做转换或者验证结构,直接上 lxml,它支持 XPath,写起来爽很多。
  6. 千万别用 pickle 存密码、密钥这类敏感信息
    pickle 本质是“把代码存下来再运行”,反序列化时可能偷偷执行东西,安全风险很高!
  7. 写测试时,用 StringIO 模拟文件
    不用真在硬盘上建文件,直接在内存里读写,干净又快,测完就丢,特别适合单元测试。

资料关注

公众号:咚咚王

艺术二维码.png

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen) 》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

http://www.jsqmd.com/news/44883/

相关文章:

  • PQ v.Next Alpha阶段发布
  • 国产数据库替代MongoDB的技术实践过程:金仓多模数据库在电子证照框架中的深度应用
  • 三分稀疏图染色的多项式时间证明
  • 251119
  • 实用指南:分布式架构未来趋势:从云原生到智能边缘的演进之路
  • 人工智能之编程进阶 Python高级:第七章 数据库类模块
  • linux for 跳出循环
  • 用USB BLASTER II 下载sof文件没有问题,debug波形也没有问题。但是下载jic问题异常?
  • Linux用户管理相关知识
  • AI浪潮下的机遇与挑战:从巨头动态看未来趋势
  • CCF GESP 五级真题考频与知识点速查表
  • 推迟win11更新137年的方法
  • linux for 死循环
  • 注册表禁用/启用Windows系统更新
  • Linux for OneNote
  • linux for in seq
  • 高级程序语言设计第6次
  • 深入解析:Flink 实验性特性把“已预分区”的 DataStream 重新解释为 KeyedStream
  • 用最纯粹的白话,解析 AI Memory
  • 2025苏州代理记账口碑榜:3 家靠谱机构/公司出圈,财税服务选对不踩坑!
  • 完整教程:电脑控制DFPlayer Mini MP3播放音乐
  • 2025-11-19 早报新闻
  • 2025密炼机厂家实力榜:大连华韩领衔 四大品牌凭技术与口碑领跑橡塑机械行业
  • 2025矿物铸件厂家推荐排行榜:头部企业实力领跑,四星厂商凭细分优势站稳脚跟
  • 2025有限元分析/计算/测试服务商口碑榜:长春六耳科技领跑,技术深耕者成行业标杆
  • 详细介绍:Micro框架API文档离线访问:生成静态HTML文件
  • Python 中 pymysql 操作 MySQL 数据库实操指南
  • qml021-调试qml-无法连接到进程内(in-process)QML调试器
  • 如何优雅地看着电脑为你打工? - Magic
  • 告别内网限制!用StirlingPDF+cpolar打造可远程访问的PDF程序站