当前位置：首页 > news >正文

Python实战：用pyrolite库批量分析土壤数据并可视化（从CSV到三角图）

news 2026/7/23 17:03:09

Python实战：用pyrolite库批量分析土壤数据并可视化（从CSV到三角图）

土壤成分分析是农业科学和环境研究中的基础工作。想象一下，你刚从实验室拿到一批土壤样本的测试报告，数据以CSV格式存储，包含沙粒、粉土和黏土的百分比含量。如何快速判断这些土壤样本的质地类型？如何直观展示不同样本在整体数据集中的分布特征？这正是pyrolite库结合Python数据科学生态系统能够高效解决的问题。

本文将带你完成一个完整的土壤数据分析流程：从原始数据加载、清洗到专业可视化。不同于简单的代码示例，我们会重点关注实际项目中可能遇到的细节问题，比如数据归一化处理、异常值识别、批量分类技巧以及如何定制符合学术出版要求的图表。无论你是农业技术员、环境咨询师还是土壤学研究者，这套方法都能直接应用于日常工作。

1. 数据准备与清洗

拿到原始土壤成分数据后，第一步往往是数据清洗和预处理。实验室仪器或现场传感器采集的数据可能存在缺失值、异常值或格式不一致的问题。假设我们有一个包含300个土壤样本的CSV文件，其结构如下：

SampleID,Sand,Silt,Clay,OrganicMatter S001,45.2,32.1,22.7,2.1 S002,62.3,21.4,16.3,1.8 ...

常见的数据问题及处理方法：

缺失值处理：当某个样本的沙、粉土或黏土含量缺失时
- 删除整条记录（样本量充足时）
- 用同类型土壤的平均值填充（保留样本但可能引入偏差）
- 标记为特殊值后续单独处理

import pandas as pd import numpy as np # 读取CSV文件 df = pd.read_csv('soil_samples.csv') # 检查缺失值 print(df.isnull().sum()) # 填充缺失值（示例用同列中位数填充） df.fillna(df.median(), inplace=True)

数据有效性验证：土壤三组分之和应为100%±1%（考虑测量误差）

# 验证三组分总和 df['Sum'] = df['Sand'] + df['Silt'] + df['Clay'] invalid_samples = df[(df['Sum'] < 99) | (df['Sum'] > 101)] if not invalid_samples.empty: print(f"发现{len(invalid_samples)}条异常记录，建议检查原始数据") # 可选：归一化处理 df['Sand'] = 100 * df['Sand'] / df['Sum'] df['Silt'] = 100 * df['Silt'] / df['Sum'] df['Clay'] = 100 * df['Clay'] / df['Sum']

异常值检测：利用箱线图或Z-score方法识别极端值

from scipy import stats # Z-score方法检测异常值 z_scores = stats.zscore(df[['Sand','Silt','Clay']]) outliers = (np.abs(z_scores) > 3).any(axis=1) print(f"检测到{outliers.sum()}个异常样本")

提示：实际项目中建议保留原始数据和清洗后数据两个版本，所有处理步骤应记录在代码注释或文档中，确保分析可复现。

2. 土壤质地分类原理与实现

USDA土壤质地分类系统将土壤划分为12种基本类型，如砂土(sand)、壤砂土(loamy sand)、砂壤土(sandy loam)等。理解这些分类标准对正确解读可视化结果至关重要。

分类标准的核心逻辑：

首先根据黏土含量确定大类：
- 黏土含量 < 12% → 砂土或壤砂土
- 12% ≤ 黏土含量 < 27% → 砂壤土或壤土
- 黏土含量 ≥ 27% → 黏壤土或黏土
再根据沙粒和粉土的比例细分：
- 沙粒占比高 → 偏"砂"质地
- 粉土占比高 → 偏"粉"质地

pyrolite库内置了USDASoilTexture分类器，我们可以直接调用：

from pyrolite.util.classification import USDASoilTexture # 初始化分类器 classifier = USDASoilTexture() # 对单个样本分类 sample = [45, 30, 25] # 沙、粉土、黏土百分比 classification = classifier.classify(sample) print(f"土壤类型: {classification}") # 批量分类 df['Texture'] = df.apply(lambda row: classifier.classify([row['Sand'], row['Silt'], row['Clay']]), axis=1) # 统计各类别数量 texture_counts = df['Texture'].value_counts() print(texture_counts)

分类结果统计表示例：

土壤类型	样本数量	占比(%)
Sandy Loam	112	37.3
Loam	87	29.0
Clay Loam	45	15.0
Silty Clay Loam	28	9.3
Sand	18	6.0
Silty Loam	10	3.3

3. 高级可视化技巧

基础的三元散点图只能展示样本分布，专业报告通常需要更丰富的信息呈现方式。以下是几种实用技巧：

3.1 分类着色与图例优化

import matplotlib.pyplot as plt from pyrolite.util.plot.style import color_ternary_polygons_by_centroid # 创建图形和坐标轴 fig, ax = plt.subplots(figsize=(10, 8)) ax = classifier.add_to_axes(ax=ax, add_labels=True) # 按土壤类型着色 texture_colors = { 'Sand': '#F7DC6F', 'Loamy Sand': '#F8C471', 'Sandy Loam': '#EB984E', # ...其他类型颜色定义 } df['Color'] = df['Texture'].map(texture_colors) # 绘制散点图 df.pyroplot.scatter( ax=ax, c=df['Color'], s=50, # 点大小 edgecolor='white', linewidth=0.5, label=df['Texture'] ) # 添加图例（避免重复） handles, labels = ax.get_legend_handles_labels() by_label = dict(zip(labels, handles)) ax.legend(by_label.values(), by_label.keys(), title='Soil Texture', bbox_to_anchor=(1.05, 1), loc='upper left') plt.tight_layout()

3.2 添加密度等高线

当样本量较大时（>100个点），散点图可能出现重叠，密度等高线能更好展示分布趋势：

from pyrolite.util.plot.density import plot_density_contours # 在现有图形上添加密度等高线 plot_density_contours( df[['Sand', 'Silt', 'Clay']].values, ax=ax, bins=30, colors=['blue'], linestyles=['-'], levels=5, zorder=1 # 置于散点下方 )

3.3 多子图对比分析

比较不同地区或不同深度的土壤组成差异：

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6)) # 子图1：表层土壤(0-20cm) surface_df = df[df['Depth'] == 'Surface'] classifier.add_to_axes(ax=ax1, add_labels=True) surface_df.pyroplot.scatter(ax=ax1, c='green', label='Surface') ax1.set_title('Surface Soil (0-20cm)') # 子图2：深层土壤(20-50cm) subsurface_df = df[df['Depth'] == 'Subsurface'] classifier.add_to_axes(ax=ax2, add_labels=True) subsurface_df.pyroplot.scatter(ax=ax2, c='brown', label='Subsurface') ax2.set_title('Subsurface Soil (20-50cm)')

4. 报告级图表输出与解读

学术出版和正式报告对图表质量有严格要求，我们需要调整以下参数：

图表优化清单：

字体与标签：
- 字体大小：标题14pt，坐标轴标签12pt，刻度标签10pt
- 使用Times New Roman或Arial等学术常用字体
- 坐标轴标签包含单位(%)
分辨率与格式：
- 保存为PDF或TIFF格式（期刊常用）
- dpi≥300（印刷质量）
- 矢量图形优先选择PDF
颜色方案：
- 避免纯红/绿组合（色盲友好）
- 使用ColorBrewer提供的科学配色
- 打印时选择高对比度配色

完整的高质量输出代码示例：

import matplotlib as mpl # 设置全局样式 mpl.rcParams.update({ 'font.family': 'Arial', 'font.size': 10, 'axes.titlesize': 14, 'axes.labelsize': 12, 'xtick.labelsize': 10, 'ytick.labelsize': 10, 'figure.dpi': 300 }) fig, ax = plt.subplots(figsize=(8, 7)) ax = classifier.add_to_axes(ax=ax, add_labels=True) # 高级绘图 sc = df.pyroplot.scatter( ax=ax, c=df['OrganicMatter'], # 用有机质含量着色 cmap='YlOrBr', s=60, edgecolor='black', linewidth=0.3, vmin=0, vmax=5 ) # 添加颜色条 cbar = plt.colorbar(sc, ax=ax, pad=0.1) cbar.set_label('Organic Matter Content (%)') # 保存多种格式 fig.savefig('soil_texture_plot.pdf', bbox_inches='tight') fig.savefig('soil_texture_plot.tiff', dpi=300, bbox_inches='tight')

图表解读要点：

样本分布模式：
- 集中区域：反映当地主要土壤类型
- 离群点：可能指示特殊地质条件或采样误差
颜色梯度信息：
- 有机质含量与土壤质地的关系
- 例如黏土区通常有机质含量较高
实际应用建议：
- 砂质土壤：建议增加有机质改良保水性
- 黏质土壤：可能需要改善排水性

在实际项目中，我经常发现实验室数据与田间观察存在差异。例如，一组样本在三角图上显示为黏壤土，但实际触感更接近砂壤土。这种差异通常源于样品制备过程中的颗粒团聚现象，建议配合粒径分布曲线验证。另一个实用技巧是为常见土壤类型创建模板代码，当需要定期分析类似数据时，只需替换数据文件路径即可快速生成标准图表。

查看全文

http://www.jsqmd.com/news/927054/