当前位置：首页 > news >正文

Python数据分析实战：用matplotlib绘制对比统计特征图的两种方法（附完整代码）

news 2026/7/7 0:19:25

Python数据分析实战：用matplotlib绘制对比统计特征图的两种方法（附完整代码）

在数据分析工作中，可视化是理解数据特征最直观的方式之一。当我们需要比较两个数据集的统计特性时，如何高效地呈现这些差异往往决定了分析结果的传达效果。本文将深入探讨使用matplotlib绘制对比统计特征图的两种核心方法，帮助数据分析师快速掌握这一实用技能。

1. 准备工作与环境配置

在开始绘制图表之前，我们需要确保开发环境配置正确。推荐使用Python 3.8及以上版本，并安装以下核心库：

pip install numpy pandas matplotlib seaborn

对于数据分析项目，通常我们会从CSV或Excel文件中读取数据。假设我们有两个数据集Pdata和Cdata，分别代表不同条件下的观测结果：

import pandas as pd # 读取示例数据 Pdata = pd.read_csv('dataset_p.csv') Cdata = pd.read_csv('dataset_c.csv') # 查看数据结构 print(Pdata.info()) print(Cdata.describe())

提示：在实际项目中，建议先进行数据清洗和预处理，确保两组数据的维度和特征一致，避免后续比较时出现维度不匹配的问题。

2. 方法一：子图矩阵一次性创建法

这种方法的核心思想是预先创建完整的子图布局，然后逐个填充内容。它特别适合需要统一控制多个子图样式的场景。

2.1 实现步骤详解

首先，我们提取两组数据的统计特征：

import matplotlib.pyplot as plt # 获取描述性统计 p1_stats = Pdata.describe() c1_stats = Cdata.describe() # 确定需要比较的统计指标 metrics = ['mean', 'std', '25%', '50%', '75%']

接下来创建子图矩阵并绘制对比条形图：

# 创建3行2列的子图布局 fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(20, 12)) for i, metric in enumerate(metrics): row = i // 2 # 计算行位置 col = i % 2 # 计算列位置 # 绘制Pdata数据 axes[row, col].bar( range(len(p1_stats.columns)), p1_stats.loc[metric], width=0.4, label='Pdata', alpha=0.7, color='#1f77b4' # 设置颜色 ) # 绘制Cdata数据，位置向右偏移0.4 axes[row, col].bar( [x + 0.4 for x in range(len(c1_stats.columns))], c1_stats.loc[metric], width=0.4, label='Cdata', alpha=0.7, color='#ff7f0e' # 设置不同颜色 ) # 设置x轴刻度和标签 axes[row, col].set_xticks([x + 0.2 for x in range(len(p1_stats.columns))]) axes[row, col].set_xticklabels( p1_stats.columns, rotation=45, ha='right', fontsize=8 ) # 添加图例和标题 axes[row, col].legend() axes[row, col].set_title(f'{metric.capitalize()} Comparison') axes[row, col].grid(axis='y', linestyle='--', alpha=0.6) # 调整子图间距 plt.tight_layout() plt.savefig('comparison_method1.png', dpi=300, bbox_inches='tight') plt.show()

2.2 方法优势与适用场景

这种方法的显著优势包括：

统一控制：可以一次性设置所有子图的公共属性
布局灵活：方便实现子图之间的对齐和间距控制
代码简洁：矩阵式访问子图对象，逻辑清晰

特别适合以下场景：

需要比较多个统计指标
要求子图保持一致的样式和布局
需要后期统一调整所有子图的属性

3. 方法二：动态子图添加法

与方法一不同，这种方法采用动态添加子图的方式，更适合需要对每个子图进行个性化设置的场景。

3.1 完整实现代码

plt.figure(figsize=(19, 10)) # 创建基础画布 for i, metric in enumerate(metrics): plt.subplot(3, 2, i + 1) # 动态添加子图 # 绘制条形图 plt.bar( range(len(p1_stats.columns)), p1_stats.loc[metric], width=0.4, label='Pdata', alpha=0.7, color='#2ca02c' ) plt.bar( [x + 0.4 for x in range(len(c1_stats.columns))], c1_stats.loc[metric], width=0.4, label='Cdata', alpha=0.7, color='#d62728' ) # 个性化设置 plt.xticks( ticks=[x + 0.2 for x in range(len(p1_stats.columns))], labels=p1_stats.columns, rotation=45, ha='right' ) plt.legend() plt.title(f'{metric.upper()} Comparison', fontsize=10) plt.ylabel('Value') plt.grid(axis='y', alpha=0.3) # 可针对特定子图添加特殊处理 if metric == 'std': plt.annotate('Important Deviation', xy=(2, max(c1_stats.loc[metric])), xytext=(3, max(c1_stats.loc[metric]) + 0.5), arrowprops=dict(facecolor='black', shrink=0.05)) plt.tight_layout() plt.savefig('comparison_method2.png', dpi=300) plt.show()

3.2 方法特点与最佳实践

这种方法的核心特点包括：

灵活性高：可以针对每个子图进行特殊处理
迭代友好：适合在循环中添加条件判断
可扩展性强：便于添加注释等个性化元素

在实际应用中，我发现以下技巧特别有用：

颜色选择：使用对比明显的颜色方案，如：
- 蓝色(#1f77b4) vs 橙色(#ff7f0e)
- 绿色(#2ca02c) vs 红色(#d62728)

注释技巧：

plt.annotate('Outlier', xy=(x_pos, y_pos), xytext=(text_x, text_y), arrowprops=dict(arrowstyle='->'))

保存优化：

plt.savefig('output.png', dpi=300, bbox_inches='tight', transparent=True)

4. 高级技巧与性能优化

当处理大型数据集时，绘图性能可能成为瓶颈。以下是几种优化方案：

4.1 大数据集处理策略

策略	实现方法	适用场景
数据采样	`df.sample(frac=0.1)`	探索性分析阶段
分块处理	分批读取和绘制	内存受限环境
聚合展示	使用箱线图代替散点图	数据点过多时

4.2 交互式可视化增强

虽然matplotlib主要生成静态图像，但可以结合其他库实现交互功能：

from mpl_interactions import panhandler, zoom_factory fig, ax = plt.subplots() # 添加平移和缩放功能 disconnect_zoom = zoom_factory(ax) disconnect_pan = panhandler(fig)

对于更复杂的交互需求，可以考虑：

import plotly.express as px fig = px.bar(data_frame=df, x='feature', y='value', color='dataset', barmode='group') fig.show()

4.3 样式定制与主题设置

创建统一的绘图风格可以提升报告专业性：

plt.style.use('seaborn') # 使用内置样式 # 或者自定义样式 plt.rcParams.update({ 'font.size': 12, 'axes.titlesize': 14, 'axes.labelsize': 12, 'xtick.labelsize': 10, 'ytick.labelsize': 10, 'figure.facecolor': 'white', 'axes.grid': True, 'grid.alpha': 0.3 })

5. 实际案例分析

让我们通过一个真实的数据分析场景来综合应用这两种方法。假设我们需要比较两个不同季度销售数据的统计特征。

5.1 数据准备与特征工程

# 计算额外统计指标 def enhanced_stats(df): stats = df.describe() stats.loc['cv'] = stats.loc['std'] / stats.loc['mean'] # 变异系数 stats.loc['range'] = stats.loc['max'] - stats.loc['min'] return stats q1_stats = enhanced_stats(Q1_data) q2_stats = enhanced_stats(Q2_data)

5.2 综合可视化实现

结合两种方法的优势，我们可以创建更丰富的比较视图：

fig = plt.figure(figsize=(24, 16)) # 方法一风格 - 主要统计指标 ax1 = plt.subplot2grid((3, 3), (0, 0), colspan=2) metrics = ['mean', 'std', '50%'] for i, metric in enumerate(metrics): ax1.bar([x + i*0.3 for x in range(len(q1_stats.columns))], q1_stats.loc[metric], width=0.3, label=f'Q1 {metric}', alpha=0.7) ax1.bar([x + i*0.3 + 0.15 for x in range(len(q2_stats.columns))], q2_stats.loc[metric], width=0.3, label=f'Q2 {metric}', alpha=0.7) # 方法二风格 - 特殊指标 ax2 = plt.subplot2grid((3, 3), (1, 0)) ax2.bar(['Q1', 'Q2'], [q1_stats.loc['mean'].mean(), q2_stats.loc['mean'].mean()], color=['#1f77b4', '#ff7f0e']) ax2.set_title('Average Mean Comparison') # 添加其他分析视图...

5.3 自动化报告生成

对于定期分析报告，可以封装成函数自动化生成：

def generate_comparison_report(df1, df2, metrics, filename): """生成对比分析报告""" fig = plt.figure(figsize=(20, len(metrics)*4)) for i, metric in enumerate(metrics): ax = fig.add_subplot(len(metrics), 1, i+1) # 绘制对比条形图... # 添加标注和样式... plt.tight_layout() fig.savefig(filename) plt.close() return f"Report saved to {filename}"

在实际项目中，这种可视化方法帮助我快速识别出两个数据中心的服务器性能差异，通过并排比较CPU利用率、内存使用等关键指标的统计特征，我们发现了B中心某些配置项的标准差明显偏大，进而定位到了配置不一致的问题。

查看全文

http://www.jsqmd.com/news/535675/