当前位置：首页 > news >正文

蜂群图核心特点

news 2026/7/1 8:56:51

蜂群图最巧妙的地方在于它的布局算法。

当多个数据点具有相似数值时，它们不会简单地重叠在一起，而是像有“排斥力”一样，在垂直方向（或水平方向）上轻微偏移，形成一个类似蜂群的分布。

比如，下面是同一组数据在散点图和蜂群图中展示的效果。

从中可以看出蜂群图的核心特点有：

绝不重叠：它通过算法检测数据点的重叠情况，一旦发现两个点数值相近，就会自动把它们向水平方向推开。
保留分布形态：散开后的形状，天然形成了一种类似“小提琴”或“山峰”的轮廓，直观地展示了数据的密度。
参数调整：我们可以调整点的大小（marker size）和排列的紧密程度。点越大，视觉冲击力越强，但需要的水平空间也越多。

2. 蜂群图 vs. 条形图：从摘要到细节

条形图就像是一份数据摘要报告，它告诉我们每个类别的平均值或总计值，但隐藏了数据内部的分布细节。

而蜂群图则像是一次数据点的全员大会，每个数据点都有发言的机会。

下面针对同一组数据，我们分别绘制了条形图、箱线图和蜂群图，一起来感受一下它们之间不同的展示效果。

<span style="color:#000000"><span style="background-color:#ffffff"><code class="language-python"><span style="color:#008000"># 生成示例数据</span> np.random.seed(<span style="color:#880000">123</span>) categories = [<span style="color:#a31515">"产品A"</span>, <span style="color:#a31515">"产品B"</span>, <span style="color:#a31515">"产品C"</span>, <span style="color:#a31515">"产品D"</span>] data_comparison = [] <span style="color:#0000ff">for</span> category <span style="color:#0000ff">in</span> categories: n_points = <span style="color:#880000">40</span> <span style="color:#0000ff">if</span> category == <span style="color:#a31515">"产品A"</span>: values = np.random.normal(<span style="color:#880000">75</span>, <span style="color:#880000">8</span>, n_points) <span style="color:#0000ff">elif</span> category == <span style="color:#a31515">"产品B"</span>: values = np.random.normal(<span style="color:#880000">82</span>, <span style="color:#880000">12</span>, n_points) <span style="color:#0000ff">elif</span> category == <span style="color:#a31515">"产品C"</span>: values = np.random.normal(<span style="color:#880000">65</span>, <span style="color:#880000">5</span>, n_points) <span style="color:#0000ff">else</span>: <span style="color:#008000"># 产品D</span> <span style="color:#008000"># 创建一个双峰分布</span> values1 = np.random.normal(<span style="color:#880000">55</span>, <span style="color:#880000">6</span>, n_points // <span style="color:#880000">2</span>) values2 = np.random.normal(<span style="color:#880000">85</span>, <span style="color:#880000">7</span>, n_points // <span style="color:#880000">2</span>) values = np.concatenate([values1, values2]) <span style="color:#0000ff">for</span> value <span style="color:#0000ff">in</span> values: data_comparison.append({<span style="color:#a31515">"产品"</span>: category, <span style="color:#a31515">"用户评分"</span>: value}) <span style="color:#008000"># 1. 条形图（平均值）</span> means = [] <span style="color:#0000ff">for</span> category <span style="color:#0000ff">in</span> categories: cat_data = [d[<span style="color:#a31515">"用户评分"</span>] <span style="color:#0000ff">for</span> d <span style="color:#0000ff">in</span> data_comparison <span style="color:#0000ff">if</span> d[<span style="color:#a31515">"产品"</span>] == category] means.append(np.mean(cat_data)) bars = axes[<span style="color:#880000">0</span>].bar( categories, means, color=[<span style="color:#a31515">"#1f77b4"</span>, <span style="color:#a31515">"#ff7f0e"</span>, <span style="color:#a31515">"#2ca02c"</span>, <span style="color:#a31515">"#d62728"</span>] ) <span style="color:#008000"># 在条形上标注平均值</span> <span style="color:#008000"># 省略...</span> <span style="color:#008000"># 2. 箱线图</span> box_data = [] <span style="color:#0000ff">for</span> category <span style="color:#0000ff">in</span> categories: cat_data = [d[<span style="color:#a31515">"用户评分"</span>] <span style="color:#0000ff">for</span> d <span style="color:#0000ff">in</span> data_comparison <span style="color:#0000ff">if</span> d[<span style="color:#a31515">"产品"</span>] == category] box_data.append(cat_data) boxplot = axes[<span style="color:#880000">1</span>].boxplot( box_data, tick_labels=categories, patch_artist=<span style="color:#a31515">True</span>, boxprops=<span style="color:#0000ff">dict</span>(facecolor=<span style="color:#a31515">"lightblue"</span>) ) <span style="color:#008000"># 省略...</span> <span style="color:#008000"># 3. 蜂群图</span> data_df = pd.DataFrame(data_comparison) sns.swarmplot( x=<span style="color:#a31515">"产品"</span>, y=<span style="color:#a31515">"用户评分"</span>, hue=<span style="color:#a31515">"产品"</span>, data=data_df, ax=axes[<span style="color:#880000">2</span>], size=<span style="color:#880000">5</span>, palette=<span style="color:#a31515">"Set2"</span>, edgecolor=<span style="color:#a31515">"black"</span>, linewidth=<span style="color:#880000">0.5</span>, ) <span style="color:#008000"># 省略...</span> plt.tight_layout() plt.show() </code></span></span>

绘制蜂群图可以用seaborn这个库中的swarmplot函数。

从上面的对比可以看出：

条形图告诉我们产品D的平均分约为70分
箱线图提示产品D的数据分布范围很广
但只有蜂群图清晰地揭示了产品D实际上有两个明显的用户群体：一个低评分群体和一个高评分群体

3. 蜂群图 vs. 散点图：从混乱到有序

传统散点图在处理分类数据时，常常导致数据点大量重叠，形成"黑团"，我们无法看清数据点的真实分布。

蜂群图通过智能布局算法解决了这个问题。

下面构造一个不同密度的数据，看看蜂群图和散点图的展示效果。

<span style="color:#000000"><span style="background-color:#ffffff"><code class="language-python"><span style="color:#008000"># 比较散点图与蜂群图的视觉效果</span> fig, axes = plt.subplots(<span style="color:#880000">1</span>, <span style="color:#880000">2</span>, figsize=(<span style="color:#880000">14</span>, <span style="color:#880000">6</span>)) <span style="color:#008000"># 生成具有不同密度的数据</span> np.random.seed(<span style="color:#880000">42</span>) density_data = [] categories = [<span style="color:#a31515">"低密度"</span>, <span style="color:#a31515">"中等密度"</span>, <span style="color:#a31515">"高密度"</span>] <span style="color:#0000ff">for</span> i, category <span style="color:#0000ff">in</span> <span style="color:#0000ff">enumerate</span>(categories): n_points = <span style="color:#880000">20</span> + i * <span style="color:#880000">30</span> <span style="color:#008000"># 不同密度</span> <span style="color:#0000ff">if</span> category == <span style="color:#a31515">"低密度"</span>: values = np.random.normal(<span style="color:#880000">50</span>, <span style="color:#880000">15</span>, n_points) <span style="color:#0000ff">elif</span> category == <span style="color:#a31515">"中等密度"</span>: values = np.random.normal(<span style="color:#880000">50</span>, <span style="color:#880000">8</span>, n_points) <span style="color:#0000ff">else</span>: <span style="color:#008000"># 高密度</span> values = np.random.normal(<span style="color:#880000">50</span>, <span style="color:#880000">4</span>, n_points) <span style="color:#0000ff">for</span> value <span style="color:#0000ff">in</span> values: density_data.append({<span style="color:#a31515">"类别"</span>: category, <span style="color:#a31515">"数值"</span>: value}) <span style="color:#008000"># 左侧：传统散点图</span> <span style="color:#0000ff">for</span> i, category <span style="color:#0000ff">in</span> <span style="color:#0000ff">enumerate</span>(categories): cat_data = [d[<span style="color:#a31515">"数值"</span>] <span style="color:#0000ff">for</span> d <span style="color:#0000ff">in</span> density_data <span style="color:#0000ff">if</span> d[<span style="color:#a31515">"类别"</span>] == category] x_positions = np.full(<span style="color:#0000ff">len</span>(cat_data), i) axes[<span style="color:#880000">0</span>].scatter(x_positions, cat_data, alpha=<span style="color:#880000">0.6</span>, s=<span style="color:#880000">60</span>, label=category) <span style="color:#008000">#省略...</span> <span style="color:#008000"># 右侧：蜂群图</span> density_data_df = pd.DataFrame(density_data) sns.swarmplot( x=<span style="color:#a31515">"类别"</span>, y=<span style="color:#a31515">"数值"</span>, hue=<span style="color:#a31515">"类别"</span>, data=density_data_df, ax=axes[<span style="color:#880000">1</span>], size=<span style="color:#880000">6</span>, palette=<span style="color:#a31515">"coolwarm"</span>, edgecolor=<span style="color:#a31515">"black"</span>, linewidth=<span style="color:#880000">0.5</span>, ) <span style="color:#008000">#省略...</span> plt.tight_layout() plt.show() </code></span></span>

蜂群图解决了“重叠（Overplotting）”的问题。在数据量适中（几百到几千个点）时，它是展示分布密度的最佳选择。