当前位置：首页 > news >正文

R语言实战：5分钟搞定COG功能分类图绘制（附完整代码）

news 2026/7/3 22:37:12

R语言实战：5分钟绘制专业级COG功能分类图

第一次接触COG功能分类数据可视化时，我被那些色彩斑斓的学术图表吸引，但自己动手时却遇到了各种问题——颜色搭配不协调、标签重叠看不清、分类边界模糊...直到掌握了这套高效流程，才发现原来5分钟就能完成一张期刊级别的COG分类图。

1. 环境准备与数据导入

工欲善其事，必先利其器。在开始绘制前，我们需要确保环境配置正确。建议使用RStudio作为开发环境，它不仅提供友好的交互界面，还能实时查看绘图效果。

首先安装必要的R包：

install.packages(c("ggplot2", "RColorBrewer", "dplyr"))

典型的COG分类数据通常包含三列：功能代码(Code)、功能描述(Functional.Categories)和基因数量(Gene.Number)。假设我们的数据文件是制表符分隔的文本文件：

library(ggplot2) library(dplyr) # 读取数据 cog_data <- read.delim("cog_data.txt", header=TRUE) # 查看数据结构 head(cog_data)

提示：如果数据来源不同，可能需要调整read.delim()的参数，如sep=","用于CSV文件。

常见的数据格式问题包括：

文件编码不一致（特别是中文系统生成的文本文件）
列名包含特殊字符
数值列被误读为字符型

可以通过以下命令检查并修正：

# 检查列数据类型 str(cog_data) # 强制转换数值列 cog_data$Gene.Number <- as.numeric(cog_data$Gene.Number)

2. 数据预处理与排序

COG功能分类有固定的字母顺序(J,A,K,L,B,D,Y,V,T,M,N,Z,W,U,O,C,G,E,F,H,I,P,Q,R,S)，这个顺序反映了功能类别之间的生物学关联。我们需要确保数据按此标准排序：

# 定义标准顺序 cog_order <- c("J","A","K","L","B","D","Y","V","T","M","N","Z","W","U","O", "C","G","E","F","H","I","P","Q","R","S") # 转换为因子并排序 cog_data$Code <- factor(cog_data$Code, levels=cog_order) cog_data <- cog_data %>% arrange(Code) # 添加大类分组信息 cog_data <- cog_data %>% mutate(Category = case_when( Code %in% c("J","A","K","L") ~ "信息存储与处理", Code %in% c("B","D","Y","V","T","M","N","Z","W","U","O") ~ "细胞过程与信号传导", Code %in% c("C","G","E","F","H","I","P","Q") ~ "代谢", TRUE ~ "功能未知" ))

预处理后的数据结构应该包含四列：

Code: COG功能代码(J,A,K...)
Functional.Categories: 功能描述
Gene.Number: 基因数量
Category: 大类分组

3. 基础条形图绘制

使用ggplot2创建基础条形图比基础R的barplot()更加灵活美观。以下是创建基础COG分类图的代码：

ggplot(cog_data, aes(x=Code, y=Gene.Number, fill=Category)) + geom_bar(stat="identity", width=0.7) + labs(title="COG功能分类", x="功能类别", y="基因数量") + theme_minimal()

这个基础图形已经包含了：

按Code排序的条形图
按Category着色的颜色方案
清晰的坐标轴标签

但还存在几个明显问题：

颜色区分度不够
缺少大类分隔线
功能描述文字没有显示
图例位置不够理想

4. 高级美化与标注

4.1 优化颜色方案

使用RColorBrewer提供的专业配色方案：

library(RColorBrewer) # 查看可用配色方案 display.brewer.all() # 选择Set3配色方案 fill_colors <- brewer.pal(4, "Set3") ggplot(cog_data, aes(x=Code, y=Gene.Number, fill=Category)) + geom_bar(stat="identity", width=0.7) + scale_fill_manual(values=fill_colors) + ...

4.2 添加大类分隔线

在COG分类中，四大类之间需要有明显的视觉分隔。我们可以通过annotate()函数添加垂直线：

# 定义大类分隔位置 div_lines <- c(4.5, 11.5, 19.5) ggplot(cog_data, aes(x=Code, y=Gene.Number, fill=Category)) + geom_bar(stat="identity", width=0.7) + ... annotate("segment", x=div_lines, xend=div_lines, y=0, yend=max(cog_data$Gene.Number)*1.05, color="gray40", linetype="dashed") + annotate("text", x=c(mean(c(1,4.5)), mean(c(4.5,11.5)), mean(c(11.5,19.5)), mean(c(19.5,25))), y=max(cog_data$Gene.Number)*1.1, label=unique(cog_data$Category), size=4)

4.3 处理长文本标签

功能描述通常较长，直接显示会导致重叠。解决方案有两种：

方案一：旋转标签

theme(axis.text.x = element_text(angle=45, hjust=1))

方案二：添加右侧图例

# 创建图例数据 legend_data <- cog_data %>% select(Code, Functional.Categories) %>% unique() ggplot(...) + ... annotation_custom( tableGrob(legend_data, rows=NULL, theme=ttheme_minimal(base_size=8)), xmin=26, xmax=32, ymin=0, ymax=max(cog_data$Gene.Number) ) + coord_cartesian(xlim=c(0,25), clip="off")

5. 完整代码与输出

将以上所有优化整合，得到最终版本的绘图代码：

library(ggplot2) library(dplyr) library(RColorBrewer) # 1. 数据准备 cog_data <- read.delim("cog_data.txt", header=TRUE) cog_order <- c("J","A","K","L","B","D","Y","V","T","M","N","Z","W","U","O", "C","G","E","F","H","I","P","Q","R","S") cog_data$Code <- factor(cog_data$Code, levels=cog_order) cog_data <- cog_data %>% arrange(Code) # 2. 定义颜色和大类 fill_colors <- brewer.pal(4, "Set3") div_lines <- c(4.5, 11.5, 19.5) # 3. 绘制图形 ggplot(cog_data, aes(x=Code, y=Gene.Number, fill=Category)) + geom_bar(stat="identity", width=0.7) + scale_fill_manual(values=fill_colors) + labs(title="COG功能分类", x="功能类别", y="基因数量") + annotate("segment", x=div_lines, xend=div_lines, y=0, yend=max(cog_data$Gene.Number)*1.05, color="gray40", linetype="dashed") + annotate("text", x=c(mean(c(1,4.5)), mean(c(4.5,11.5)), mean(c(11.5,19.5)), mean(c(19.5,25))), y=max(cog_data$Gene.Number)*1.1, label=unique(cog_data$Category), size=4) + theme_minimal() + theme(axis.text.x = element_text(angle=45, hjust=1), legend.position="bottom")