当前位置：首页 > news >正文

R语言生态学入门：用rgbif包5分钟搞定GBIF物种分布数据下载（以十大功劳属为例）

news 2026/6/24 9:33:14

R语言生态学入门：用rgbif包5分钟搞定GBIF物种分布数据下载（以十大功劳属为例）

当你在生态学研究中需要快速获取某个物种的全球分布数据时，GBIF（全球生物多样性信息网络）无疑是最权威的数据源之一。但对于刚接触R语言的研究生或生态爱好者来说，直接调用GBIF的API接口可能显得有些复杂。这就是rgbif包的价值所在——它将复杂的API调用简化为几行直观的R代码，让你能在5分钟内完成从数据查询到下载的完整流程。

本文将带你快速上手rgbif包的使用，以十大功劳属（Mahonia）为例，演示如何获取其全球分布数据。我们不会深入每个函数的参数细节，而是聚焦于"我想研究某个物种的分布"这一实际需求，提供开箱即用的解决方案。

1. 环境准备与包安装

在开始之前，确保你已经安装了R语言环境（建议使用R 4.0以上版本）。rgbif包的安装非常简单：

# 安装rgbif包 install.packages("rgbif") # 加载包 library(rgbif)

如果你遇到安装问题，可能是由于CRAN镜像设置导致的。可以尝试更换镜像源：

# 设置CRAN镜像为中国镜像 options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

安装完成后，建议同时安装openxlsx或writexl包，方便后续数据导出：

install.packages("writexl") library(writexl)

2. 获取物种的唯一识别码（taxonKey）

GBIF数据库中的每个分类单元都有一个唯一的数字标识符，称为taxonKey。我们需要先获取目标物种的这个关键值。

以十大功劳属（Mahonia）为例：

# 查询Mahonia属的taxonKey mahonia_key <- name_suggest(q = "Mahonia", rank = "genus")$data$key[1] print(mahonia_key)

执行这段代码后，你会得到一个类似3033842的数字，这就是Mahonia属在GBIF系统中的唯一标识符。

提示：如果查询不到结果，可能是拼写错误。GBIF使用拉丁学名系统，确保你输入的是正确的学名。

3. 检查数据可用性

在下载数据前，最好先检查GBIF中有多少条符合条件的记录：

# 查询有地理坐标的标本记录数量 record_count <- occ_count(taxonKey = mahonia_key, hasCoordinate = TRUE, basisOfRecord = "PRESERVED_SPECIMEN") print(record_count)

这个数字会告诉你GBIF中有多少条Mahonia属的标本记录带有精确的地理坐标信息。如果数量太少（比如少于100条），可能需要考虑扩大查询范围。

4. 下载物种分布数据

确认数据可用后，就可以下载具体记录了。occ_search()是rgbif包中最核心的函数：

# 下载Mahonia属的分布数据 mahonia_data <- occ_search( taxonKey = mahonia_key, limit = 10000, # 设置最大下载记录数 hasCoordinate = TRUE, # 只下载有坐标的记录 basisOfRecord = "PRESERVED_SPECIMEN", # 只下载标本记录 fields = c("name", "decimalLatitude", "decimalLongitude", "country", "year", "basisOfRecord") # 选择需要的字段 )

注意：GBIF对匿名用户的API调用有限制（通常每小时100次请求）。如果需要大量数据，建议注册GBIF账号并设置API密钥。

5. 数据清洗与保存

下载的数据通常需要简单清洗后才能使用。首先提取核心数据：

# 提取数据框 clean_data <- mahonia_data$data # 查看数据结构 str(clean_data) # 移除缺失坐标的记录 clean_data <- clean_data[!is.na(clean_data$decimalLatitude) & !is.na(clean_data$decimalLongitude), ]

然后可以将数据保存为CSV或Excel格式：

# 保存为CSV write.csv(clean_data, "mahonia_distribution.csv", row.names = FALSE) # 或者保存为Excel write_xlsx(clean_data, "mahonia_distribution.xlsx")

6. 常见问题与解决方案

在实际操作中，你可能会遇到以下问题：

API限制错误：
```
Error in occ_search(...) : HTTP Status 429 - Too Many Requests
```
解决方案：减少请求频率，或注册GBIF账号设置API密钥。
字段不存在错误：
```
Error: one or more fields not found in data
```
解决方案：检查fields参数中的字段名是否正确，可用occ_fields()函数查看所有可用字段。

数据下载不完整：解决方案：GBIF单次查询最多返回100,000条记录。如需更多数据，需要分批次下载：

# 分批下载示例 data_part1 <- occ_search(taxonKey = mahonia_key, limit = 50000, start = 0) data_part2 <- occ_search(taxonKey = mahonia_key, limit = 50000, start = 50000)

7. 数据可视化（进阶）

获取数据后，最简单的可视化方式是绘制分布点图：

# 基础绘图 plot(clean_data$decimalLongitude, clean_data$decimalLatitude, xlab = "经度", ylab = "纬度", main = "Mahonia属全球分布") # 使用ggplot2更美观的可视化 library(ggplot2) library(maps) world_map <- map_data("world") ggplot() + geom_polygon(data = world_map, aes(x = long, y = lat, group = group), fill = "lightgray", color = "white") + geom_point(data = clean_data, aes(x = decimalLongitude, y = decimalLatitude), color = "red", size = 1, alpha = 0.5) + labs(title = "Mahonia属全球分布", x = "经度", y = "纬度") + theme_minimal()

这个流程不仅适用于Mahonia属，只需替换name_suggest()函数中的物种名，就可以轻松获取其他任何物种的分布数据。我在指导本科生论文时发现，即使是编程零基础的学生，按照这个流程也能在10分钟内完成数据获取，大大提高了研究效率。

查看全文

http://www.jsqmd.com/news/716764/