当前位置：首页 > news >正文

别再手动画样本点了！用GEE+随机森林5步搞定北京2023年土地利用分类

news 2026/7/14 7:09:20

5步自动化实现北京2023年土地利用分类：GEE与随机森林实战指南

当遥感影像处理遇上机器学习，传统GIS软件中繁琐的样本标注流程正在被云端计算平台彻底革新。Google Earth Engine（GEE）这个拥有海量卫星数据仓库和强大计算能力的平台，配合随机森林算法，能让土地利用分类的工作效率提升十倍不止。本文将手把手带您体验从零开始的全自动化分类流程——无需ArcGIS/QGIS中的手动描点，不用本地配置复杂环境，所有操作在浏览器中即可完成。

1. 数据准备与预处理

1.1 研究区与时间窗口设定

在GEE中处理任何遥感项目，第一步永远是明确定义时空范围。对于北京2023年的土地利用分类，我们需要两个核心参数：

// 设置研究区为北京市行政区划 var roi = ee.FeatureCollection("users/cduthes1991/boundry/China_province_2019") .filter(ee.Filter.eq('provinces','beijing')); // 定义时间窗口（避开冬季） var startDate = '2023-03-01'; var endDate = '2023-10-01';

关键考量因素：

植被物候：3-10月覆盖植物生长季，能更好区分植被类型
云量影响：北京夏季多云，需结合去云算法
数据可用性：检查Landsat 9在该时段是否有完整覆盖

1.2 Landsat 9数据预处理链

原始卫星数据不能直接用于分析，需要构建标准化处理流程：

var L9 = ee.ImageCollection('LANDSAT/LC09/C02/T1_L2') .filterDate(startDate, endDate) .filterBounds(roi) .map(applyScaleFactors) // 辐射定标 .map(rmL89Cloud) // 去云处理 .map(addIndexs) // 计算植被指数 .median() // 生成中值合成影像 .clip(roi);

预处理函数库示例（部分）：

// 辐射定标公式 function applyScaleFactors(image) { var opticalBands = image.select('SR_B.').multiply(0.0000275).add(-0.2); return image.addBands(opticalBands, null, true); } // 改进的去云算法 function rmL89Cloud(image) { var cloudBitMask = (1 << 3); var qa = image.select('QA_PIXEL'); return image.updateMask(qa.bitwiseAnd(cloudBitMask).eq(0)); }

2. 特征工程与指数计算

2.1 多光谱波段组合策略

Landsat 9的8个光学波段各具独特价值：

波段	波长范围(μm)	主要应用
B1	0.43-0.45	海岸带气溶胶监测
B2	0.45-0.51	水体穿透
B3	0.53-0.59	叶绿素吸收
B4	0.64-0.67	植被红边
B5	0.85-0.88	植被冠层结构
B6	1.57-1.65	雪/云区分
B7	2.11-2.29	矿物识别

2.2 关键指数计算与优化

通过波段运算构建增强特征：

function addIndexs(image) { // 归一化植被指数（改进版） var evi = image.expression( '2.5 * (NIR - RED) / (NIR + 6*RED - 7.5*BLUE + 1)', { 'NIR': image.select('SR_B5'), 'RED': image.select('SR_B4'), 'BLUE': image.select('SR_B2') }).rename('evi'); // 建筑用地指数 var ndbi = image.normalizedDifference(['SR_B6','SR_B5']).rename('ndbi'); return image.addBands(evi).addBands(ndbi); }

指数选择建议：

水体识别：MNDWI > NDWI
建筑提取：NDBI + BSI组合
植被健康：EVI比NDVI对高生物量区更敏感

3. 智能样本生成技术

3.1 半自动样本采集方案

传统方法痛点：人工标注耗时长、主观性强。GEE解决方案：

// 基于NDVI阈值自动生成植被样本 var vegSamples = img.select('evi') .gt(0.4) // EVI阈值 .selfMask() .stratifiedSample({ numPoints: 500, classBand: 'evi', region: roi, scale: 30 }).map(function(feat){ return feat.set('landcover', 1); // 1代表植被 }); // 同理生成水体样本（使用MNDWI） var waterSamples = img.select('mndwi') .gt(0.6) .selfMask() .stratifiedSample({ numPoints: 300, region: roi, scale: 30 }).map(function(feat){ return feat.set('landcover', 2); // 2代表水体 });

3.2 样本质量控制技巧

注意：自动生成的样本必须经过人工抽检，可通过以下代码快速可视化验证：

// 随机抽取50个样本点验证 var sampleCheck = vegSamples.randomColumn().filter(ee.Filter.lt('random', 0.1)); Map.addLayer(sampleCheck.style({color: 'green'}), {}, 'Vegetation Samples');

样本平衡策略：

各类别样本数量差距不超过3倍
困难区域（如城乡结合部）适当增加样本密度
使用stratifiedSample替代简单随机采样

4. 随机森林模型调优

4.1 参数优化实验设计

GEE中的随机森林实现支持多项关键参数：

var classifier = ee.Classifier.smileRandomForest({ numberOfTrees: 500, // 树的数量 variablesPerSplit: 3, // 每节点考虑的特征数 minLeafPopulation: 5, // 叶节点最小样本数 bagFraction: 0.7, // 每棵树的样本采样比例 seed: 42 // 随机种子 }).train({ features: trainingSamples, classProperty: 'landcover', inputProperties: img.bandNames() });

参数调优建议：

先设置numberOfTrees=200作为基线
逐步增加直到精度不再显著提升（通常300-500足够）
variablesPerSplit设为总特征数的平方根左右

4.2 特征重要性分析

训练后立即评估各波段贡献度：

var importance = classifier.explain() .get('importance') .getInfo(); print('Feature Importance', importance);

典型输出结果示例：

特征	重要性得分
SR_B5	0.32
EVI	0.28
SR_B6	0.15
MNDWI	0.12
...	...

5. 精度验证与成果导出

5.1 多维度精度评估体系

不仅看总体精度，还需分析各类别的生产者/用户精度：

var confusionMatrix = validation.classify(classifier) .errorMatrix('landcover', 'classification'); print('Confusion Matrix', confusionMatrix.array()); print('Producer Accuracy', confusionMatrix.producersAccuracy()); print('Kappa Coefficient', confusionMatrix.kappa());

5.2 成果导出最佳实践

导出分类结果时需注意：

Export.image.toDrive({ image: classified.clip(roi), description: 'Beijing_LULC_2023', fileNamePrefix: 'LULC_RF', region: roi, scale: 30, // 保持原始分辨率 maxPixels: 1e13, fileFormat: 'GeoTIFF', formatOptions: { cloudOptimized: true // 生成COG格式 } });

后续处理建议：