当前位置：首页 > news >正文

光栅化集群LOD构建流程深度分析报告

news 2026/6/20 13:26:47

摘要

本报告对项目中光栅化集群LOD（Level of Detail）的完整构建流程进行深入分析，从源代码级别详细解读每个算法模块的实现原理、数据流控制、内存管理策略以及性能优化技术。通过对clusterlod.cpp、meshlod.h、scene_cluster_compression.cpp等核心文件的逐行分析，揭示了从原始几何输入到GPU可执行格式的完整转换链路。

1. 系统架构总览

1.1 构建管道流程图

┌─────────────────────────────────────────────────────────────────────────┐ │ 场景加载阶段 (Scene Loading) │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ GLTF Parser │ -> │ Vertex Load │ -> │ Index Load │ │ │ │ scene_gltf │ │ positions │ │ triangles │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────┐ │ 预处理阶段 (Preprocessing) │ │ ┌──────────────────────────┐ ┌──────────────────────────┐ │ │ │ buildGeometryDedupVertices │ -> │ Attribute Stream Config │ │ │ │ 顶点去重算法 │ │ 多属性流配置 │ │ │ └──────────────────────────┘ └──────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────┐ │ LOD构建阶段 (LOD Construction) │ │ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │ │ │ 1. 集群分割 │ │ 2. LOD简化 │ │ 3. QEM误差计算 │ │ │ │ clodBuild │ │ Quadric Metrics │ │ 二次误差度量 │ │ │ └─────────────────┘ └─────────────────┘ └─────────────────┘ │ │ │ │ │ ▼ │ │ ┌──────────────────────────────────────────────────────────────┐ │ │ │ 回调处理: clodGroupMeshoptimizer -> storeGroup │ │ │ │ • 顶点缓存去重 • 边界框计算 • 属性编码 • 数据存储 │ │ │ └──────────────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────┐ │ 层级构建阶段 (Hierarchy Building) │ │ ┌─────────────────────┐ ┌─────────────────────┐ │ │ │ buildHierarchy │ -> │ BVH树节点分配 │ │ │ │ BVH树构建算法 │ │ 父子关系建立 │ │ │ └─────────────────────┘ └─────────────────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────┐ ┌─────────────────────┐ │ │ │ computeLodBboxes │ -> │ 递归边界框合并 │ │ │ │ 层级边界框计算 │ │ 自底向上聚合 │ │ │ └─────────────────────┘ └─────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────┐ │ 压缩阶段 (Compression) │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────┐ │ │ │ 顶点位置 │ │ 法线压缩 │ │ UV压缩 │ │ 数据打包 │ │ │ │ 算术编码 │ │ Octahedral │ │ 2D算术编码 │ │ 位字段 │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ └──────────┘ │ └─────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────┐ │ GPU缓冲区创建 (Buffer Creation) │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ Vertex Buffer │ │ Index Buffer │ │ Info Buffer │ │ │ │ 顶点缓冲区 │ │ 索引缓冲区 │ │ 信息缓冲区 │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ │ └─────────────────────────────────────────────────────────────────────────┘

1.2 模块依赖关系

scene_gltf.cpp ├── 加载GLTF模型 ├── 提取顶点数据 └── 提取索引数据 │ ▼ scene.cpp::processGeometry ├── 顶点去重: buildGeometryDedupVertices └── 触发LOD构建 │ ▼ clusterlod.cpp::buildGeometryLod ├── clodDefaultConfig: 配置初始化 ├── clodBuild: 集群分割 │ ├── clodGroupMeshoptimizer: 回调处理 │ │ └── storeGroup: 数据存储 │ └── clodIterationMeshoptimizer: 迭代处理 ├── buildHierarchy: 层级构建 └── computeLodBboxes_recursive: 边界框计算 │ ▼ scene_cluster_compression.cpp ├── compressGroup: 数据压缩 └── decompressGroup: 数据解压 │ ▼ resources.cpp ├── GPU缓冲区分配 └── 内存上传

2. 核心数据结构

2.1 LOD配置结构详解

文件位置:src/meshlod.h第2行

structclodConfig{// ==================== 集群约束 ====================size_t max_vertices;// 最大顶点数 (如64/128/256)size_t min_triangles;// 最小三角形数size_t max_triangles;// 最大三角形数 (如64/128)// ==================== 分割策略 ====================boolpartition_spatial;// 空间分割标志boolpartition_sort;// 分割排序标志size_t partition_size;// 分割大小 (默认8个集群/组)// ==================== 聚类参数 ====================boolcluster_spatial;// 空间聚类标志floatcluster_fill_weight;// 填充权重 (0.0-1.0)floatcluster_split_factor;// 分割因子// ==================== 简化参数 ====================floatsimplify_ratio;// 简化比例floatsimplify_threshold;// 简化阈值floatsimplify_error_merge_previous;// 合并前LOD误差floatsimplify_error_merge_additive;// 累加误差模式floatsimplify_error_edge_limit;// 边缘误差限制floatsimplify_error_factor_sloppy;// 粗糙误差因子// ==================== 简化标志 ====================boolsimplify_permissive;// 容错简化boolsimplify_fallback_permissive;// 回退容错boolsimplify_fallback_sloppy;// 回退粗糙boolsimplify_regularize;// 正规化booloptimize_bounds;// 边界优化booloptimize_clusters;// 集群优化};

配置预设:

// 默认配置 (用于光栅化)clodConfigclodDefaultConfig(size_t max_triangles){clodConfig config{};config.max_vertices=64;// 集群最大顶点数config.min_triangles=1;// 最小三角形数config.max_triangles=max_triangles;config.partition_spatial=true;// 启用空间分割config.partition_sort=true;// 启用分割排序config.cluster_spatial=true;// 启用空间聚类config.cluster_fill_weight=0.2f;// 适度填充config.optimize_clusters=true;// 集群优化returnconfig;}// RT配置 (用于光线追踪)clodConfigclodDefaultConfigRT(size_t max_triangles){// 针对光线追踪优化的参数// ...}

2.2 输入网格结构

文件位置:src/meshlod.h第26行

structclodMesh{// ==================== 顶点数据 ====================constunsignedint*indices;// 三角形索引数组size_t index_count;// 索引数量 (= 三角形数 * 3)size_t vertex_count;// 顶点数量constfloat*vertex_positions;// 顶点位置数组size_t vertex_positions_stride;// 顶点位置步长 (字节)// ==================== 顶点属性 ====================constfloat*vertex_attributes;// 顶点属性 (法线/UV/切线)size_t vertex_attributes_stride;// 属性步长 (字节)constunsignedchar*vertex_lock;// 顶点锁定标志// ==================== 属性权重 ====================constfloat*attribute_weights;// 属性权重数组size_t attribute_count;// 属性数量unsignedintattribute_protect_mask;// 属性保护掩码};

2.3 集群信息结构

文件位置:src/meshlod.h第46行

structclodCluster{intrefined;// 是否已细化clodBounds bounds;// 集群边界信息// ==================== 索引数据 ====================constunsignedint*indices;// 索引指针size_t index_count;// 索引数量size_t vertex_count;// 顶点数量};

2.4 组信息结构

structclodGroup{intdepth;// LOD级别深度clodBounds simplified;// 简化后的边界};

2.5 GPU数据结构 (shaderio.h)

2.5.1 遍历信息

structTraversalInfo{uint32_tinstanceID;// 实例IDuint32_tpackedNode;// 压缩的节点信息};

2.5.2 集群信息 (GPU端)

structClusterInfo{uint32_tinstanceID;// 实例IDuint32_tclusterID;// 集群ID};

2.5.3 边界框结构

structBBox{vec3 lo;// 最小点vec3 hi;// 最大点floatminVal;// 最小值 (用于深度)floatmaxVal;// 最大值};

2.5.4 GPU集群结构

structCluster{uint32_tvertices;// 顶点数据偏移uint32_tindices;// 索引数据偏移uint32_tvertexCountMinusOne;// 顶点数 - 1 (节省1bit)uint32_ttriangleCountMinusOne;// 三角数 - 1uint32_tattributeBits;// 属性位标志BBox boundingBox;// 边界框vec3 center;// 中心点floatradius;// 外接球半径};

属性位标志定义:

#defineCLUSTER_ATTRIBUTE_VERTEX_POSITION0x01#defineCLUSTER_ATTRIBUTE_VERTEX_NORMAL0x02#defineCLUSTER_ATTRIBUTE_VERTEX_TEX_00x04#defineCLUSTER_ATTRIBUTE_VERTEX_TEX_10x08#defineCLUSTER_ATTRIBUTE_VERTEX_TANGENT0x10#defineCLUSTER_ATTRIBUTE_COMPRESSED_VERTEX_POS0x20#defineCLUSTER_ATTRIBUTE_COMPRESSED_VERTEX_TEX_00x40#defineCLUSTER_ATTRIBUTE_COMPRESSED_VERTEX_TEX_10x80

3. 几何预处理阶段

3.1 顶点去重算法

函数:Scene::buildGeometryDedupVertices
文件位置:src/scene.cpp第578行

3.1.1 算法原理

顶点去重是几何处理的第一步，目的是消除共享顶点造成的存储冗余。对于包含n个三角形、m个顶点的网格，如果存在共享顶点，则可以显著减少存储空间。

3.1.2 实现流程

voidScene::buildGeometryDedupVertices(ProcessingInfo&processingInfo,GeometryStorage&geometry){std::vector<uint32_t>remap(geometry.vertexPositions.size());size_t uniqueVertices=0;// ==================== 步骤1: 配置属性流 ====================size_t attributeStride=geometry.vertexAttributes.size()/geometry.vertexPositions.size();meshopt_Stream streams[4];// 最多4个属性流uint32_tstreamCount=1;// 流0: 顶点位置 (必需)streams[0].data=geometry.vertexPositions.data();streams[0].size=sizeof(float)*3;streams[0].stride=sizeof(glm::vec3);// 流1: 顶点法线 (可选)if(geometry.attributeBits&CLUSTER_ATTRIBUTE_VERTEX_NORMAL){streams[1].data=geometry.vertexAttributes.data();streams[1].size=sizeof(float)*3;streams[1].stride=sizeof(float)*attributeStride;streamCount++;}// 流2: 纹理坐标 (可选)if(geometry.attributeBits&CLUSTER_ATTRIBUTE_VERTEX_TEX_0){streams[2].data=geometry.vertexAttributes.data()+texOffset;streams[2].size=sizeof(float)*2;streams[2].stride=sizeof(float)*attributeStride;streamCount++;}// 流3: 顶点切线 (可选)if(geometry.attributeBits&CLUSTER_ATTRIBUTE_VERTEX_TANGENT){streams[3].data=geometry.vertexAttributes.data()+texOffset+2;streams[3].size=sizeof(float)*4;streams[3].stride=sizeof(float)*attributeStride;streamCount++;}// ==================== 步骤2: 生成顶点重映射 ====================uniqueVertices=meshopt_generateVertexRemapMulti(remap.data(),reinterpret_cast<constuint32_t*>(geometry.triangles.data()),geometry.triangles.size()*3,geometry.vertexPositions.size(),streams,streamCount);// ==================== 步骤3: 重映射顶点数据 ====================// 分配新数组std::vector<glm::vec3>newPositions(uniqueVertices);// 执行重映射meshopt_remapVertexBuffer(newPositions.data(),geometry.vertexPositions.data(),geometry.vertexPositions.size(),sizeof(glm::vec3),remap.data());geometry.vertexPositions=std::move(newPositions);// ==================== 步骤4: 重映射属性数据 ====================if(geometry.attributeBits){std::vector<float>newAttributes(uniqueVertices*attributeStride);meshopt_remapVertexBuffer(newAttributes.data(),geometry.vertexAttributes.data(),geometry.vertexPositions.size(),sizeof(float)*attributeStride,remap.data());geometry.vertexAttributes=std::move(newAttributes);}// ==================== 步骤5: 重映射索引数据 ====================meshopt_remapIndexBuffer(reinterpret_cast<uint32_t*>(geometry.triangles.data()),reinterpret_cast<uint32_t*>(geometry.triangles.data()),geometry.triangles.size()*3,remap.data());}

3.1.3 性能分析

指标	复杂度	说明
时间复杂度	O(n log n)	哈希表插入/查找
空间复杂度	O(n)	重映射数组
加速比	1.5-3x	取决于共享程度

4. 集群分割算法

4.1 算法概述

集群分割是LOD构建的核心步骤，目标是将原始网格分割为固定大小的、可独立渲染的集群单元。

4.2 配置初始化

函数:Scene::buildGeometryLod
文件位置:src/clusterlod.cpp第419行

voidScene::buildGeometryLod(ProcessingInfo&processingInfo,GeometryStorage&geometry){// ==================== 步骤1: 获取默认配置 ====================clodConfig clodInfo=clodDefaultConfig(m_config.clusterTriangles);// ==================== 步骤2: 用户参数覆盖 ====================// 集群填充权重: 控制集群的空间填充程度clodInfo.cluster_fill_weight=m_config.meshoptFillWeight;// 集群分割因子: 控制分割的激进程度clodInfo.cluster_split_factor=m_config.meshoptSplitFactor;// 最大顶点数: 根据硬件能力调整clodInfo.max_vertices=m_config.clusterVertices;// 分区大小: 每个Group包含的集群数 (默认8)clodInfo.partition_size=m_config.clusterGroupSize;// 空间分割: 启用基于空间的分割clodInfo.partition_spatial=true;// 分割排序: 对分割结果排序优化clodInfo.partition_sort=true;// 集群优化: 启用集群内优化clodInfo.optimize_clusters=true;// ==================== 步骤3: LOD误差参数 ====================// 合并前误差: 允许合并到上一个LOD级别clodInfo.simplify_error_merge_previous=m_config.lodErrorMergePrevious;// 累加误差: 累加每个LOD级别的误差clodInfo.simplify_error_merge_additive=m_config.lodErrorMergeAdditive;// 边缘误差限制: 限制边缘三角形的误差clodInfo.simplify_error_edge_limit=m_config.lodErrorEdgeLimit;// ==================== 步骤4: 输入数据准备 ====================clodMesh inputMesh{};inputMesh.vertex_positions=reinterpret_cast<constfloat*>(geometry.vertexPositions.data());inputMesh.vertex_count=geometry.vertexPositions.size();inputMesh.vertex_positions_stride=sizeof(glm::vec3);inputMesh.index_count=geometry.triangles.size()*3;inputMesh.indices=reinterpret_cast<constuint32_t*>(geometry.triangles.data());// ==================== 步骤5: 属性权重配置 ====================floatattributeWeights[9]={};if(geometry.attributesWithWeights){// 法线权重: 防止法线过度简化if(m_config.simplifyNormalWeight>0&&(geometry.attributeBits&CLUSTER_ATTRIBUTE_VERTEX_NORMAL)){attributeWeights[geometry.attributeNormalOffset+0]=m_config.simplifyNormalWeight;attributeWeights[geometry.attributeNormalOffset+1]=m_config.simplifyNormalWeight;attributeWeights[geometry.attributeNormalOffset+2]=m_config.simplifyNormalWeight;}// UV权重: 保护纹理坐标精度if(m_config.simplifyTexCoordWeight>0&&(geometry.attributeBits&CLUSTER_ATTRIBUTE_VERTEX_TEX_0)){attributeWeights[geometry.attributeTex0offset+0]=m_config.simplifyTexCoordWeight;attributeWeights[geometry.attributeTex0offset+1]=m_config.simplifyTexCoordWeight;}// 切线权重: 保护切线空间if(m_config.simplifyTangentWeight>0&&m_config.simplifyTangentSignWeight>0&&(geometry.attributeBits&CLUSTER_ATTRIBUTE_VERTEX_TANGENT)){attributeWeights[geometry.attributeTangentOffset+0]=m_config.simplifyTangentWeight;attributeWeights[geometry.attributeTangentOffset+1]=m_config.simplifyTangentWeight;attributeWeights[geometry.attributeTangentOffset+2]=m_config.simplifyTangentWeight;attributeWeights[geometry.attributeTangentOffset+3]=m_config.simplifyTangentSignWeight;}inputMesh.attribute_count=geometry.attributesWithWeights;inputMesh.vertex_attributes=geometry.vertexAttributes.data();inputMesh.vertex_attributes_stride=sizeof(float)*inputMesh.attribute_count;inputMesh.attribute_weights=attributeWeights;}// ==================== 步骤6: 内存预留 ====================TempContext context{processingInfo,geometry,*this};// 预分配线程本地存储GroupInfo worstGroup{};worstGroup.clusterCount=uint8_t(m_config.clusterGroupSize);worstGroup.vertexCount=uint16_t(m_config.clusterGroupSize*m_config.clusterVertices);worstGroup.triangleCount=uint16_t(m_config.clusterGroupSize*m_config.clusterTriangles);context.innerThreadingActive=processingInfo.numInnerThreads>1;context.threadGroupInfo=worstGroup;context.threadGroupStorageSize=uint32_t(worstGroup.computeSize());context.threadGroupSize=nvutils::align_up(context.threadGroupStorageSize,4)+sizeof(uint32_t)*256*2+