当前位置：首页 > news >正文

OpenCL内核编程：限定符与内置函数实战指南

news 2026/6/12 14:55:26

1. 项目概述：深入OpenCL内核编程的核心

如果你正在为GPU或加速器编写高性能计算代码，那么OpenCL C语言中的内核函数就是你手中的“手术刀”。内核函数不是普通的C函数，它是你定义在设备上并行执行的代码单元，成千上万个工作项（work-items）会同时执行同一份内核代码。但要让这把“手术刀”精准高效，你必须理解并掌握两个核心机制：限定符和内置函数。限定符就像手术刀的“使用说明书”，它告诉编译器这个内核如何访问内存、在哪里执行、以及如何优化；而内置函数则是“标准手术器械库”，提供了大量针对并行硬件优化的数学和逻辑操作，让你不必从零造轮子。

我见过很多开发者，尤其是从CPU编程转向异构计算的，初期最容易犯的错误就是忽略这些“说明书”和“器械”的细节。他们可能写出了一个逻辑正确的内核，但性能却远不及预期，或者在某些设备上直接编译失败。这通常是因为没有正确使用地址空间限定符，导致数据访问错误；或者错误地调用了主机端函数，导致内核无法在设备上执行。本文将带你深入OpenCL C语言的内核编程世界，我会结合自己踩过的坑和优化经验，详细拆解访问限定符、函数限定符、存储类说明符以及最常用的内置函数，目标是让你不仅能写出能跑的内核，更能写出高效、可移植、健壮的内核代码。

2. 内核函数限定符：为编译器绘制精确的“作战地图”

内核函数的限定符是连接开发者意图与硬件执行的关键桥梁。它们不是可选的“语法糖”，而是编写正确、高效OpenCL代码的强制性规范。理解它们，就是理解OpenCL的执行模型和内存模型。

2.1 访问限定符：明确数据的“只读”与“只写”战场

访问限定符主要用于图像对象。在OpenCL中，图像（image2d_t,image3d_t等）是一种特殊的内存对象，允许硬件进行高效、缓存友好的二维/三维数据访问，并支持自动处理寻址、滤波和格式转换。

核心规则与实战解析：__read_only（或read_only）和__write_only（或write_only）这两个限定符必须用于内核的图像类型参数。它们声明了内核对该图像对象的访问模式。默认是__read_only。

__kernel void image_filter(__read_only image2d_t input, __write_only image2d_t output) { // 从input读取像素是合法的 // 向output写入像素是合法的 // 尝试向input写入或从output读取都是未定义行为，可能导致运行时错误或静默数据损坏 }

注意：这里有一个非常重要的限制：一个内核不能对同一个图像对象既读又写。这是由GPU的纹理硬件架构决定的。纹理单元（负责读取图像）和ROP单元（负责写入图像）通常是分离的流水线阶段，混合访问会破坏流水线并导致数据依赖问题。如果你需要一个可读写的“图像”，应该使用缓冲区对象（__global float*）并手动计算坐标。

为什么这么设计？

硬件优化：声明了只读后，硬件可以将其数据放入纹理缓存，这种缓存针对二维空间局部性访问进行了优化，比通用缓存效率高得多。声明只写则可能启用特定的合并写入路径。
编译器优化：编译器知道数据流是单向的，可以进行更激进的优化，例如消除不必要的同步或数据一致性操作。
正确性保障：避免了复杂的数据竞争和读写顺序问题，简化了编程模型。

实操心得：在图像处理流水线中，我通常会将一个复杂的滤镜链拆分成多个内核，每个内核的输入输出都是明确的只读或只写图像。例如，kernel A读原图，写中间结果tmp1；kernel B读tmp1，写中间结果tmp2；kernel C读tmp2，写最终结果。这种设计清晰、高效，且易于调试。

2.2 函数限定符：宣告并优化你的“并行战士”

__kernel（或kernel）是核心的函数限定符，它声明一个函数为内核函数。

关键规则：

执行位置：只能在设备上执行。
调用者：可以被主机（CPU）调用（通过clEnqueueNDRangeKernel）。
设备端调用：可以被另一个内核函数调用，此时它就像一个普通的设备端函数。

可选属性限定符：这是OpenCL C中非常强大但常被忽视的特性。通过__attribute__关键字，你可以给编译器提供优化提示。

1. 向量化提示：__attribute__((vec_type_hint(<type>)))这个属性提示编译器内核的“自然”计算宽度。它不强制向量化，而是为编译器的自动向量化器提供依据。

// 提示1：假设内核主要进行float4类型的向量运算 __kernel __attribute__((vec_type_hint(float4))) void vec4_kernel(__global float4* data) { // 编译器可能会将多个work-item合并到一个硬件线程中执行， // 以更好地利用SIMD单元（如AMD的Wavefront或NVIDIA的Warp）。 } // 提示2：假设是标量整数密集型运算 __kernel __attribute__((vec_type_hint(int))) void int_kernel(__global int* data) { // 默认就是int，但显式声明可以增加代码可读性。 } // 提示3：完全不指定，则使用默认的int __kernel void default_kernel(__global float* data) { // 编译器自行决定向量化策略。 }

工作原理与影响：假设你的内核声明了vec_type_hint(float4)，而目标硬件是支持8宽float向量操作的（如Intel AVX-256）。编译器可能会决定将2个work-item合并到一个硬件线程中执行，让一个处理向量的低128位，另一个处理高128位。反之，如果内核是标量操作但硬件是宽SIMD，编译器可能会将一个work-item展开成多个向量操作。关键在于，这个提示帮助编译器做出更贴合硬件特性的调度决策，从而提升指令吞吐量。

2. 工作组大小提示与强制要求：

__attribute__((work_group_size_hint(X, Y, Z))): 向编译器提示你可能使用的工作组大小。这只是一个提示，编译器可以忽略。
__attribute__((reqd_work_group_size(X, Y, Z))):强制要求内核必须以指定的工作组大小执行。如果主机端调用时传入的local_work_size不匹配，API调用将失败。

// 提示：我可能用16x16的二维工作组 __kernel __attribute__((work_group_size_hint(16, 16, 1))) void hint_kernel(...) { ... } // 强制：这个内核必须且只能以256个work-item（一维）的工作组执行 __kernel __attribute__((reqd_work_group_size(256, 1, 1))) void reqd_kernel(...) { // 编译器可以基于固定的工作组大小进行激进优化， // 例如完全展开循环、静态分配共享内存等。 }

使用场景与抉择：

使用hint：当你的内核性能对工作组大小敏感，但你想保留一些灵活性，或者在不同硬件上可能使用不同最优大小时。
使用reqd：当你的内核算法逻辑严重依赖特定的工作组大小（例如，使用到了__local内存，且其大小是硬编码的），或者你经过充分测试，确定某个大小在所有目标平台上都是最优且可行的。强制要求能带来最大的优化潜力，但也牺牲了可移植性。

我踩过的坑：早期我曾为一个内核设置了reqd_work_group_size(256,1,1)，在NVIDIA GPU上运行良好。但当代码移植到某个移动GPU（其最大工作组大小可能只有128或64）时，直接无法执行。后来我改为work_group_size_hint，并在主机端根据CL_DEVICE_MAX_WORK_GROUP_SIZE查询结果动态决定工作组大小，解决了可移植性问题。

2.3 存储类说明符：管理数据的“生命周期与可见性”

OpenCL C支持typedef,extern,static，但不支持auto和register。

extern: 用于声明程序作用域或函数内部的全局变量（需在别处定义），或声明函数（内核或非内核）。它表示该标识符具有外部链接。
static: 用于程序作用域的非内核函数和全局变量。它表示该标识符具有内部链接（仅在当前编译单元内可见），对于变量，还意味着其生命周期贯穿整个程序执行期。

// 程序作用域，常量内存中的查找表，可被所有内核访问（外部链接） extern constant float4 noise_table[256]; // 程序作用域，常量内存中的查找表，仅在本编译单元内可见（内部链接） static constant float4 color_table[256]; // 声明一个外部内核函数（可能在另一个.cl文件中定义） extern kernel void my_foo(image2d_t img); // 声明一个外部设备函数 extern void my_bar(global float *a); kernel void my_func(image2d_t img, global float *a) { extern constant float4 a; // 错误！函数内不能重新声明extern变量 static constant float4 b; // 错误！函数内不能声明static常量（常量必须在编译时确定） static float c; // 正确！函数内的静态局部变量，生命周期持续到程序结束，但作用域仅限于本函数。 // ... my_foo(img); // 调用外部内核 my_bar(a); // 调用外部设备函数 }

关键限制解析：在设备端，static局部变量是每个工作项私有的，但其值在多次内核调用（对于同一个cl_kernel对象）之间会保持。这意味着你可以用它来在同一个内核的连续执行中保存状态，但要极度小心，因为不同工作项之间的static变量是隔离的，这有时会带来意想不到的结果。

3. OpenCL C编程的核心限制与避坑指南

OpenCL C是C99的子集，并施加了许多限制以适应并行硬件架构。忽略这些限制是编译错误和运行时诡异行为的首要原因。

3.1 指针使用的“交通规则”

内核参数指针必须带地址空间限定符：__global,__constant,__local。这是强制性的，因为设备上的内存是分层的，编译器必须知道指针指向哪里才能生成正确的指令。
地址空间匹配：一个带有特定地址空间限定符的指针，只能赋值给具有相同限定符的指针。不能把__global指针赋给__local指针（除非通过显式转换，但这通常是危险且平台相关的）。
禁止函数指针：设备端不支持函数指针，这简化了编译器和运行时。
内核参数禁止多级指针：kernel void foo(global float** pp)是不允许的。但在非内核函数内部或函数参数中，可以使用多级指针。

3.2 图像与采样器的特殊“身份”

图像类型(image2d_t等)只能用作函数参数。你不能声明一个图像变量、图像数组、指向图像的指针，或者让函数返回图像。对图像内容的访问必须通过内置函数（如read_imagef,write_imagef）进行。这是为了将图像抽象与硬件纹理单元绑定。
采样器类型(sampler_t) 可以用作函数参数，或在程序作用域、内核函数的最外层作用域声明为变量。在内核的非最外层作用域（如if块内）声明采样器是未定义行为。采样器对象（过滤模式、寻址模式等）通常在主机端创建并传入。

3.3 其他关键限制清单

不支持位域、变长数组、柔性数组成员。
不支持C99标准库头文件（如stdio.h,stdlib.h）。所有I/O和内存管理都在主机端进行。
不支持递归。因为GPU的调用栈通常非常有限或不存在。
内核函数返回类型必须是void。结果通过指针参数写回。
内核参数不能是bool,half,size_t等实现定义大小的标量类型或其结构体。这主要是为了主机与设备间数据传输的确定性和可移植性。
对小于32位的类型（char,short等）的写入限制：在早期OpenCL版本中，直接向__global char*或__global short*写入可能不被支持或低效。通常的解决方案是使用int或float作为中间载体，或者使用vstore系列函数。
结构体/联合体的所有成员必须位于同一地址空间。
内核参数不能是event_t类型。

避坑实战：我曾试图将一个包含文件路径字符串（char*）的结构体从主机传递到内核，结果失败了。因为内核无法访问主机文件系统，且char*在内核中指向的地址空间不明确。正确的做法是将需要的数据以纯字节形式复制到缓冲区对象，然后在内核中通过__global uchar*访问并自行解析。

4. 内置函数库：并行计算的“瑞士军刀”

OpenCL内置函数是性能优化的基石。它们针对各种硬件（CPU, GPU, FPGA等）进行了深度优化，通常能生成比手写代码更高效的指令。

4.1 工作项函数：定位你在并行宇宙中的“坐标”

这是每个内核都会用到的基础函数集，用于获取当前工作项在NDRange中的位置信息。

函数	描述	典型用途
`uint get_work_dim()`	获取执行维度（1D, 2D, 3D）。	编写维度通用的代码。
`size_t get_global_size(uint dim)`	获取指定维度的全局工作项总数。	计算归一化坐标，判断边界。
`size_t get_global_id(uint dim)`	获取指定维度的全局唯一ID。	最常用，用于计算数据索引。例如，处理线性数组：`int idx = get_global_id(0);`
`size_t get_local_size(uint dim)`	获取指定维度的工作组大小。	计算工作组内的偏移，用于`__local`内存操作。
`size_t get_local_id(uint dim)`	获取指定维度的组内局部ID。	极常用，用于工作组内的协作和`__local`内存索引。
`size_t get_num_groups(uint dim)`	获取指定维度的工作组数量。	另一种计算全局ID的方式：`get_group_id(dim) * get_local_size(dim) + get_local_id(dim)`
`size_t get_group_id(uint dim)`	获取指定维度的当前工作组ID。	用于工作组级别的数据分块。
`size_t get_global_offset(uint dim)`	获取指定维度的全局偏移量。	处理非零起始的NDRange。

代码示例与模式：

__kernel void matrix_multiply(__global float* A, __global float* B, __global float* C, int width_A, int width_B) { // 经典的2D矩阵乘法索引计算 int row = get_global_id(1); // 全局行ID int col = get_global_id(0); // 全局列ID if (row < width_A && col < width_B) { // 边界检查 float sum = 0.0f; for (int k = 0; k < width_A; ++k) { sum += A[row * width_A + k] * B[k * width_B + col]; } C[row * width_B + col] = sum; } }

4.2 数学函数：精度、性能与选择的艺术

OpenCL提供了三个层次的数学函数，你需要根据精度和性能需求进行选择。

1. 全精度函数（如cos,exp,sqrt）：这些函数遵循IEEE 754标准，提供尽可能高的精度。它们是��认选择，适用于对数值精度要求严格的科学计算、金融模拟等场景。

2. 半精度函数（half_前缀，如half_cos,half_sqrt）：这些函数保证至少10位精度（ULP <= 8192），性能通常比全精度函数高。它们对非正规数的支持是可选的。适用于图像处理、图形学等可以容忍一定精度损失的场景。注意输入范围限制，例如half_sin(x)要求x在[-2^16, +2^16]范围内。

3. 原生函数（native_前缀，如native_cos,native_recip）：这些函数直接映射到硬件指令，性能最高，但精度和输入范围是实现定义的。不同厂商、不同硬件的实现差异可能很大。适用于对性能极度敏感，且对误差不敏感的场景，如实时渲染、某些预处理阶段。

性能与精度权衡表：

函数类型	精度	性能	适用场景	风险
全精度	高 (IEEE 754)	较低	科学计算、金融、需要可重复结果	性能瓶颈
半精度	中 (>=10位)	中	图像处理、图形学、机器学习推理	精度损失、范围限制
原生函数	低 (实现定义)	最高	实时图形、游戏、对性能要求极高的后处理	结果不可移植、精度无法保证

我的经验法则：

默认用全精度函数，确保正确性。
进行性能剖析，如果发现某个数学函数（如sin、exp）是热点，尝试替换为half_版本，并验证结果是否在可接受误差范围内。
谨慎使用native_函数，仅在经过充分测试和评估，确认其精度和范围满足特定算法需求，且性能提升显著时才使用。永远不要在不了解目标硬件具体行为的情况下使用它们。

特殊函数详解：

mad(a, b, c): 这是“乘加”运算的近似实现。它不保证a*b的中间结果被正确舍入。它的设计初衷是速度优先。重要警告：对于mad(a, b, -a*b)这样的表达式，由于精度损失，结果可能接近0，也可能是任何值。在需要精确乘加时，应使用fma(a, b, c)，它保证符合IEEE 754标准的融合乘加。
fract(x, iptr): 返回x的小数部分，并将整数部分存入iptr。它返回的是min(x - floor(x), 0x1.fffffep-1f)，这个min操作是为了防止fract(-极小值)返回1.0。非常实用，例如用于生成周期性纹理坐标。
sincos(x, cosval): 同时计算正弦和余弦。在很多硬件上，计算sin和cos的成本几乎与只计算一个相同。如果你同时需要两者，一定要用这个函数，而不是分别调用sin和cos。

4.3 实战：构建一个简单的图像亮度调整内核

让我们综合运用所学，编写一个内核。这个内核从只读图像读取像素，应用一个亮度调整因子，然后写入只写图像。

// 使用属性提示：我们预计会大量使用float4操作（RGBA通道） __kernel __attribute__((vec_type_hint(float4))) void adjust_brightness(__read_only image2d_t input, __write_only image2d_t output, float factor, // 亮度乘数，1.0为原图 sampler_t sampler) // 采样器，定义读取方式 { // 获取当前工作项处理的像素坐标 int2 coord = (int2)(get_global_id(0), get_global_id(1)); // 检查边界（假设图像大小等于全局工作大小） // 更健壮的做法是传入图像宽度和高度进行比较 // int width = get_image_width(input); // int height = get_image_height(input); // if(coord.x >= width || coord.y >= height) return; // 从输入图像读取像素（返回的是float4，对应RGBA） float4 pixel = read_imagef(input, sampler, coord); // 调整亮度：将RGB通道（假设A是透明度）乘以因子 // 使用原生函数提升性能，假设对精度要求不高 pixel.xyz = pixel.xyz * native_recip(factor); // 可选：钳制值到[0, 1]范围，防止溢出 // pixel = clamp(pixel, 0.0f, 1.0f); // 将处理后的像素写入输出图像 write_imagef(output, coord, pixel); }

主机端调用要点：

创建cl_image对象时，需要指定正确的通道顺序和数据类型。
创建cl_sampler对象，指定寻址模式（如CLK_ADDRESS_CLAMP_TO_EDGE）和滤波模式（如CLK_FILTER_NEAREST）。
设置NDRange：全局工作大小应等于图像尺寸，局部工作大小需要根据设备查询 (CL_DEVICE_MAX_WORK_GROUP_SIZE) 和图像维度合理设置（例如16x16）。

5. 高级主题：预处理、属性与对齐控制

5.1 预处理器与宏：条件编译与平台适配

OpenCL C支持C99预处理器。除了标准的__FILE__和__LINE__，还定义了一些特有的宏，用于编写可移植代码。

__OPENCL_VERSION__: 反映设备支持的OpenCL版本（如120代表1.2）。
__OPENCL_C_VERSION__: 反映编译时指定的OpenCL C语言版本。
__ENDIAN_LITTLE__: 判断设备是否为小端架构。
__IMAGE_SUPPORT__: 判断设备是否支持图像。
__FAST_RELAXED_MATH__: 判断是否启用了快速宽松数学优化（-cl-fast-relaxed-math）。

使用示例：

// 根据OpenCL版本使用不同的特性 #if __OPENCL_VERSION__ >= 120 // 使用OpenCL 1.2的特性，如image2d_array_t #else // 回退到OpenCL 1.1或1.0的代码 #endif // 仅在支持图像时编译相关代码 #ifdef __IMAGE_SUPPORT__ __kernel void image_kernel(__read_only image2d_t img) { ... } #endif // 根据精度要求选择函数 #ifndef __FAST_RELAXED_MATH__ // 需要严格精度，使用标准函数 float val = sin(angle); #else // 允许宽松数学，可以使用更快但精度较低的函数 float val = native_sin(angle); #endif

5.2 类型与变量属性：精细控制内存布局

__attribute__((aligned(N)))和__attribute__((packed))用于控制结构和变量的内存对齐，这对于与主机端数据结构匹配或满足硬件访问要求至关重要。

对齐 (aligned): 强制变量或结构体成员在内存中按N字节对齐。N必须是2的幂。这对于向量加载（如要求16字节对齐的SSE/AVX指令）或避免缓存行分裂（False Sharing）非常重要。
紧凑 (packed): 告诉编译器取消结构体成员之间的填充字节，以最小化内存占用。这通常用于网络协议或文件格式的数据打包，但会严重降低访问速度，因为未对齐的访问在多数架构上都是昂贵的。

// 示例：定义一个与特定硬件或API要求对齐的向量结构 typedef struct __attribute__((aligned(16))) { float x, y, z, w; // 总共16字节，自然对齐到16字节边界 } AlignedVec4; // 示例：定义一个紧密打包的RGB像素结构（用于节省空间） typedef struct __attribute__((packed)) { unsigned char r, g, b; // 总共3字节，无填充 } PackedRGBPixel; kernel void process_pixels(__global PackedRGBPixel* pixels) { // 访问pixels[i].g可能会因为未对齐而导致性能下降 // 但在内存带宽受限的场景下，节省的1/4空间可能带来整体收益 }

实战建议：除非有明确的对齐要求（如与SSE/AVX指令交互）或极端的空间节省需求，否则通常应让编译器决定默认对齐方式。错误的对齐设置可能导致性能下降甚至硬件异常。

5.3 字节序属性：处理异构系统中的数据交换

__attribute__((endian(host)))和__attribute__((endian(device)))用于指针，指定其指向数据的字节序。默认是device。

__kernel void process_data(__global int* data __attribute__((endian(host)))) { // 假设data指针指向的数据是由主机（小端x86）准备并按主机字节序存储的。 // 内核在读取*data时，如果需要，硬件或运行时会进行字��序转换。 int host_style_value = *data; // ... 处理 ... }

使用场景与警告：这个属性主要用于混合字节序环境，比如主机是大端（某些PowerPC, SPARC），而设备是小端（x86, ARM常见），或者反过来。在当今主流的x86/ARM小端世界中，通常不需要显式设置。重要限制：该属性只能用于全局或常量地址空间的指针，且赋值时两边的指针必须具有相同的endian属性值。

6. 常见问题、调试技巧与性能优化备忘录

即使理解了所有语法，实际开发中依然会遇到各种问题。下面是我总结的一些常见陷阱和解决思路。

6.1 编译与链接错误排查表

错误现象	可能原因	解决方案
编译失败：`pointer to type is not allowed`	内核函数参数是指针，但未指定地址空间限定符。	为所有指针参数添加`__global`,`__constant`或`__local`。
编译失败：`kernel cannot return value`	内核函数的返回类型不是`void`。	将内核函数返回类型改为`void`，结果通过指针参数输出。
编译失败：`image type can only be used as function argument`	试图声明一个图像类型的局部变量或全局变量。	图像对象只能作为内核参数传入。如需中间图像，使用缓冲区或创建新的图像对象。
链接错误：`undefined reference`	设备函数使用了`extern`声明，但未在任何一个编译单元中定义。	确保该函数在某个`.cl`文件中有定义，并且所有文件一起编译链接。
编译警告：`ignoring attribute reqd_work_group_size`	指定的必需工作组大小超过了设备限制。	查询`CL_DEVICE_MAX_WORK_GROUP_SIZE`，调整`reqd_work_group_size`或改用`hint`。

6.2 运行时错误与诡异行为

现象	可能原因	排查步骤
内核执行后输出全零或乱码	内核中的全局ID计算错误，导致访问了缓冲区/图像之外的内存。	1. 在内核开始处添加边界检查并`return`。 2. 检查主机端传入的全局/局部工作大小是否正确。 3. 使用`printf`（如果支持）或通过缓冲区输出调试信息。
性能远低于预期	1. 内存访问模式差（非合并访问）。 2. 使用了低效的内置函数（如该用`native_`时用了全精度）。 3. 工作组大小设置不合理。	1. 使用性能分析工具（如CodeXL, Nsight, Intel VTune）。 2. 确保对全局内存的访问是连续的、对齐的。 3. 尝试不同的工作组大小（通常是wavefront/warp大小的倍数）。 4. 将热点数学函数替换为`half_`或`native_`版本测试。
仅在特定设备上出错	1. 使用了设备不支持的扩展（如双精度）。 2. 代码依赖了未定义的字节序。 3.`reqd_work_group_size`不兼容。	1. 在主机端查询设备扩展列表 (`clGetDeviceInfo`with`CL_DEVICE_EXTENSIONS`)。 2. 使用`#ifdef`进行条件编译。 3. 将固定大小改为动态查询或使用`hint`。
修改`__constant`数据无效	`__constant`内存内容通常在内核启动前由主机设置，内核内不能修改。	如果需要可变常量，使用`__global`只读缓冲区，或者将数据作为`__private`变量传入。

6.3 性能优化黄金法则

最大化并行度：确保全局工作项数量远大于计算单元数量，以隐藏内存延迟。
优化内存访问：
- 合并访问：让相邻的工作项访问相邻的内存地址。对于数组A，使用A[get_global_id(0)]而不是A[get_global_id(0) * stride]。
- 利用局部内存：将频繁访问的全局数据块先读入__local内存，工作组内共享，再进行计算。适用于卷积、矩阵乘法等。
- 使用图像对象：对于二维数据且访问具有空间局部性时，图像对象配合采样器可能比普通缓冲区更快，且有缓存优化。
选择合适的内置函数：在精度允许的情况下，优先使用half_和native_函数。
明智使用向量类型：float4,int8等向量类型可以让编译器生成SIMD指令，但前提是你的算法能自然地向量化。不要强行将标量代码包装进向量类型。
避免内核中的分支发散：在同一个warp/wavefront中的工作项应尽可能执行相同的指令路径。使用select()函数代替简单的if-else有时有帮助。
减少内核参数：将多个相关参数打包到结构体中，通过一个缓冲区指针传入。