大模型端侧推理底层解密:ggml-vulkan 极致的矩阵乘法优化路线
AMD 的 Vulkan 驱动会对它名下每一块GPU 都报告"我支持 cooperative matrix(张量核心矩阵指令)"——而 llama.cpp 的 Vulkan 后端根本不信它。在ggml_vk_khr_cooperative_matrix_support里,它用一张硬编码白名单把除 RDNA3 之外的 AMD 卡全部驳回,注释写得毫不客气:
caseVK_VENDOR_ID_AMD:if(driver_props.driverID==vk::DriverId::eAmdProprietary||driver_props.driverID