当前位置：首页 > news >正文

30亿参数大模型端侧部署实战：RK3576平台上的量化与混合推理优化

news 2026/7/10 6:26:56

1. 项目概述：当30亿参数大模型遇见端侧算力

最近在搞一个挺有意思的活儿，把一个大语言模型（LLM）塞进了一块嵌入式开发板里，让它能跑起来，还能进行多轮对话。听起来是不是有点“小马拉大车”的感觉？没错，核心就是这块米尔电子基于瑞芯微RK3576芯片设计的开发板。RK3576这颗芯片标称的AI算力是6TOPS（INT8），而我们想部署的模型是一个拥有30亿参数的“大家伙”。这组合本身就充满了挑战和探索的乐趣。

为什么要在端侧折腾这个？场景其实很具体。想象一下，一个智能教育机器人，它需要实时理解孩子的语音提问，并给出图文并茂的回答；或者一个工业质检设备，需要结合摄像头画面和操作员的语音指令，快速定位并描述产品缺陷。这些场景下，把数据全部上传到云端处理，延迟、隐私、网络稳定性都是问题。端侧AI，或者说边缘AI，就是要让设备自己“长脑子”，在本地完成复杂的感知、理解和决策。

这个项目的目标很明确：在米尔RK3576这块资源有限的嵌入式平台上，成功部署一个30亿参数的多模态大语言模型，并实现流畅、低延迟的多轮对话功能。这里的“多模态”意味着模型不仅能处理文本，还能理解图像信息（比如你给它一张图，它能描述内容或回答相关问题）；“多轮对话”则要求模型能记住上下文，进行连贯的交流，而不是每次回答都“失忆”。

这活儿干下来，感触最深的就是“平衡”二字。如何在有限的6TOPS算力、有限的内存带宽下，让一个30B参数的模型跑得动、跑得快、还跑得准？这涉及到从模型选型、压缩量化、推理引擎优化到内存管理的全链路技术栈。接下来，我就把这几个月踩过的坑、试出来的有效方案，以及一些关键的实操细节，掰开揉碎了跟大家聊聊。

2. 核心思路与技术选型拆解

2.1 为什么是30亿参数模型？

首先得说说模型规模的选择。动辄百亿、千亿参数的模型固然强大，但它们的“胃口”也大得惊人，对内存（动辄数十GB）和算力的要求是当前绝大多数端侧芯片无法承受的。30亿参数（3B）这个量级，是目前在性能、精度和资源消耗之间一个比较理想的平衡点。

经过几轮筛选和测试，我们最终锚定了几个开源社区的明星模型，比如Qwen1.5-3B、Phi-3-mini（3.8B）、Gemma-2B/7B（我们测试了2B版本）等。选择它们有几个关键考量：

架构友好：大多采用Transformer的Decoder-only结构（如LLaMA架构），这种结构在推理时是自回归的，对缓存（KV Cache）的管理相对清晰，便于优化。
社区活跃：有丰富的预训练、微调（SFT）版本和量化工具支持，生态完善。
多模态能力：我们需要的是具备视觉理解能力的模型。因此，我们重点考察了这些模型的“视觉语言模型”（VLM）变体，例如Qwen-VL系列。这类模型通常在纯文本LLM的基础上，增加了一个视觉编码器（如ViT），将图像转换成一系列视觉特征token，与文本token一起输入给LLM进行处理。

注意：直接使用原始的30亿参数FP16模型是行不通的。一个FP16的3B模型，仅参数就占用大约6GB内存，这还没算上推理过程中需要的激活值、KV缓存等。RK3576的共享内存通常为4GB或8GB配置，必须对模型进行大幅度的压缩。

2.2 算力与内存的硬约束分析

RK3576的NPU算力是6TOPS INT8。这里的TOPS是Tera Operations Per Second，即每秒万亿次操作。但这是一个理论峰值，实际能达到的吞吐量（Throughput）和延迟（Latency）取决于很多因素。

算力瓶颈：大模型推理的核心运算是矩阵乘法（MatMul）。对于3B模型，即使经过4-bit量化，生成一个token也需要进行数十亿次操作。6TOPS的算力意味着，在理想情况下，生成一个token可能只需要几毫秒的理论计算时间。但现实是，内存访问（带宽）往往是更大的瓶颈。
内存带宽瓶颈：这是端侧部署最头疼的问题。RK3576使用LPDDR4/LPDDR4X内存，带宽通常在几十GB/s量级。而大模型推理是典型的“内存墙”应用，每一次矩阵乘计算都需要从内存中读取巨大的权重矩阵。如果带宽不足，NPU大部分时间都在等待数据，算力再高也发挥不出来。
内存容量瓶颈：如前所述，我们必须把模型“塞进”有限的内存里。这直接决定了我们采用的量化策略必须非常激进。

2.3 技术栈的确定：从模型到部署

基于以上约束，我们确定了核心的技术路径：

模型量化（Quantization）：这是压缩模型、降低内存占用和加速推理的基石。我们放弃了精度损失较大的INT8，因为对于语言模型，INT8可能导致生成质量显著下降。主流且有效的方案是4-bit量化，尤其是GPTQ和AWQ这两种后训练量化方法。
- GPTQ：一种逐层量化方法，通过二阶信息（Hessian矩阵）来最小化量化误差，精度保持得非常好，尤其适合离线量化。
- AWQ：一种感知激活的量化方法。它发现权重的重要性并不均匀，保护那些对激活值影响大的“关键权重”（通常通过观察激活值的尺度来识别），只对不重要的权重进行低比特量化。这种方法在精度和效率上取得了更好的平衡。我们最终选择了AWQ量化到INT4的方案。一个3B的模型，经过AWQ-INT4量化后，模型文件大小可以压缩到约1.5GB-2GB，这为在端侧运行提供了可能。
推理引擎（Inference Engine）：我们需要一个能够高效利用RK3576 NPU的推理框架。纯CPU推理速度无法满足实时对话要求。瑞芯微提供了RKNN-Toolkit2和RKNN运行时库。但RKNN原生对动态shape、变长序列以及LLM复杂的注意力机制支持有限。
- 解决方案：我们采用了“LLM推理框架 + 自定义NPU算子”的混合模式。具体来说，使用llama.cpp或TensorRT-LLM这类高度优化的LLM推理框架作为主干。它们提供了高效的Attention实现、KV Cache管理和token生成循环。然后，将其中计算量最大的算子（如矩阵乘）通过RKNN-Toolkit2转换成能在NPU上运行的模型（.rknn文件），由RKNN运行时调用。其他控制逻辑和部分算子则跑在CPU上。
多模态处理流水线：
- 视觉部分：图像输入后，首先由模型的视觉编码器（如ViT）处理。这个编码器我们也将其量化并部署到NPU上，将图像转换为一系列视觉特征。
- 文本部分：用户输入的文本经过分词器（Tokenizer）转换为token ID序列。
- 融合：视觉特征和文本token被拼接在一起，作为LLM的输入。LLM（已量化）根据这个融合的输入，自回归地生成回答文本。
多轮对话实现：关键在于KV Cache的维护。LLM在生成每个新token时，都需要用到之前所有token的Key和Value状态（即KV Cache）。在多轮对话中，我们需要在会话期间持续维护和更新这个Cache。我们的策略是：将整个对话历史（包括视觉特征的token）的KV Cache保存在内存中。当新一轮对话开始时，只需将新的用户输入附加到历史记录后，并基于已有的Cache继续生成，从而避免重复计算历史token，极大提升效率。

3. 模型量化与优化实战

3.1 AWQ量化实操详解

量化是本次项目的重中之重。我们以Qwen1.5-3B的多模态版本为例，展示AWQ量化的具体步骤。

首先，准备环境。我们使用autoawq这个库，它封装了AWQ算法，使用起来比较方便。

pip install autoawq torch transformers

量化脚本的核心如下：

from awq import AutoAWQForCausalLM from transformers import AutoTokenizer model_path = "Qwen/Qwen1.5-3B" # 假设这是多模态版本的基础模型路径 quant_path = "./qwen1.5-3b-awq-int4" quantizer = AutoAWQForCausalLM.from_pretrained(model_path) tokenizer = AutoTokenizer.from_pretrained(model_path) # 配置量化参数 quant_config = { "w_bit": 4, # 权重量化为4-bit "q_group_size": 128, # 分组量化，每组128个权重，在精度和灵活性间平衡 "version": "GEMM", # 使用GEMM版本，更适合后续在RKNN上部署 } # 准备校准数据。校准数据用于评估量化误差，最好使用与目标领域相近的文本。 # 这里我们用一些简单的指令数据。 calib_data = [ "Describe the image in detail.", "What is the main object in this picture?", "Translate the following English to Chinese: Hello, world.", ] # 开始量化 quantizer.quantize( tokenizer=tokenizer, quant_config=quant_config, calib_data=calib_data, ) # 保存量化后的模型 quantizer.save_quantized(quant_path) tokenizer.save_pretrained(quant_path)

这个过程会在quant_path目录下生成量化后的模型文件，通常是safetensors格式，以及配置文件。

实操心得：q_group_size是关键参数。设置得太小（如32），量化粒度细，精度高，但推理时的计算索引开销会变大；设置得太大（如256），精度损失可能更明显。经过多次测试，对于3B模型，128是一个比较稳健的默认值。校准数据（calib_data）的质量直接影响量化效果。如果条件允许，最好从你的实际应用场景中采样100-200条文本和图像描述对作为校准集，这能显著提升量化模型在你目标任务上的表现。

3.2 视觉编码器的单独处理与量化

多模态模型的视觉编码器（通常是ViT）是一个独立的模块。为了最大化利用NPU，我们需要将其从完整的LLM中“剥离”出来，单独进行量化和部署。

模型拆分：利用Hugging Face的transformers库，我们可以加载完整的Qwen-VL模型，然后单独提取出vision_model（视觉编码器）部分。
静态化与导出：视觉编码器的输入是固定大小的图像（如224x224）。这是一个标准的静态图模型，非常适合用RKNN-Toolkit2进行转换。我们首先将其转换为ONNX格式，然后再转换为RKNN格式。
量化：在RKNN-Toolkit2的转换过程中，可以指定量化类型为asymmetric_quantized-u8（非对称UINT8量化）。对于视觉任务，INT8量化通常精度损失在可接受范围内，且能获得显著的加速。

# 假设我们已经得到了视觉编码器的onnx模型：vision_encoder.onnx rknn-toolkit2 convert --onnx-model vision_encoder.onnx \ --dataset ./calib_dataset/ \ # 用于量化校准的图像数据集 --quantize \ --output vision_encoder.rknn

这个vision_encoder.rknn文件就是可以在RK3576 NPU上高效运行的视觉模型。

3.3 内存布局与性能权衡

量化后的LLM模型（约1.8GB）和视觉编码器模型（约几十MB）需要加载到内存中。RK3576的内存是CPU和NPU共享的。我们需要精心规划内存的使用：

模型权重常驻内存：量化后的模型权重在推理过程中是只读的，应该提前加载并常驻在内存中。避免在推理时频繁换入换出。
KV Cache动态分配：这是内存消耗的大头。KV Cache的大小与序列长度（历史对话+当前输入）和模型层数、注意力头数成正比。对于一个3B模型，如果支持4096的上下文长度，KV Cache可能占用数百MB甚至上GB内存。必须根据实际应用场景设定一个合理的最大上下文长度，比如1024或2048，并预先分配好这块内存。
激活值内存：推理过程中产生的中间激活值也需要临时内存。这部分可以通过内存复用（Memory Reuse）技术来优化，让不同层的计算复用同一块内存，减少峰值内存占用。

我们的策略是：在系统启动时，一次性将LLM权重和视觉编码器权重加载到内存的固定区域。然后，为KV Cache分配一块连续的、足够大的内存池。推理框架（如llama.cpp）会负责管理这个内存池，用于存储每一轮的KV状态。

4. 基于RKNN的混合推理引擎搭建

4.1 llama.cpp的集成与改造

llama.cpp是一个用C++编写的高效LLM推理框架，以其极致的性能优化而闻名。它原生支持GGUF格式的量化模型（GGUF是llama.cpp自定义的一种格式，也支持AWQ量化后的模型转换过去）。我们选择它作为我们的CPU推理核心。

首先，我们需要将AWQ量化后的模型转换为GGUF格式。llama.cpp提供了转换脚本。

# 克隆并编译llama.cpp git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make # 将Hugging Face格式的AWQ模型转换为GGUF格式 python convert-hf-to-gguf.py ../qwen1.5-3b-awq-int4/ --outtype q4_0 # q4_0对应4-bit量化

转换后会得到一个.gguf文件，这就是llama.cpp可以直接加载的模型文件。

llama.cpp的核心推理循环在llama_eval函数中。它内部会调用大量的矩阵乘运算（ggml_mul_mat）。我们的目标就是将这些矩阵乘运算offload到NPU上执行。

4.2 关键算子的NPU化

我们不能简单地把整个模型丢给RKNN，因为LLM的图是动态的（序列长度可变）。我们的策略是：将模型中所有独立的、计算密集的线性层（Linear Layers）和注意力计算中的投影矩阵乘，提取出来，分别转换成RKNN模型。

具体步骤：

算子识别与提取：分析llama.cpp的模型加载代码，找到所有权重矩阵（对应ggml_tensor）。每一个大的权重矩阵（如q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj等）都对应一个独立的矩阵乘算子。
创建最小化计算图：为每一个这样的算子，创建一个最简单的计算图：输入（INT4/FP16） -> 反量化（Dequantize） -> 矩阵乘（MatMul） -> 输出（FP16）。将这个计算图导出为ONNX。
RKNN转换：使用RKNN-Toolkit2，将这些ONNX模型转换为.rknn文件。在转换时，指定输入/输出的数据格式。由于我们的权重是INT4，但RKNN可能更擅长INT8，这里需要一个适配层。一种做法是在RKNN模型内部实现INT4到INT8的“打包”和“解包”逻辑，或者我们直接在CPU上进行INT4的反量化，将FP16的输入和权重传给一个INT8/FP16的RKNN MatMul算子。经过测试，后者在RK3576上更高效。即：在CPU端将INT4权重反量化为FP16，然后将FP16的输入和权重传给一个支持FP16的RKNN MatMul算子（如果NPU支持）或转换为INT8再计算。
内存映射：RKNN模型在初始化时，需要将权重数据加载到NPU内部或共享内存中。我们需要确保这些权重内存与llama.cpp管理的权重内存是同一块物理内存，或者通过零拷贝的方式进行传递，避免不必要的内存拷贝开销。

4.3 混合推理调度器实现

现在我们有了一堆.rknn文件（每个对应一个层的一个投影算子和一个小的视觉编码器模型），以及一个管理上下文和生成循环的llama.cpp主程序。我们需要一个调度器来协调它们。

我们设计了一个简单的NPUBackend类：

class NPUBackend { public: bool init(const std::string& rknn_model_path); // 初始化RKNN运行时和模型 bool run(const void* input, const void* weight, void* output, int m, int n, int k); // 执行矩阵乘 // ... 其他接口 private: rknn_context ctx; // ... RKNN状态和内存信息 };

然后，我们需要修改llama.cpp的ggml_mul_mat函数实现。在原来的CPU实现旁边，增加一个判断分支：如果当前要计算的矩阵乘符合某个模式（例如，是某个已知的、我们已经NPU化的权重矩阵），则调用NPUBackend::run，否则回退到原来的CPU计算。

// 伪代码，在llama.cpp的某个计算函数中 if (can_use_npu(tensor_a, tensor_b)) { // 判断是否能用NPU算 NPUBackend::run(tensor_a->data, tensor_b->data, tensor_c->data, ne0, ne1, ne2); // m, n, k 维度 } else { // 原有的CPU矩阵乘代码 ggml_cpu_mul_mat(tensor_a, tensor_b, tensor_c); }

这个过程需要对llama.cpp的代码有较深的理解，并且调试起来比较繁琐，需要确保数据布局（内存排布）在CPU和NPU之间完全一致。

踩坑实录：最大的坑在于内存对齐和数据格式。RKNN对输入/输出内存的地址对齐有严格要求（如64字节对齐）。llama.cpp内部分配的内存可能不满足这个要求。我们最终的解决方案是：在llama.cpp的内存池中，为所有需要与NPU交互的Tensor（主要是权重和大的中间激活值）分配内存时，强制进行64字节对齐。同时，FP16到UINT8的量化缩放因子（scale）必须在CPU端精确计算，并作为参数传递给RKNN模型，确保计算精度。

5. 多模态多轮对话系统集成

5.1 系统架构与数据流

整个系统的运行时架构如下图所示（此处用文字描述）：

输入层：接收用户输入。输入可以是纯文本，也可以是“文本+图像”对。
视觉处理流水线：如果输入包含图像，图像被resize到固定尺寸（如224x224），然后送入vision_encoder.rknn模型在NPU上执行，输出视觉特征序列。
文本处理流水线：用户文本经过Tokenizer编码为token IDs。
输入融合：将视觉特征token（如果有）和文本token IDs拼接，形成本次输入的完整token序列。同时，从持久化存储中加载上一轮对话的KV Cache。
LLM推理循环：将融合后的token序列和历史的KV Cache输入到改造后的llama.cpp引擎中。引擎在生成每个新token时，会调用我们混合的CPU/NPU计算资源。
输出与缓存更新：LLM生成回答文本的token序列，通过Tokenizer解码为自然语言。同时，将本轮对话（用户输入+模型回答）产生的新的KV Cache部分，与历史Cache合并，并写回持久化存储（如内存或本地文件），供下一轮使用。
输出层：将生成的文本返回给用户。

5.2 KV Cache的管理策略

高效的多轮对话核心在于KV Cache。我们的管理策略如下：

数据结构：在内存中维护一个全局的KV Cache池。它是一个二维结构：[n_layers][2, n_ctx, n_embd/n_head]，分别对应Key和Value，每一层都有。
滑动窗口：当对话历史长度超过预设的最大上下文长度（n_ctx，如2048）时，采用滑动窗口机制。丢弃最老的token对应的KV Cache，为新token腾出空间。这保证了对话可以无限进行下去，但模型只能“记住”最近2048个token的内容。
持久化：当一次对话会话结束后（例如用户长时间无操作），可以将当前的KV Cache序列化保存到磁盘。下次用户再次发起对话时，可以快速加载，实现“断点续聊”。这比每次都从零开始计算历史要快得多。
缓存键：为每个独立的对话会话（Session）分配一个唯一ID，将KV Cache与该ID绑定。

5.3 性能实测与调优

在米尔RK3576开发板（4GB内存版本）上部署完成后，我们进行了性能测试：

首次Token延迟（Time to First Token, TTFT）：处理一段包含图像的输入（视觉编码+文本编码+首次推理），耗时约800ms - 1.2s。这个时间主要消耗在视觉编码和模型的前向传播准备上。
生成速度（Tokens per Second, TPS）：在NPU的加速下，模型的生成速度达到约12-15 tokens/秒。这意味着生成一个20个字的句子（约30个token）大约需要2-2.5秒。这个速度对于端侧实时对话来说是基本可用的，略有延迟但可以接受。
内存占用：峰值内存占用（模型权重+KV Cache+激活值）控制在2.8GB左右，为系统其他进程留出了空间。

关键调优点：

批量大小（Batch Size）：在端侧，通常batch size为1（逐token生成）。但视觉编码阶段，如果可以一次处理多张图，可以稍微提高NPU利用率。我们目前只支持单图。
NPU算子融合：我们目前是每个线性层单独调用一次NPU。理想情况下，可以将相邻的、计算模式相同的算子（如q_proj, k_proj, v_proj）融合成一个更大的矩阵乘运算，减少NPU调用的开销。这需要对模型图和RKNN有更深的控制，是下一步的优化方向。
CPU与NPU的并行：当NPU在执行当前层的矩阵乘时，CPU可以同时准备下一层的数据或进行后处理。我们通过简单的异步任务队列，实现了一定的重叠，提升了整体吞吐。

6. 常见问题与排查技巧实录

在部署和调试过程中，我们遇到了各种各样的问题。这里总结一份“避坑指南”。

6.1 模型精度下降严重

现象：量化后的模型回答胡言乱语，或者完全失去多模态理解能力。
排查：
1. 检查校准数据：首先确认校准数据是否具有代表性。尝试使用更接近你应用场景的文本和简单的图像描述进行重新量化。
2. 调整量化参数：尝试不同的q_group_size（如64, 128, 256）。对于某些模型，w_bit也可以尝试从4调整为3（如果工具支持），但精度损失风险更大。
3. 检查视觉编码器：如果多模态能力丧失，重点检查视觉编码器的量化是否过于激进。尝试对视觉编码器使用更高精度（如INT8甚至FP16）的量化或直接不量化，观察效果。
4. 逐层对比：使用原始的FP16模型和量化后的模型，用同一组输入，对比每一层输出的差异（余弦相似度或MSE）。定位到误差突然增大的那一层，对该层的量化进行特殊处理（如保持更高精度）。

6.2 NPU推理结果与CPU不一致

现象：同一个矩阵乘，在NPU上跑的结果和CPU上跑的结果对不上，导致后续生成乱码。
排查：
1. 数据对齐：这是最常见的原因。使用memalign或posix_memalign确保传递给RKNN模型的输入/输出内存地址是64字节对齐的。
2. 数据格式：确认CPU端和RKNN模型端对数据格式的理解完全一致。是NCHW还是NHWC？是FP16还是UINT8？缩放因子（scale）和零点（zero point）是否正确传递？编写一个简单的测试用例，用全1或随机数的小矩阵，分别在CPU和NPU上计算，并逐元素对比结果。
3. 权重加载：确认NPU模型加载的权重数据，与llama.cpp内存中的权重数据是完全相同的二进制内容。可以分别将两者dump到文件，用二进制比较工具（如cmp）进行对比。
4. RKNN模型构建：检查ONNX转RKNN时的配置，特别是mean_values,std_values,quantized_dtype等参数是否正确。对于非图像输入的模型，通常不需要做归一化（mean/std）。

6.3 内存不足（OOM）崩溃

现象：程序在运行一段时间后，或在处理较长文本时崩溃，提示内存分配失败。
排查：
1. 监控内存：在开发板上使用free -m或top命令实时监控内存使用情况。确认峰值内存是否真的超过物理内存。
2. 检查KV Cache大小：计算你设定的最大上下文长度（n_ctx）对应的KV Cache理论大小。公式大致为：2 * n_layers * n_ctx * n_embd * sizeof(fp16)。对于3B模型（n_embd=2048, n_layers=约26），n_ctx=2048时，KV Cache约占用2 * 26 * 2048 * 2048 * 2字节 ≈ 400MB。这只是一个部分，加上模型权重和激活值，很容易超过1GB。
3. 内存碎片：长时间运行后，频繁的分配和释放可能导致内存碎片。考虑使用内存池（Memory Pool）来管理KV Cache和大的中间Tensor的分配。llama.cpp本身已经有一个不错的内存管理机制。
4. 内存泄漏：使用valgrind或mtrace等工具检查代码是否存在内存泄漏。重点检查RKNN接口的输入/输出内存是否被正确释放。

6.4 生成速度不达预期

现象：TPS远低于理论估算值。
排查：
1. 性能剖析（Profiling）：使用RKNN-Toolkit2自带的性能分析工具，或者系统级的perf工具，分析程序的热点。是NPU利用率不足，还是CPU在忙别的？大部分时间花在了数据搬运上还是计算上？
2. NPU利用率：通过RKNN的API可以查询NPU的任务队列和利用率。如果利用率很低，说明NPU经常空闲，可能是CPU端的数据准备太慢，或者NPU算子调用间隔太长。检查是否可以通过算子融合、增大单次计算量来改善。
3. CPU频率：确保开发板的CPU运行在最高性能模式，而不是省电模式。有些开发板默认是节能模式。
4. 内存带宽：使用sudo cat /sys/kernel/debug/rknpu/bandwidth（如果驱动支持）或通用的内存带宽测试工具，观察实际带宽是否达到芯片标称值。如果带宽是瓶颈，考虑优化数据布局（如使用更紧凑的数据格式），减少不必要的数据传输。

这个项目从技术选型到最终调通，花了将近两个月时间。最大的体会是，端侧大模型部署是一个系统工程，它要求你不仅要对AI模型本身有理解，还要对嵌入式硬件、内存管理、并发编程甚至驱动层面有所涉猎。每一次性能的提升，都是在对算力、内存、精度这个“不可能三角”进行微妙的权衡。当看到30亿参数的模型终于在小小的开发板上流畅地与你进行图文对话时，那种成就感是纯粹的。目前这个方案还有很大的优化空间，比如探索更高效的注意力机制实现、尝试混合精度量化（对关键层保持更高精度）等。希望这篇长文能为你自己的端侧AI项目提供一些切实可行的参考。

查看全文

http://www.jsqmd.com/news/857699/