当前位置：首页 > news >正文

LVLM在多模态RAG中的角色：视觉语义解析引擎设计与生产实践

news 2026/5/23 3:40:09

1. 这不是“调用一个API”那么简单：LVLM推理在多模态RAG中到底承担什么角色？

你点开一篇讲“Multimodal RAG”的教程，十有八九前几节都在聊文本嵌入、向量数据库、LLM生成——直到第六节标题突然跳出来：“Large Vision Language Models (LVLMs) Inference”。很多人下意识会想：“哦，不就是把图片丢给Qwen-VL或者LLaVA，让它回答问题嘛？”然后直接抄一段pipeline("image-to-text")代码，跑通就收工。我去年也这么干过，结果上线三天就被业务方叫停：用户上传一张带表格的工程图纸，问“第三列第二行的数值是多少”，模型要么答非所问，要么直接幻觉出一个数字，准确率连60%都不到。这才意识到，LVLM在多模态RAG里根本不是个“翻译器”，而是一个需要被精密调度、严格约束、深度对齐的视觉语义解析引擎。它不负责端到端生成答案，而是要精准地把图像中与用户问题强相关的局部语义（比如某个坐标位置的像素块、某段手写批注的OCR结果、某类设备图标的视觉特征）提取出来，转化成结构化、可检索、可验证的中间表示，再喂给后续的RAG检索链。关键词“Large Vision Language Models”背后藏着三个硬骨头：视觉token的压缩效率、图文对齐的细粒度控制、推理时延与显存占用的工程平衡。这不是选个Hugging Face模型ID就能解决的事——它直接决定你的多模态RAG系统是能处理产线质检报告里的微小划痕标注，还是只能回答“这张图里有几只猫”这种玩具级问题。适合谁看？如果你正在搭建一个真实业务场景下的多模态知识库（比如医疗影像报告辅助解读、工业设备维修手册智能检索、电商商品图-文一致性校验），而不是做学术demo，那这篇就是你绕不开的实操手册。它不讲论文推导，只讲我在三套生产环境里反复锤炼出来的参数、配置、避坑点和性能拐点。

2. LVLM推理不是“加载模型→输入图片→输出文字”：核心设计逻辑与方案取舍

2.1 为什么不能直接用原生LVLM做RAG的“视觉前端”？

先说结论：原生LVLM的默认推理模式与RAG的检索需求存在根本性错配。我拿Qwen-VL-7B和LLaVA-1.5-7B在相同硬件上实测过，问题出在三个层面：

第一，视觉token冗余爆炸。Qwen-VL默认用ViT-L/14提取图像特征，一张1024×1024的图会被切成256个patch，每个patch编码为1024维向量，光视觉token就占掉32K tokens。而RAG真正需要的，往往只是图中某个ROI（Region of Interest）——比如用户问题明确指向“左下角红色警告标签”，但模型却把整张设备面板的背景纹路、螺丝孔位全塞进上下文。这不仅浪费显存，更稀释了关键区域的注意力权重。我们做过消融实验：当视觉token从32K压到2K（通过ROI裁剪+自适应patch合并），在“定位型问答”任务（如“箭头所指按钮的型号是什么”）上F1值从0.41飙升到0.79。

第二，图文对齐粒度太粗。原生LVLM训练时用的是全局图像描述对齐（image-caption pairs），它的“理解”是整图级别的。但RAG需要的是像素级或对象级对齐——比如用户问“表格第3行第2列的值”，模型必须能把语言中的“第3行第2列”精准映射到图像中对应单元格的像素坐标，而不是泛泛地描述“图中有一个表格”。这要求LVLM的视觉编码器输出必须携带空间位置信息，且语言解码器能反向查询该位置。标准LVLM的cross-attention层并不保留原始patch的空间索引，导致无法做逆向定位。

第三，推理不可控、不可解释。原生LVLM输出是一段自由文本，你无法知道它依据图中哪个区域做出判断。而在RAG场景中，我们必须能追溯答案来源：这个数值是从哪块ROI提取的？OCR置信度多少？是否与向量库中某份PDF扫描件的对应段落匹配？没有可追溯性，业务方根本不敢用。

所以我们的方案不是“用LVLM”，而是“改造LVLM作为RAG的视觉感知模块”。核心思路是：将LVLM拆解为“视觉特征提取器 + ROI定位器 + 结构化输出生成器”三层流水线，每一层都可独立配置、监控和替换。这比强行微调整个LVLM模型更轻量、更可控、更易调试。

2.2 方案选型：为什么放弃端到端微调，选择“视觉编码器复用+轻量头微调”？

面对上述问题，团队最初讨论过两种技术路径：

路径A：在LVLM基础上，用大量带ROI标注的图文对（如“[x1,y1,x2,y2]→‘阀门压力值’”）做全模型微调；
路径B：冻结LVLM的视觉编码器（ViT），只微调一个轻量级的ROI定位头（2层MLP+坐标回归loss），再接一个结构化文本生成头（强制输出JSON Schema）。

我们实测对比了两种路径在NVIDIA A10（24G显存）上的表现：

指标	路径A（全模型微调）	路径B（视觉编码器复用+轻量头）
显存峰值	22.8G	9.3G
单图推理耗时（1024×1024）	3.2s	0.8s
ROI定位mAP@0.5	0.67	0.74
结构化输出合规率（JSON格式正确）	82%	99.2%
微调数据需求	≥5000标注样本	≤800标注样本

路径B全面胜出。原因很实在：LVLM的视觉编码器（如ViT-L）已经在海量图文数据上学到了强大的通用视觉表征能力，强行微调它反而容易破坏这种泛化性，尤其当你的业务数据量有限时。而ROI定位本身是个典型的计算机视觉任务，用少量高质量标注去微调一个轻量头，收敛快、鲁棒性强。更重要的是，路径B把“视觉理解”和“语言生成”彻底解耦——你可以用YOLOv8做更准的物体检测来替代ROI定位头，也可以用专门优化的OCR模型（如PaddleOCR）替换结构化生成部分，整个链条像乐高一样可插拔。我们最终采用的架构是：原始图像 → ViT-L视觉编码器（冻结） → ROI定位头（微调） → 裁剪ROI → PaddleOCR + 视觉特征拼接 → 结构化JSON生成头（微调）。这个设计让视觉模块的迭代完全独立于语言模型，业务方提新需求（比如增加“识别仪表盘指针角度”），我们只需换一个轻量头，不用动整个LVLM。

2.3 影响范围：LVLM推理质量如何决定整个多模态RAG的天花板？

很多人以为RAG的瓶颈在向量检索或LLM生成，但实际项目中，LVLM推理的质量是整个多模态RAG系统的“第一道滤网”，它的误差会以指数级放大后续环节的失败概率。举个真实案例：某汽车售后知识库项目，用户上传一张发动机舱照片，问“右侧蓝色管路连接的是哪个部件”。LVLM推理如果把“右侧”误判为图中物理右侧（而用户实际指照片视角的右侧），或者把“蓝色管路”错误关联到散热风扇的蓝色外壳，那么后续所有检索动作都是在错误前提下进行的——向量库会去查“散热风扇”相关文档，LLM会基于错误上下文生成荒谬答案。我们统计过线上日志：当LVLM的ROI定位mAP@0.5低于0.65时，整个RAG链路的端到端准确率会断崖式下跌至40%以下；而提升到0.75后，准确率稳定在82%±3%。这说明LVLM不是“锦上添花”，而是“生死线”。它的影响范围远超视觉模块本身：

直接影响检索召回质量：LVLM输出的结构化描述（如{"object": "blue_pipe", "position": "right_side", "connected_to": "radiator"}）是向量检索的Query Embedding来源，描述不准，检索必偏；
决定LLM生成可信度：当LVLM能输出带置信度的OCR结果（如"value": "125.3", "confidence": 0.92），LLM才能据此做可靠推理；若只给模糊文本“大概一百二十多”，LLM只能靠猜；
制约系统可审计性：只有LVLM能返回精确坐标（[x1,y1,x2,y2]），业务方才能在原始图上高亮答案来源，这是医疗、法律等强监管场景的刚需。

所以，当你在设计多模态RAG时，别急着搭向量库，先花70%精力把LVLM推理这一环锤炼到极致——它不是第六节，它是第一节。

3. 实操细节：从零部署一个生产级LVLM视觉感知模块

3.1 环境准备与依赖安装：为什么必须用CUDA 12.1+PyTorch 2.1？

很多教程让你pip install transformers完事，但在生产环境中，CUDA版本、PyTorch编译选项、Flash Attention支持这三者不匹配，会导致LVLM推理速度慢3倍以上，甚至OOM。我们踩过的最深的坑是：在A10服务器上用CUDA 11.8 + PyTorch 1.13，加载Qwen-VL-7B时显存占用高达21G，单图推理2.8秒；换成CUDA 12.1 + PyTorch 2.1 + Flash Attention 2.5.8后，显存压到9.3G，耗时降至0.78秒。关键差异在于：

PyTorch 2.1+默认启用torch.compile()，对ViT的patch embedding层有显著加速；
Flash Attention 2.5.8针对CUDA 12.1做了kernel优化，特别是对长序列（32K视觉token）的softmax计算；
CUDA 12.1的内存管理器对大batch图像预处理更友好。

具体安装命令（A10服务器实测）：

# 卸载旧版 pip uninstall torch torchvision torchaudio -y # 安装CUDA 12.1兼容版PyTorch（注意：必须指定--index-url） pip install torch==2.1.0+cu121 torchvision==0.16.0+cu121 torchaudio==2.1.0+cu121 --index-url https://download.pytorch.org/whl/cu121 # 安装Flash Attention 2（必须源码编译，预编译包不支持A10） git clone https://github.com/Dao-AILab/flash-attention cd flash-attention pip install -e . --no-build-isolation # 安装其他依赖（重点：transformers>=4.35.0，因新增了Qwen-VL支持） pip install transformers==4.35.2 accelerate==0.25.0 pillow==10.1.0 opencv-python==4.8.1.78

提示：不要用conda install pytorch，conda默认安装的PyTorch常缺少CUDA 12.1优化；务必用pip指定+cu121后缀。我们曾因conda安装导致Flash Attention无法启用，白白浪费两天排查时间。

3.2 视觉编码器复用：如何安全冻结ViT并提取中间层特征？

Qwen-VL和LLaVA的视觉编码器都是ViT-L/14，但它们的特征提取方式不同：Qwen-VL用的是vit.forward_features()输出cls token+patch tokens，而LLaVA用的是vit.get_intermediate_layers()取最后一层。直接调用model.vision_tower可能返回未归一化的特征，导致后续ROI头训练不稳定。我们的做法是：

重写视觉编码器前向逻辑，确保输出是L2归一化后的patch tokens（维度：[num_patches, 1024]）；
固定使用第24层（最后一层）的输出，避免浅层特征噪声干扰；
添加patch坐标嵌入，让每个token携带其在原图中的(x,y)位置信息（用正弦编码，维度128），这样ROI头能学习空间关系。

核心代码片段（以Qwen-VL为例）：

from transformers import Qwen2VLForConditionalGeneration import torch import torch.nn.functional as F class SafeViTExtractor(torch.nn.Module): def __init__(self, model_path="Qwen/Qwen-VL"): super().__init__() self.model = Qwen2VLForConditionalGeneration.from_pretrained(model_path) # 冻结整个vision_tower for param in self.model.vision_tower.parameters(): param.requires_grad = False def forward(self, pixel_values): # 获取ViT最后一层输出 [B, num_patches+1, 1024] vision_outputs = self.model.vision_tower(pixel_values) # 去掉cls token，只留patch tokens [B, num_patches, 1024] patch_tokens = vision_outputs.last_hidden_state[:, 1:, :] # L2归一化 [B, num_patches, 1024] patch_tokens = F.normalize(patch_tokens, p=2, dim=-1) # 添加位置编码（简化版：用patch索引近似坐标） B, N, D = patch_tokens.shape pos_embed = torch.zeros(N, 128, device=patch_tokens.device) pos_embed[:, 0::2] = torch.sin(torch.arange(N).unsqueeze(1) * 1e-4) pos_embed[:, 1::2] = torch.cos(torch.arange(N).unsqueeze(1) * 1e-4) # 拼接位置编码 [B, num_patches, 1024+128] patch_tokens = torch.cat([patch_tokens, pos_embed.unsqueeze(0).expand(B, -1, -1)], dim=-1) return patch_tokens # 实例化并测试 extractor = SafeViTExtractor() pixel_values = torch.randn(1, 3, 1024, 1024) # 模拟一张图 features = extractor(pixel_values) # 输出 [1, 256, 1152] print(f"Feature shape: {features.shape}, dtype: {features.dtype}")

注意：pixel_values必须是torch.float16类型，否则ViT前向会报错。我们封装了一个preprocess_image()函数，内部自动做ToTensor()→Normalize(mean,std)→half()，避免每次手动转换。

3.3 ROI定位头设计：为什么用2层MLP+IoU Loss，而不是YOLO？

ROI定位的目标是：给定用户问题（如“红色警告标签”），输出一个矩形框[x1,y1,x2,y2]。常见方案是直接上YOLOv8，但我们发现YOLO在RAG场景有三大缺陷：

召回率低：YOLO训练目标是检测所有物体，而RAG只需要检测与问题相关的ROI，YOLO会漏掉小尺寸、低对比度的关键区域（如电路板上的微小焊点编号）；
无法绑定语言：YOLO输出是静态bbox，无法根据问题动态调整——同一张图，“左侧按钮”和“右侧按钮”的bbox完全不同，YOLO做不到条件化输出；
部署重：YOLOv8s需额外加载detector权重，增加服务启动时间和内存占用。

所以我们设计了一个极简的Language-Conditioned ROI Head：

输入：ViT提取的patch tokens[256, 1152]+ 问题文本的CLIP文本嵌入[512]；
结构：2层MLP（1152→512→256），最后接4个线性层分别预测x1,y1,x2,y2；
损失函数：GIoU Loss + 边界约束Loss（强制0≤x1<x2≤W, 0≤y1<y2≤H）。

为什么GIoU？因为它对预测框与真值框不重叠的情况仍有梯度，避免训练初期梯度消失。边界约束Loss用torch.relu(x1)等函数实现，防止预测越界。训练时，我们用800张标注图（每张图标注1-3个ROI），3个epoch就收敛，mAP@0.5达0.74。代码关键部分：

class ROILocator(torch.nn.Module): def __init__(self, vision_dim=1152, text_dim=512): super().__init__() self.mlp = torch.nn.Sequential( torch.nn.Linear(vision_dim + text_dim, 512), torch.nn.GELU(), torch.nn.Linear(512, 256), torch.nn.GELU() ) # 四个独立head，避免坐标间耦合 self.x1_head = torch.nn.Linear(256, 1) self.y1_head = torch.nn.Linear(256, 1) self.x2_head = torch.nn.Linear(256, 1) self.y2_head = torch.nn.Linear(256, 1) def forward(self, patch_tokens, text_embed): # patch_tokens: [B, N, D], text_embed: [B, T] B, N, D = patch_tokens.shape # 全局池化得到图像特征 [B, D] img_feat = patch_tokens.mean(dim=1) # 或用attention pooling # 拼接文本特征 [B, D+T] fused = torch.cat([img_feat, text_embed], dim=-1) hidden = self.mlp(fused) # [B, 256] # 预测坐标 [B, 1] x1 = self.x1_head(hidden).sigmoid() * W # W=1024 y1 = self.y1_head(hidden).sigmoid() * H # H=1024 x2 = self.x2_head(hidden).sigmoid() * W y2 = self.y2_head(hidden).sigmoid() * H # 强制x1<x2, y1<y2 x2 = torch.max(x2, x1 + 1) y2 = torch.max(y2, y1 + 1) return torch.cat([x1, y1, x2, y2], dim=-1) # [B, 4] # 训练时的GIoU Loss计算（简化版） def giou_loss(pred, target): # pred, target: [B, 4] in [x1,y1,x2,y2] # 计算交集、并集、最小外接矩形 inter_x1 = torch.max(pred[:, 0], target[:, 0]) inter_y1 = torch.max(pred[:, 1], target[:, 1]) inter_x2 = torch.min(pred[:, 2], target[:, 2]) inter_y2 = torch.min(pred[:, 3], target[:, 3]) inter_area = torch.clamp(inter_x2 - inter_x1, min=0) * torch.clamp(inter_y2 - inter_y1, min=0) pred_area = (pred[:, 2] - pred[:, 0]) * (pred[:, 3] - pred[:, 1]) target_area = (target[:, 2] - target[:, 0]) * (target[:, 3] - target[:, 1]) union_area = pred_area + target_area - inter_area # 最小外接矩形 C_x1 = torch.min(pred[:, 0], target[:, 0]) C_y1 = torch.min(pred[:, 1], target[:, 1]) C_x2 = torch.max(pred[:, 2], target[:, 2]) C_y2 = torch.max(pred[:, 3], target[:, 3]) C_area = (C_x2 - C_x1) * (C_y2 - C_y1) iou = inter_area / (union_area + 1e-6) giou = iou - (C_area - union_area) / (C_area + 1e-6) return 1 - giou.mean()

3.4 结构化输出生成：如何让LVLM“说人话”并带上置信度？

原生LVLM输出是自由文本，但RAG需要结构化数据。我们不采用复杂Seq2Seq微调，而是用Prompt Engineering + 小样本微调（Few-shot FT）的组合拳：

Prompt Engineering：在输入中强制加入结构化指令，如：“请严格按JSON格式输出，包含字段：{‘text_content’: str, ‘confidence’: float, ‘source_region’: [x1,y1,x2,y2]}。不要任何额外文字。”；
Few-shot FT：用200条高质量样本（人工编写）微调LVLM的语言头，样本格式为：<image><question>...<answer>{"text_content":"...", "confidence":0.95, ...}。

关键技巧：

置信度校准：LVLM原生logits不直接对应置信度。我们用Temperature Scaling（温度系数T=1.2）重新标定softmax输出，并在微调时用Brier Score Loss优化校准效果；
OCR融合：对ROI裁剪图，同步运行PaddleOCR，将OCR结果与LVLM生成的text_content做加权融合（OCR置信度×0.7 + LVLM置信度×0.3），大幅提升数值类内容准确率；
Schema强制：在生成头后加一层JSON Schema Validator，对非法输出（如缺字段、类型错误）自动触发重试，保障下游服务稳定性。

实测效果：在“仪表盘读数”任务上，纯LVLM生成准确率68%，加入OCR融合后达92.3%，且99.2%输出符合JSON Schema。这比端到端微调省时省力，效果不输。

4. 生产级调优与避坑指南：那些文档里不会写的实战经验

4.1 显存优化：如何把Qwen-VL-7B压进10G显存？

A10的24G显存看似充裕，但多用户并发时极易OOM。我们通过四层优化，将单请求显存从21G压到9.3G：

Flash Attention 2：启用后视觉token处理显存下降35%；
KV Cache量化：对语言模型的Key/Value缓存用bitsandbytes做NF4量化，节省1.2G；
Patch Token剪枝：在ROI定位后，只保留与预测框重叠度>0.3的patch tokens（从256→约60个），视觉特征显存降55%；
梯度检查点（Gradient Checkpointing）：对ViT编码器启用torch.utils.checkpoint，牺牲15%速度换30%显存。

最终配置（model.generate()参数）：

generate_kwargs = { "max_new_tokens": 128, "do_sample": False, "temperature": 0.0, "top_p": 0.9, "repetition_penalty": 1.1, # 关键：启用Flash Attention和KV Cache "use_cache": True, "attn_implementation": "flash_attention_2", # 必须CUDA 12.1+ "quantization_config": BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16, bnb_4bit_quant_type="nf4" ) }

实测警告：attn_implementation="flash_attention_2"在CUDA 11.8下会静默失效，必须用nvidia-smi确认CUDA版本，且flash-attn安装后要运行python -c "import flash_attn; print(flash_attn.__version__)"验证。

4.2 推理加速：为什么Batch Size=1反而是最优解？

直觉上，增大batch size能提升GPU利用率。但在LVLM多模态RAG中，Batch Size>1会引发严重的“长尾延迟”。原因：

图像预处理（resize/crop/normalize）耗时差异大：一张100KB的JPG和一张5MB的TIFF，预处理时间差3倍；
ROI定位耗时取决于图像复杂度：简单白底图0.1s，密集电路板图0.6s；
Batch内最慢的请求会拖垮整个batch。

我们压测了不同batch size的P95延迟：

Batch Size	P50延迟	P95延迟	显存占用
1	0.78s	0.85s	9.3G
2	0.82s	1.42s	11.2G
4	0.88s	2.91s	14.5G

结论：坚持Batch Size=1，用异步IO和流水线并行（Pipeline Parallelism）提升吞吐。我们用vLLM框架的AsyncLLMEngine，将预处理、ROI定位、结构化生成拆成三个异步阶段，单卡QPS从12提升到38，P95延迟稳定在0.88s。

4.3 常见问题速查表：从报错到业务异常的全链路排查

问题现象	根本原因	解决方案
`RuntimeError: Expected all tensors to be on the same device`	ViT输出在CPU，语言模型在GPU	在`SafeViTExtractor.forward()`末尾加`.to(device)`，或统一用`model.to("cuda")`
ROI定位框严重偏移（如总在图像右下角）	问题文本嵌入未归一化，与视觉特征尺度不匹配	对CLIP文本嵌入加`F.normalize(text_embed, p=2, dim=-1)`
结构化JSON输出缺失字段（如无`confidence`）	Prompt中JSON schema未严格约束，或few-shot样本不一致	在few-shot样本中强制所有字段出现，微调时用Schema-aware loss
多次请求后显存缓慢增长（内存泄漏）	OpenCV/Pillow的图像缓存未释放	在预处理函数末尾加`cv2.destroyAllWindows()`和`del image`
用户问题含中文标点（如“？”）导致定位失败	LVLM分词器对中文标点处理异常	预处理时用正则`re.sub(r'[^\w\s]', ' ', question)`清洗标点
同一问题在不同尺寸图上结果不一致	ROI定位头未适配图像缩放	在输入ROI头前，将`[x1,y1,x2,y2]`按缩放比例归一化到[0,1]区间

个人踩坑心得：最隐蔽的问题是图像DPI元数据干扰。某些扫描仪生成的PNG自带96dpi元数据，PIL读取时会自动按DPI缩放像素，导致坐标错乱。解决方案：Image.open(path).convert('RGB').resize((1024,1024), Image.Resampling.LANCZOS)，强制忽略DPI。

4.4 业务适配技巧：如何让LVLM理解“工程师黑话”？

业务方的需求常是：“找出图纸上‘DN50’标注的位置”。但LVLM训练数据里几乎没有“DN50”这种工业符号。直接问，模型大概率返回空或乱码。我们的解法是：

构建领域术语映射表：将“DN50”映射为“pipe_diameter_50mm”，“PN16”映射为“pressure_rating_16bar”；
在Prompt中注入术语表："已知术语：DN50→pipe_diameter_50mm, PN16→pressure_rating_16bar。请基于此理解问题。"；
微调时加入术语增强样本：用GPT-4批量生成100条“DN50→pipe_diameter_50mm”风格的样本，注入few-shot训练。

实测：术语注入后，“DN50”定位准确率从31%升至89%。这比重新收集标注数据快10倍，成本几乎为零。

5. 性能边界测试与扩展思考：当你的需求超出当前LVLM能力时

我们做过极限压力测试：在A10上，单请求处理1024×1024图像，端到端P95延迟0.88s，显存占用9.3G，ROI定位mAP@0.5=0.74。这个性能能满足80%的工业文档、医疗报告、电商图场景。但如果你的需求更极端——比如实时分析4K视频流（30fps）、或处理显微镜下1亿像素病理切片——当前方案会触达瓶颈。这时有两个务实方向：

向上扩展：换A100（40G）+ TensorRT优化，用trtllm编译LVLM，实测可将4K图推理压到0.35s；
向外拆分：把“视觉感知”彻底从RAG链路中剥离，做成独立微服务。LVLM只做ROI定位和OCR，结构化结果存入Redis，RAG服务通过消息队列（如Kafka）异步消费，实现真正的解耦和弹性伸缩。

我个人在实际项目中最深的体会是：不要迷信“大模型即万能”，而要像搭电路一样，把LVLM当成一个可配置的“视觉传感器”——它的价值不在于多聪明，而在于多稳、多准、多可控。当你能精确说出“这个ROI框的mAP是多少”、“这张图的结构化输出置信度分布如何”，你才算真正掌握了LVLM在多模态RAG中的命脉。最后分享一个小技巧：每次上线新版本LVLM推理模块，我都会用100张典型业务图做A/B测试，不仅看准确率，更盯住“置信度-准确率曲线”——如果曲线在置信度0.8以下就急剧下滑，说明模型不可靠，必须回滚。这才是生产环境该有的敬畏心。

查看全文

http://www.jsqmd.com/news/868436/