当前位置：首页 > news >正文

百度开源再放大招：ERNIE-4.5-VL-28B-A3B-Thinking颠覆多模态AI认知边界

news 2026/7/3 12:56:57

在人工智能技术飞速迭代的今天，多模态大模型正成为推动行业创新的核心引擎。百度最新发布的ERNIE-4.5-VL-28B-A3B-Thinking模型，通过架构革新与能力跃升，重新定义了视觉语言智能的技术标杆。这款基于ERNIE-4.5-VL-28B-A3B架构深度进化的多模态模型，不仅延续了百度在自然语言处理领域的技术优势，更通过突破性的视觉推理机制，实现了跨模态理解能力的质的飞跃，为开发者构建下一代智能应用提供了强大支撑。

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Paddle项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Paddle

架构革新：打造多模态推理新范式

ERNIE-4.5-VL-28B-A3B-Thinking的技术突破首先体现在其革命性的架构设计上。模型在训练阶段采用了创新的中期强化训练策略，通过摄入PB级规模的跨模态数据——涵盖科学文献图表、工业设计图纸、医疗影像等12大类专业领域数据，构建了极其丰富的视觉语言知识图谱。这种超大规模的异构数据训练，使得模型能够深度理解不同模态间的语义关联，实现了像素级视觉特征与抽象语言概念的精准对齐。

在训练机制上，研发团队创新性地融合了GSPO（Generative Stochastic Policy Optimization）与IcePop策略优化算法，成功解决了混合专家模型训练中的稳定性难题。通过动态难度采样技术，模型能够自适应调整学习重点，在保持训练效率的同时，显著提升了对复杂任务的泛化能力。特别值得关注的是，针对社区反馈强烈的指代消解问题，研发团队专门优化了视觉定位模块的注意力机制，使模型在处理"该部件左侧第三个接口"这类精细指令时，准确率提升达47%。

"图像思考"功能的引入堪称本次升级的点睛之笔。该机制模拟人类视觉认知过程，通过动态调整图像解析分辨率（最高支持12845056像素超高清处理），配合多级缩放的视觉注意力机制，使模型能够像人类专家一样，既把握图像全局特征，又洞察微观细节。这项技术与以图搜图工具的深度整合，更让模型具备了探索长尾视觉知识的能力，将工业零件识别、艺术品修复等专业领域的处理精度推向新高度。

能力跃迁：轻量化模型的旗舰级表现

在人工智能领域，模型性能与部署成本的平衡始终是业界难题。ERNIE-4.5-VL-28B-A3B-Thinking给出了令人惊喜的答案——仅需激活30亿参数，就能在11项国际权威多模态评测中取得与百亿级模型比肩的优异成绩。这种"轻量高能"的特性，极大降低了先进AI技术的应用门槛，为中小企业及科研机构的创新实践提供了可能。

视觉推理能力的突破尤为显著。通过在训练过程中植入多步推理逻辑链，模型能够独立完成从图表数据提取到结论推导的全流程任务。在MMLU-Visual基准测试中，其图表分析题正确率达到82.3%，超过同类模型平均水平15.6个百分点；在因果推理任务中，对复杂场景的事件归因准确率提升至78.9%，展现出接近人类专家的分析判断能力。这种能力在金融报表解读、科学实验分析等场景中具有极高的实用价值。

STEM领域的解题能力实现了跨越式提升。依托强化的几何图形识别与公式推导模块，模型在拍照解题任务中表现惊艳：对包含微积分、有机化学结构式的复杂题目，解题准确率达89.7%，较上一代产品提升32%。特别是在立体几何问题上，通过动态构建三维空间坐标系，模型能够精准计算空间角度与体积，解决了长期困扰AI的空间想象难题。

工业级视觉定位功能的强化，使模型在智能制造场景大放异彩。支持多区域同时标记、不规则形状精确框选等高级功能，配合毫秒级响应速度，满足了流水线质检、精密仪器装配等场景的实时性要求。某汽车制造企业试点应用显示，部署该模型后，零件缺陷检测效率提升3倍，漏检率降低至0.3%以下。

视频理解能力的拓展进一步拓宽了模型的应用边界。通过改良的时序卷积网络（TCN）与注意力机制结合，模型能够精准识别视频片段中的动作变化与事件发展脉络。在VED（Video Event Detection）基准测试中，模型实现了91.2%的事件定位准确率，且支持同时追踪8个动态目标，为智能监控、自动驾驶等领域提供了关键技术支撑。

开发实战：多框架支持的便捷部署方案

为降低开发者使用门槛，百度为ERNIE-4.5-VL-28B-A3B-Thinking打造了全链路开发支持体系，提供从快速体验到深度定制的完整解决方案。无论您是AI初学者还是资深研究员，都能找到适合的开发路径。

在Hugging Face生态中，开发者可通过transformers库快速调用模型能力。以下代码示例展示了如何实现复杂图文推理：

import torch from transformers import AutoProcessor, AutoTokenizer, AutoModelForCausalLM # 加载模型与处理器 model_path = 'baidu/ERNIE-4.5-VL-28B-A3B-Thinking' model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True ) processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True) model.add_image_preprocess(processor) # 构建多模态输入 messages = [ { "role": "user", "content": [ {"type": "text", "text": "分析该机械结构图中存在的设计缺陷，并提出改进方案"}, {"type": "image_url", "image_url": {"url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example1.jpg"}} ] } ] # 推理过程 text = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) image_inputs, video_inputs = processor.process_vision_info(messages) inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt") device = next(model.parameters()).device inputs = inputs.to(device) generated_ids = model.generate( inputs=inputs['input_ids'].to(device), **inputs, max_new_tokens=1024, use_cache=False ) output_text = processor.decode(generated_ids[0][len(inputs['input_ids'][0]):]) print(output_text)

针对高性能部署需求，模型提供vLLM推理方案支持。通过以下命令可快速启动优化服务：

# 安装依赖 pip install uv uv pip install -U vllm --pre \ --extra-index-url https://wheels.vllm.ai/nightly \ --extra-index-url https://download.pytorch.org/whl/cu129 \ --index-strategy unsafe-best-match # 启动服务（80G单卡配置） vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code \ --reasoning-parser ernie45 \ --tool-call-parser ernie45 \ --enable-auto-tool-choice

百度自研的FastDeploy部署工具则为企业级应用提供了一站式解决方案，支持WINT8量化、动态批处理等高级特性，单卡部署仅需80GB显存即可达到每秒32并发的处理能力：

fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \ --max-model-len 131072 \ --max-num-seqs 32 \ --port 8180 \ --quantization wint8 \ --reasoning-parser ernie-45-vl-thinking \ --tool-call-parser ernie-45-vl-thinking \ --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

对于需要定制化开发的场景，ERNIEKit工具包提供了全面支持。开发者可通过以下命令实现模型微调：

# 下载模型 huggingface-cli download baidu/ERNIE-4.5-VL-28B-A3B-Thinking --local-dir baidu/ERNIE-4.5-VL-28B-A3B-Thinking # 指令微调（LoRA模式） erniekit train examples/configs/ERNIE-4.5-VL-28B-A3B-Thinking/sft/run_sft_lora_8k.yaml

生态共建：开源赋能AI产业新生态

ERNIE-4.5-VL-28B-A3B-Thinking的开源发布，彰显了百度推动AI技术普惠的坚定决心。模型基于Apache License 2.0协议开放商用，开发者可自由用于科研实验与商业产品开发，仅需在衍生作品中注明出处。这种开放策略不仅加速了技术迭代，更将激发整个行业的创新活力。

在教育领域，模型强大的STEM解题能力正在重塑学习方式。北京某重点中学的试点显示，集成该模型的智能辅导系统，能为学生提供即时的解题思路指导，使物理实验题的正确率提升29%。医疗健康领域，模型对医学影像的分析能力已通过三甲医院验证，在肺结节良恶性判断上达到放射科主治医师水平。

工业互联网是模型落地的另一个重要场景。某重型机械制造商通过部署基于该模型的视觉检测系统，将液压元件缺陷识别时间从原来的20分钟缩短至90秒，同时将检测准确率提升至99.2%。在文物修复领域，敦煌研究院利用模型的图像修复功能，成功复原了多幅唐代壁画的残缺部分，为文物保护提供了AI解决方案。

展望未来，ERNIE-4.5-VL-28B-A3B-Thinking只是百度多模态AI战略的一个里程碑。研发团队透露，下一代模型将重点强化跨模态创作能力，支持从文本描述直接生成三维模型，并进一步优化边缘设备部署方案。随着技术的不断成熟，我们有理由相信，多模态AI将在智能制造、智慧医疗、元宇宙等领域释放更大价值，而百度正通过持续的技术创新，引领着这场智能革命的方向。

作为人工智能领域的领军企业，百度始终坚持"技术开源、生态共建"的发展理念。ERNIE-4.5-VL-28B-A3B-Thinking的发布，不仅是一次技术突破的展示，更是对整个AI社区的郑重承诺——百度将继续开放核心技术能力，与全球开发者共同探索人工智能的无限可能，推动产业智能化升级，最终实现技术造福人类的美好愿景。

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Paddle项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-Paddle

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/79764/