当前位置：首页 > news >正文

OpenClaw任务编排：串联Phi-3-vision与文本模型完成复杂分析

news 2026/6/10 20:08:09

OpenClaw任务编排：串联Phi-3-vision与文本模型完成复杂分析

1. 为什么需要多模型协作？

上周我遇到一个头疼的问题：客户发来几十份包含销售数据的PDF报告，需要从中提取关键指标并生成季度分析。手动操作不仅耗时，还容易出错——特别是当图表中的曲线和数字混在一起时，眼睛都快看花了。

这时候我想到了OpenClaw的多模型串联能力。通过让视觉模型Phi-3-vision专门处理图表识别，再让文本模型负责结构化分析和报告生成，整个流程可以自动化完成。这种"分阶段专业化处理"的思路，就像工厂的流水线，每个环节由最合适的"工人"（模型）负责自己最擅长的部分。

2. 环境准备与模型部署

2.1 部署Phi-3-vision模型

首先在星图平台找到Phi-3-vision-128k-instruct镜像，一键部署后得到API地址。这个镜像已经用vllm优化过推理性能，特别适合处理图文混合内容。我在本地.openclaw/openclaw.json中配置了模型端点：

"models": { "providers": { "phi3-vision": { "baseUrl": "http://your-vision-model-address/v1", "apiKey": "your-api-key", "api": "openai-completions", "models": [ { "id": "phi3-vision", "name": "Phi-3 Vision Model", "contextWindow": 128000 } ] } } }

2.2 配置文本分析模型

我选择继续使用Qwen-72B作为文本分析模型，因为它在处理结构化数据时表现稳定。配置方式类似，只是baseUrl指向本地部署的Qwen服务地址。

openclaw gateway restart # 使配置生效

3. 设计任务编排流程

3.1 核心工作流设计

整个分析流程被拆解为三个阶段：

文档预处理：用PyPDF2提取PDF中的图表页面
视觉解析：将图表发送给Phi-3-vision提取数据
报告生成：把结构化数据交给文本模型生成分析报告

我创建了analysis_workflow.yaml来定义这个流程：

steps: - name: extract_images action: python_script params: script: pdf_image_extractor.py args: ["{{input_file}}", "output_images/"] - name: analyze_charts action: model_inference params: provider: phi3-vision prompt: > 请提取图表中的关键数据，包括： 1. 横纵坐标含义 2. 数据系列名称和对应数值 3. 趋势特征 返回JSON格式 - name: generate_report action: model_inference params: provider: qwen-text prompt: > 根据以下数据分析结果生成商业报告： {{analyze_charts.output}} 要求包含： 1. 关键发现总结 2. 同比/环比分析 3. 行动建议

3.2 关键问题解决

在测试时遇到两个典型问题：

模型切换延迟：视觉模型输出到文本模型时，格式转换导致信息丢失
- 解决方案：在YAML中添加output_processor脚本统一JSON格式
长文档处理超时：单个PDF超过50页时任务中断
- 解决方案：通过chunk_size参数分批次处理，每10页为一个任务单元

4. 实战：销售报告自动化分析

4.1 准备测试数据

我收集了三类典型销售文档作为测试集：

A类：纯图表报告（占比60%）
B类：图文混合报告（占比30%）
C类：纯文本报告（占比10%）

4.2 执行自动化流程

通过OpenClaw CLI触发任务：

openclaw task run --file analysis_workflow.yaml \ --param input_file=Q2_sales_report.pdf \ --output report_output/

流程执行时会实时显示状态：

[2024-06-15 14:30:12] 开始提取PDF图像... ✓ [2024-06-15 14:32:45] 分析图表数据... ✓ [2024-06-15 14:35:21] 生成最终报告... ✓

4.3 结果验证

对比人工处理和自动化处理的结果：

准确率：在数值提取上达到92%一致（人工复核10份样本）
效率：平均处理时间从45分钟/份缩短到8分钟/份
覆盖率：能处理85%的图表类型（饼图/柱状图效果最好）

5. 进阶技巧与优化建议

5.1 错误处理机制

为应对模型可能出现的误判，我在工作流中添加了校验环节：

- name: validate_data action: python_script params: script: data_validator.py args: ["{{analyze_charts.output}}"] conditions: - when: "{{validate_data.exit_code}} != 0" then: "retry analyze_charts"