当前位置：首页 > news >正文

OpenClaw自动化办公实战：Qwen2.5-VL-7B处理会议截图生成纪要

news 2026/5/11 9:45:29

OpenClaw自动化办公实战：Qwen2.5-VL-7B处理会议截图生成纪要

1. 为什么需要自动化会议纪要

每次开完会最头疼的就是整理会议纪要。上周三的跨部门需求评审会上，产品经理在白板上画了十几张流程图，我举着手机拍了二十多张照片，会后花了整整两小时才把关键信息整理成文档。这种重复性工作不仅消耗精力，还经常因为人工转录出错导致后续沟通成本增加。

直到我发现OpenClaw+Qwen2.5-VL-7B这个组合可以自动化完成这个流程。现在我的会议记录工作流变成了：拍摄白板照片→自动上传识别→生成结构化纪要→飞书推送初稿。实际测试显示，原本需要120分钟的手工记录，现在只需10分钟复核就能达到相同效果。

2. 技术方案设计思路

2.1 核心组件选型

选择Qwen2.5-VL-7B作为视觉语言模型有几个关键考量：

多模态能力：能同时理解图片中的文字、图表和手写内容
中文优化：对中文会议场景下的专业术语识别准确率较高
本地部署：通过GPTQ量化后，我的M1 Max笔记本也能流畅运行

OpenClaw则负责串联整个流程：

监控指定文件夹的新增截图
调用模型API进行内容识别
提取关键信息生成Markdown格式纪要
通过飞书机器人推送结果

2.2 典型错误规避经验

初期测试时遇到过几个典型问题：

模型会把白板反光识别为乱码 → 解决方案：在OpenClaw预处理环节增加图片增强
手写体识别率低 → 改用白板笔书写并控制单行字数
流程图识别结构混乱 → 要求演讲者画图时添加明确箭头指引

这些细节优化使得最终可用性从初期的60%提升到92%。

3. 具体实现步骤

3.1 环境准备

首先在星图平台部署Qwen2.5-VL-7B镜像（约5分钟）：

# 获取API访问地址 curl -X POST "http://your-vllm-server/v1/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen2.5-VL-7B-Instruct", "prompt": "Describe this image", "images": ["base64_encoded_image"] }'

然后本地安装OpenClaw并配置飞书通道：

npm install -g @qingchencloud/openclaw-zh openclaw onboard # 选择飞书通道并填写AppID/Secret

3.2 技能包开发

创建自定义skill处理图片流：

// ~/.openclaw/skills/meeting-minutes/index.js module.exports = { name: "meeting-minutes", actions: { async processScreenshot(ctx) { const img = await ctx.files.read(ctx.params.path); const res = await ctx.models.qwenvl({ prompt: "将白板内容转为Markdown格式会议纪要", images: [img] }); await ctx.feishu.sendMessage(res.text); } } }

配置自动触发规则：

// ~/.openclaw/openclaw.json { "watchers": { "meeting_screenshots": { "path": "~/Downloads/meetings", "handler": "meeting-minutes/processScreenshot" } } }