当前位置：首页 > news >正文

双模型协作实战：OpenClaw路由Kimi-VL-A3B-Thinking与Whisper处理音图文混合输入

news 2026/7/24 6:35:05

双模型协作实战：OpenClaw路由Kimi-VL-A3B-Thinking与Whisper处理音图文混合输入

1. 需求场景与技术选型

上周我需要整理一场技术研讨会的录音和幻灯片。现场拍摄的照片包含PPT内容，同时手机录音记录了讲解语音——这种音图文混合素材的传统处理方式需要：

人工对照时间轴对齐录音和幻灯片
手动转录关键论点
将视觉信息与语音解说关联整合

整个过程耗时约3小时/场。当我尝试用OpenClaw构建自动化流程时，发现单一模型难以胜任：

纯文本模型无法解析图片中的PPT内容
视觉模型听不懂语音解说
语音模型看不到幻灯片上下文

最终方案采用双模型路由架构：

Whisper负责语音转文字
Kimi-VL-A3B-Thinking进行图文理解与综合
OpenClaw作为调度中枢协调工作流

2. 环境准备与模型部署

2.1 基础环境配置

我的开发环境是M1 MacBook Pro（16GB内存），关键组件版本：

# OpenClaw核心组件 openclaw --version # 输出 v0.8.2 clawhub --version # 输出 v1.3.0 # Python环境 python -V # Python 3.10.12 pip list | grep vllm # vllm==0.3.2

2.2 模型服务部署

Kimi-VL-A3B-Thinking镜像通过vllm部署在本机：

docker run -d --gpus all -p 5000:5000 \ -v /path/to/models:/models \ registry.cn-hangzhou.aliyuncs.com/xxx/kimi-vl-a3b-thinking:latest \ --model /models/kimi-vl-a3b-thinking \ --trust-remote-code

Whisper模型使用OpenClaw社区技能：

clawhub install audio-processor clawhub plugins install @openclaw/whisper-large-v3

3. OpenClaw路由配置关键步骤

3.1 多模型服务注册

编辑~/.openclaw/openclaw.json配置模型端点：

{ "models": { "providers": { "local-whisper": { "baseUrl": "http://127.0.0.1:9001", "api": "whisper-api" }, "kimi-vl": { "baseUrl": "http://127.0.0.1:5000/v1", "apiKey": "sk-no-key-required", "api": "openai-completions" } } } }

3.2 工作流技能开发

创建自定义技能multimodal-note：

# skill.py from openclaw.skills import BaseSkill class MultimodalNoteSkill(BaseSkill): def process(self, task): # 1. 语音转文字 audio_text = self.call_model( provider="local-whisper", input=task["audio_file"], task="transcribe" ) # 2. 图文理解 vision_output = self.call_model( provider="kimi-vl", messages=[ { "role": "user", "content": [ {"type": "text", "text": "解析图片中的PPT内容"}, {"type": "image_url", "image_url": task["image_file"]} ] } ] ) # 3. 综合生成 return self.call_model( provider="kimi-vl", messages=[ {"role": "system", "content": "你是一个专业会议纪要生成器"}, {"role": "user", "content": f""" 语音转录内容：{audio_text} 幻灯片解析结果：{vision_output} 请生成结构化会议笔记 """} ] )

4. 实战效果演示

4.1 测试数据准备

测试图片：包含3页技术架构图的现场照片（JPEG 2.1MB）
测试音频：18分钟的技术讲解录音（MP3 15.6MB）

4.2 执行过程观察

通过OpenClaw Web控制台提交任务：

openclaw task create \ --skill multimodal-note \ --param audio_file=/path/to/recording.mp3 \ --param image_file=/path/to/slide.jpg

在网关日志中可见清晰的路由轨迹：

[Router] 检测到音视频输入 → 分配至whisper-large-v3 [Whisper] 转录完成 (耗时2分17秒) [Router] 检测到图像输入 → 分配至kimi-vl-a3b-thinking [Kimi-VL] 返回幻灯片解析结果 (耗时31秒) [Router] 综合任务 → 二次路由至kimi-vl-a3b-thinking

4.3 输出结果示例

最终生成的Markdown笔记包含：

## 核心架构变更 - **视觉证据**：幻灯片第2页显示新增了缓存层设计 - **语音补充**：主讲人提到"引入Redis集群解决瞬时高峰问题" - **关联分析**：架构图显示缓存层位于API网关之后，与讲解一致

5. 工程实践中的经验教训

5.1 模型协作的时序控制

初期直接并行调用两个模型时，出现内存溢出问题（16GB内存被占满）。解决方案：

在OpenClaw技能中显式设置max_concurrency=1
添加预处理步骤检查文件大小：

def check_resources(task): audio_size = os.path.getsize(task["audio_file"]) / (1024 * 1024) if audio_size > 50: # MB raise ValueError("音频文件过大，请先分割")

5.2 多模态数据对齐

发现语音内容与幻灯片存在时间轴偏移问题。改进方案：

使用pydub对音频按静音片段分割
为每个片段单独关联最近的幻灯片图片

from pydub import AudioSegment from pydub.silence import detect_nonsilent audio = AudioSegment.from_mp3("recording.mp3") chunks = detect_nonsilent(audio, min_silence_len=1000, silence_thresh=-40)