当前位置: 首页 > news >正文

保姆级教程:将N8N升级为“全模态”神器,看图、听音样样行!

今天咱们来聊个超酷的功能:如何让你的 n8n 工作流“长眼睛”和“长耳朵”? 🧐

很多朋友在用 n8n 搭建 AI 应用时,发现不论怎么折腾,好像只能发文字。想发张图片让 AI 分析?或者发段语音让 AI 听听?对不起,不支持。🚫

别急!今天这篇教程就手把手教你,如何利用 全模态(Multimodal) 大模型,让你的 n8n 支持文本、图片、音频、视频的上传与多轮对话!

举个栗子 🌰:

1

我给 AI 发一张海报图,问它:“图里写了啥?”
它立马告诉我:“N8N 2.0 发布了”
是不是很赞?只要掌握了这个方法,音视频分析也统统不在话下!

废话不多说,咱们直接上干货!👇


视频演示

https://www.bilibili.com/video/BV1ynmwBYESL/


1️⃣ 打通“任督二脉”——开启文件上传 📂

首先,我们需要一个入口。

在 n8n 中添加 Chat Trigger(聊天触发器)节点。
⚠️ 注意: 默认情况下,这个聊天窗口只有“发送”按钮,是不支持上传附件的。

2

怎么破?
在 Chat Trigger 的设置里,找到 Allow File Uploads(允许上传文件)选项,把它打开!✅

设置好后,你会发现你的聊天窗口多了一个回形针图标 📎(或者上传按钮)。这就意味着,你的通道已经打通了,可以接受图片、音频和视频啦!

3


2️⃣ 选择“最强大脑”——配置 AI Agent 🧠

即使通道通了,如果你的大模型是个“脸盲”或者“听不懂”,那也没用。所以,我们需要一个支持全模态的大模型。

在 n8n 流程中:

  1. 下一步添加节点: 这里一定要选 AI Agent
    • 敲黑板:千万别选 Basic LLM Chain,那个通常只支持纯文本,不支持多模态操作。🙅‍♂️
  2. 设置 Model: 在 AI Agent 里,我们需要配置一个 Chat Model(聊天模型)。

3️⃣ 核心秘技——接入 Qwen-Omni (通义千问) 🔗

我们要选哪个模型呢?这就得用到阿里的百炼平台了。

  • DeepSeek:虽然很火,但目前 API 主要侧重文本和推理,全模态支持不是它的强项。
  • Qwen-Omni:这是阿里最新的全模态大模型,能看图、听音、看视频,选它准没错!

关键操作来了(必看): 🛠️

因为 n8n 原生可能没有直接的“百炼”节点,或者为了通用性,我们这里使用 OpenAI Chat Model 节点来“伪装”接入。因为百炼平台完美兼容 OpenAI 的协议!

操作步骤:

  1. 添加凭证 (Credentials):
    • 去阿里云百炼平台,注册并登录。
    • 在“API-KEY管理”里创建一个新的 Key,复制下来。
    • 在 n8n 的 OpenAI 凭证里,把这个 Key 填进去。
  2. 修改 Base URL:
    • 在百炼的模型广场找到 Qwen-Omni,点击“API参考”。
    • 复制那个 Base URL 地址。
    • 粘贴到 n8n 凭证设置里的 Base URL 栏目中。
  3. 连接测试: 点击 Save/Test,看到绿色小对勾 ✅ 就说明连接成功!

4️⃣ 实战演练——见证奇迹的时刻 ✨

连接成功后,回到 n8n 的 OpenAI Model 节点:

  1. 在模型列表(或者手动输入)里选择 qwen-omni-turbo (或者日期后缀的最新版,如 12 月份的版本)。
  2. 关闭杂项: 那些联网搜索、文件搜索的高级功能这次用不上,统统关掉,我们只测多模态。

测试开始! 🚀

  1. 打开聊天窗口。
  2. 上传一张包含文字的图片(比如 n8n 2.0 的海报)。
  3. 输入指令:“提取图片中的文字”。
  4. 点击发送!

结果展示:

1

大模型迅速识别并回复:“这张图片显示的是 n8n 2.0 发布了。”
我核对了一下原图,完全相符! 💯


📝 总结

想要实现 n8n 全模态,必须满足两个条件,缺一不可:

  1. 入口支持:Chat Trigger 开启文件上传。
  2. 模型支持:后端必须连接支持全模态的模型(如 Qwen-Omni)。

搞定这两步,你的 n8n 就不再是只会打字的机器人,而是能看能听的超级助手了!视频和音频的原理是一样的,大家课后可以自己去试一试。

好啦,今天的教程就到这里。我是磊哥,咱们下期再见! 👋


觉得有用的话,记得点个在看支持一下哦! ❤️

本文已收录到我的技术小站 www.javacn.site,网站包含的内容有:LangChain/N8N/SpringAI/SpringAIAlibaba/LangChain4j/Dify/Coze/AI实战项目/AI常见面试题等技术分享,欢迎各位大佬光临指导~

http://www.jsqmd.com/news/66884/

相关文章:

  • 2025耳机抓取机械手品牌推荐:苏州柔触柔性夹爪的技术突破与应用
  • 2025年抽检验货企业权威推荐榜单:工艺品验货‌/产品检验‌/验货监装‌‌源头企业精选
  • 基于TI F28027 DSP实现光伏MPPT闭环控制
  • Shell脚本实用技巧|运维必备的10个脚本
  • 2025年性价比高的 GEO 服务商有哪些?:权威精选测评推
  • 盘点2025年楼板搭建优质公司,口碑与实力并存,别墅现浇/现浇楼梯/现浇钢筋混凝土楼板/阁楼现浇/现浇搭建楼板搭建公司哪个好选哪家
  • 2025年铱金火花塞供应商推荐、火花塞源头工厂排名全解析
  • 2025年度英国移民实力强的机构TOP5权威推荐:甄选企业助
  • 贝力达光电缆有限公司的产品质量怎样?产品价格合理不?
  • 2025年靠谱的打包机供应商推荐:五大实力强的纤维与油压打包
  • 哈尔滨律师事务所选哪家
  • 深度剖析闸机租赁领域三大常见陷阱,揭示闸机租赁源头厂商的服务模式与产品优势。
  • 2025 企业知识库部署新选解析:Deepseek 知识库部署服务商 + BI 私有化部署方案商,AI 知识库部署厂商技术实践指南
  • 2025 企业知识库部署新选解析:Deepseek 知识库部署服务商 + BI 私有化部署方案商,AI 知识库部署厂商技术实践指南
  • 避免故障风险:工业机器人胶粘剂品牌比较与选择技巧
  • 哈尔滨律师事务所哪家靠谱
  • 安卓松绑未验证应用安装:这波操作到底香不香?
  • 人工智能辅助的软件开发生命周期。
  • 2025工业安全锁具TOP5权威推荐:工业安全锁具来样定制实
  • 2025年口碑排名靠前的 GEO 公司:权威TOP10精选推
  • 哪些结构胶适合新能源电池组件粘接?多维度解析与行业方案参考
  • 肝病医院哪家好?按诊疗需求精准匹配9所权威机构
  • 2025年生物标本企业TOP5推荐:河南大科甘草浸制标本、实
  • 2025年大型 GEO 公司有哪些推荐?:十大官方榜单解析
  • 2025年生物实验标本定制服务公司推荐:专业生物实验标本定制
  • 2025年GEO 公司怎么收费合理?:深度报告与攻略揭秘
  • 2025 Deepseek 知识库 + BI 私有化部署实力厂商推荐 (12 月更新):企业智能 BI 私有化部署厂商 / AI 知识库部署方案商全覆盖
  • 2025年汽车停车棚工厂权威推荐榜单:自行车停车棚‌/充电桩车棚‌/运动场看台膜结构‌‌源头工厂精选
  • 2025年五大专业上料机厂家推荐:正规供应商实力解析与选型指
  • 不用死磕语法!MATLAB R2024b 下载安装教程 实时纠错 + 一行批量处理,新手也能快速上手