当前位置: 首页 > news >正文

Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", Image.ofUrl("http://.../demo.jpg"))).call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", Audio.ofUrl("http://.../demo.jpg"))).call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", Video.ofUrl("http://.../demo.jpg"))).call();
http://www.jsqmd.com/news/58649/

相关文章:

  • 安卓开发 Log 日志不显示在androidstudio里
  • Python全栈项目:基于Django的电子商务平台编写
  • 06.Servlet容器
  • PbootCMS留言发送到邮箱,邮件标题如何修改
  • 23、【Ubuntu】【远程编写】内网穿透:SSH 反向隧道
  • 【STM32】定时器、PWM - 教程
  • 大模型安全:共享 GPU 本地内存泄露
  • React Hooks闭包陷阱导致的状态错乱,怎么办
  • MAF快速入门(4)多Agent工作流编排
  • 人工智能之数据分析 Pandas:第一章 简介和安装
  • Dbeaver - 一些好用的设置
  • 内存管理-54-slub-1-文档翻译等 - Hello
  • MYSQL - 数据库优化:慢查询
  • 完整教程:AI代码开发宝库系列:PDF文档解析MinerU
  • 2025年烤兰打包带厂家口碑排行,这十家备受推崇,打包带钢/光伏支架打包带/电镀锌打包带/铜棒打包带/镀锌打包扣烤兰打包带销售厂家推荐排行榜
  • 实用指南:海外短剧系统开发:应对高并发访问的数据库优化与缓存策略
  • 2025年12月AI SEO优化公司推荐:解锁智能搜索流量新密码
  • 易路:连锁餐饮人力资源数智化转型升级新引擎
  • 尘埃粒子计数器生产厂家联系电话,大流量尘埃粒子计数器/粒子计数器/尘埃粒子计数器/悬浮粒子计数器/尘埃粒子计数器厂家排名
  • 尘埃粒子计数器供应商推荐榜,台式粒子计数器/尘埃粒子计数器在线监测系统/大流量尘埃粒子计数器/尘埃粒子计数器公司电话
  • 2025年AI教育培训供应商推荐榜:聚焦企业AI培训,精选优质机构供参考
  • python笔记-循环
  • 2025年12月ChatGPT优化排名公司推荐
  • 2025年12月西安旧房翻新公司TOP5推荐:装修/家装/室内设计领衔企业
  • 2025年12月深圳艺考生文化课培训推荐:聚焦分层教学与艺考政策适配力!
  • 2025 美本留学机构十大推荐:全维服务护航,头部机构引领申请路
  • 2025年AI教育培训课程推荐榜:覆盖AI培训全场景指南
  • 2025污染源监测设备厂家有哪些,废气监测设备厂家有哪些测评
  • 2025年12月通道闸机、速通门品牌厂家TOP10榜单发布,选购指南同步更新
  • 模切机厂家有哪些?国内知名企业推荐