当前位置: 首页 > news >正文

如何像使用Openai API那样使用豆包的图片和视频API

图片

下面给出测试的代码:

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_image","image_url":"https://ark-project.tos-cn-beijing.volces.com/doc_image/ark_demo_img_1.png"},{"type":"input_text","text":"支持输入图片的模型系列是哪个?"},],}])print(response)

下面这一段非常重要,需要使用load_dotenv, 后面才是api_key = os.getenv('ARK_API_KEY')

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass

上面代码运行结果如下:成功运行

Response(created_at=1768285927, error=None, id=‘resp_0217682859270354fe949375ac26682761f342713cef332331e7d’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-8-251228’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828592773000000000000000000000ffffac15433f3bceef’, summary=[Summary(text=‘用户现在需要解决的问题是找到支持输入图片的模型。首先看表格,输入列里的图像这一栏,Doubao-1.5-vision的图像输入是√,其他两个是×。所以看表格里的行,Doubao-1.5-vision的输入图像是支持的,所以答案是这个模型。现在整理一下,看清楚表格内容:\n\n模型系列里,Doubao-1.5-pro的输入图像是×,lite也是×,vision是√,所以支持输入图片的是Doubao-1.5-vision。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘查看表格的“输入-图像”列可以看到:\n- Doubao-1.5-pro:×,不支持\n- Doubao-1.5-lite:×,不支持\n- Doubao-1.5-vision:√,支持\n\n所以支持输入图片的模型系列是Doubao-1.5-vision。’, annotations=None)], status=‘completed’, id=‘msg_02176828593083100000000000000000000ffffac15433f899bcc’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=494, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=199, output_tokens_details=OutputTokensDetails(reasoning_tokens=124), total_tokens=693, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545127, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

原图像是

视频

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_video","video_url":"https://ark-project.tos-cn-beijing.volces.com/doc_video/ark_vlm_video_input.mp4","fps":1}],}])print(response)

结果

Response(created_at=1768286241, error=None, id=‘resp_021768286238926d6b0e46812eb6ca5f421e6552139c58ccacbf7’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-6-251015’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828624193000000000000000000000ffffac15b0a93b6234’, summary=[Summary(text=‘\n用户现在需要我把这个视频的内容描述出来,要详细一点。首先看视频里的元素:大本钟(伊丽莎白塔),伦敦的街道,车流,时间应该是傍晚或者清晨,因为天色有点暗但有光线。首先,画面的主体是大本钟,它在左侧,建筑风格很经典。然后右侧是繁忙的街道,有很多车,包括红色的双层巴士,这是伦敦的标志。背景是城市天际线,高楼大厦,天空有云,颜色是暖色调,可能是日落时分。\n\n接下来看时间流逝:视频里时钟的指针在移动,说明时间在变化。车流也在持续移动,红色巴士向前行驶。画面右下角有“AI生成”的字样,所以要提到这是AI生成的视频。\n\n需要把这些元素组合起来,描述每个部分的动态和静态。比如大本钟的细节,街道的繁忙,车辆的流动,时间的变化,整体的氛围。要注意顺序,从整体到局部,或者按空间位置来描述。\n\n现在组织语言:视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。\n\n检查一下,有没有遗漏的细节?比如车流的方向,大本钟的位置,天空的颜色,时间的变化(指针移动),红色巴士的存在。这些都提到了。然后确保描述流畅,符合视频的实际内容。嗯,应该可以了。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。’, annotations=None)], status=‘completed’, id=‘msg_02176828625371100000000000000000000ffffac15b0a96c6d48’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=10385, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=532, output_tokens_details=OutputTokensDetails(reasoning_tokens=408), total_tokens=10917, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545438, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

后记

2026年1月13日于上海。

http://www.jsqmd.com/news/240194/

相关文章:

  • 财务管理专业兼职忙到飞起?提前准备这2项能力,兼顾赚钱与提升
  • 开发者首选:2025年最受推荐的3大CAPTCHA解决方案
  • Anthropic推出Claude医疗版AI,可安全接入健康记录
  • 拥有PMP证书等于拥有“人才绿卡”
  • 2026年网络安全相关专业就业,零基础入门到精通,看这一篇分析就够了
  • 高质量电缆输送机,电缆敷设方案提升专家
  • 物理AI成为下一个前沿:已经融入我们的日常生活
  • Guava Cache 原理与实战
  • 机器学习工程师证书:智能制造时代入门票
  • 安达发|当APS计划排产排程排单软件,遇上最硬核的煤炭排程
  • 自变量机器人获10亿融资,开源千寻模型登顶全球,欧姆龙升级工业机器人,OpenAI与丰田合作车载场景
  • 基于PLC的污水处理系统 程序文件 文档资料(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)
  • Godot:独立开发者的开源超能力
  • 脑机接口行业发展报告:政策加码,临床加速,产业化进入关键阶段
  • 如何用耐达讯自动化Profibus总线光纤中继器解决变频器长距离通信干扰问题?
  • 别让“不介入他人因果”成为冷漠的遮羞布
  • 行李电子秤pcba方案开发设计
  • 域名信息查不到,是被屏蔽了吗?
  • 全网最全8个AI论文写作软件,研究生高效选题与格式规范必备!
  • 上海精密机械工厂10个研发设计共用一台SolidWorks工作站
  • 域名中介和自己谈,有什么本质区别?
  • 当AI开始“淘汰”与“成就”:我们拆解出AGI重塑产业的五个逻辑 | 2025 想象·AGI产业全景报告发布
  • - Kappa架构:利用Kafka锻造的屠龙刀
  • 漫画说:为什么你的“增量计算”越跑越慢?——90%的实时数仓团队都踩过的坑,藏在这几格漫画里
  • 计算机专业学生考研失败如何快速就业?二战VS就业?
  • Science子刊超绝idea:注意力机制+强化学习!足式机器人障碍穿越首次达成 100% 成功率
  • GISer大事件,保研考研竞赛时间线一览
  • AI手势识别输出数据结构解析:JSON格式调用实战
  • 新年第一缕阳光,在牯牛山之巅迎接
  • 用Python思维写Verilog:轻量级行为描述到RTL自动生成器设计