支持 GPT5.5+GPT-Image-2 合一中转
支持 GPT5.5+GPT-Image-2 合一中转:图像生成接口接入实操
做图像生成接入时,最容易踩坑的不是“怎么调接口”,而是文本模型和图片模型分开走两套配置:一个接口负责改提示词,一个接口负责出图,鉴权、限流、日志都要重复处理。实际项目里更常见的做法,是把 GPT5.5 用来整理 prompt、生成描述,把 GPT-Image-2 用来生成图片,中间用统一的中转接口承接,这样前端和业务服务只维护一套调用逻辑。
如果你已经接了文本对话接口,但图片一直返回 400、图片尺寸不对、批量任务偶发失败,建议先查三件事:模型名是否传对、图片参数是否符合接口约束、失败重试是否把同一个任务重复扣费。
一、典型使用场景
GPT5.5+GPT-Image-2 合一中转比较适合下面几类场景:
- 电商商品图:先用文本模型把商品卖点转成画面描述,再调用图片模型生成主图或场景图。
- 内容运营配图:文章标题、摘要交给 GPT5.5 扩写成 prompt,GPT-Image-2 输出封面图。
- 批量海报生成:后端按任务队列逐条生成,统一记录状态、耗时和失败原因。
- 内部工具:给运营同事一个简单页面,输入主题、风格、尺寸即可生成图片。
如果团队不想分别维护多个上游 key,中转层会省不少事。我自己接图像接口时,一般会优先选能同时支持文本和图片模型的服务,例如 token 云桥 AI 中转站 0029.org,这类合一入口适合先把业务跑通,再根据稳定性和成本继续优化。
二、接口调用流程
推荐的流程是:业务输入 → GPT5.5 整理 prompt → GPT-Image-2 生成图片 → 保存结果 → 返回图片 URL 或 base64。不要直接把用户输入原样丢给图片模型,尤其是批量生成时,prompt 不稳定会直接影响成本和出图质量。
1. 先整理文生图提示词
下面示例用 GPT5.5 把用户输入整理成更适合图像生成的描述。注意这里只做结构化和补充,不要让它输出太长,否则后续图像接口容易因为 prompt 过长失败。
### token云桥中转 0029.org ### curl -X POST "https://your-relay-domain/v1/chat/completions" \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-5.5", "messages": [ { "role": "system", "content": "你负责把用户需求整理成适合文生图的简洁提示词,包含主体、场景、风格、光线、构图,不要超过120字。" }, { "role": "user", "content": "给一款黑色机械键盘生成电商主图,科技感,适合详情页首屏" } ], "temperature": 0.4 }'拿到整理后的 prompt 后,再进入图片生成接口。实际工程里建议把整理后的 prompt 入库,便于复现问题。
2. 调用 GPT-Image-2 生成图片
图像生成参数不要一次塞太多,先固定尺寸和质量,确认稳定后再开放给前端。一个基础请求可以这样写:
curl -X POST "https://your-relay-domain/v1/images/generations" \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-image-2", "prompt": "黑色机械键盘,悬浮在深色金属桌面上,蓝紫色科技光效,产品摄影风格,居中构图,高清细节,适合电商详情页首屏", "size": "1024x1024", "quality": "standard", "n": 1, "response_format": "url" }'如果业务要直接存对象存储,可以让接口返回 URL 后由服务端下载;如果返回 base64,要注意响应体会明显变大,网关和日志系统不要完整打印。
三、文生图参数怎么选
尺寸 size
尺寸优先按业务场景选,不要盲目上大图。常见选择:
1024x1024:通用方图,适合商品图、头像、封面素材。1024x1536:竖图,适合手机海报、小红书风格配图。1536x1024:横图,适合博客封面、Banner 初稿。
如果下游还会二次裁剪,建议先生成略大一点的比例图,再由图片服务裁切,避免直接生成小图导致细节不够。
质量 quality
质量参数一般会影响耗时和成本。开发阶段建议用standard,上线前再对关键场景测试更高质量。不要把高质量默认开放给批量任务,否则成本很难控。
生成数量 n
n不建议一开始设太大。运营场景看似需要“一次出 4 张”,但接口失败时重试成本会放大。更稳的做法是后端拆成多条任务,每条n=1,这样失败只重跑单张。
四、批量生成与失败重试
批量出图不要在一个请求里循环打满接口,最好走队列。基本结构如下:
// 简化示例:Node.js 批量任务伪代码 const tasks = [ { id: 1, prompt: "黑色机械键盘,科技感主图" }, { id: 2, prompt: "白色无线鼠标,极简办公桌面" } ]; for (const task of tasks) { try { const result = await generateImage({ model: "gpt-image-2", prompt: task.prompt, size: "1024x1024", quality: "standard", n: 1 }); await saveImageResult(task.id, result); } catch (err) { await markRetry(task.id, err.message); } }重试要区分错误类型:
- 参数错误:例如尺寸不支持、模型名写错,这类不要重试,直接标记失败。
- 限流错误:等待 5 到 30 秒再重试,重试次数建议不超过 3 次。
- 网络超时:先查任务是否已生成结果,避免重复提交。
- 内容被拒:记录 prompt,交给人工或规则系统改写,不要无限重试。
比较实用的做法是给每个任务生成一个业务侧request_id,写入日志和数据库。即使中转层没有幂等能力,自己也能根据任务状态避免重复扣费。
五、成本和稳定性建议
图像接口的成本通常比纯文本更敏感,尤其是批量海报、商品图这种需求。几个经验:
- 先用 GPT5.5 压缩和规范 prompt,减少无效出图。
- 开发、预览、批量草稿默认用标准质量。
- 高质量只给最终确认、付费用户或重点任务使用。
- 失败重试要有上限,并把错误原因展示给运营人员。
- 图片生成完成后尽快转存自己的对象存储,不要长期依赖临时 URL。
稳定性方面,建议在后端加超时控制,例如 60 到 120 秒。前端不要一直等待接口返回,可以先创建任务,返回任务 ID,再轮询任务状态。这样即使生成时间变长,页面也不会卡死。
六、常见问题排查
1. 返回 400
优先检查 JSON 格式、模型名、尺寸、质量参数。很多 400 不是服务不可用,而是字段写错。例如把gpt-image-2写成了别的形式,或者传了接口不支持的尺寸。
2. 图片风格不稳定
检查 prompt 是否每次都过于随意。建议固定模板:主体、场景、风格、光线、构图、限制项。比如“不要文字、不要水印、不要多余人物”这类约束可以放在末尾。
3. 批量任务偶发超时
先看并发数。图片接口不适合无脑高并发,建议从 2 到 5 个并发开始压测,再逐步增加。队列里要记录开始时间、结束时间、重试次数和最终状态。
4. 返回 URL 但下载失败
检查服务端是否能访问图片地址,是否被公司网络或代理限制。生产环境建议后端拿到 URL 后立即下载并上传到自己的存储,再把自有 URL 返回给前端。
总结
GPT5.5+GPT-Image-2 合一中转的关键,不只是把两个模型接起来,而是把 prompt 整理、图像参数、批量队列、失败重试和成本控制一起设计好。先用小尺寸、标准质量、低并发跑通链路,再逐步开放更高质量和批量能力,整体会稳很多。
