当前位置: 首页 > news >正文

GPT Image 2研究科学家陈博远:我在OpenAI修中文

西风 转载整理自 知乎
量子位 | 公众号 QbitAI

GPT Image 2的发布给整个AI圈带来了亿点点震撼。

但很多人可能没注意到,幕后最会玩梗的居然是他——主力训练者陈博远

他和奥特曼同台主持,悄悄修好了中文渲染;给模型起代号“布基胶带”,还拿香蕉艺术品玩梗;为了秀模型的文字能力,设计了米粒刻字、漫画套娃、视觉证明题这些“彩蛋级”测试。

这篇分享里,他把官网展示图片的幕后花絮全抖了出来,又好笑又细节控狂喜。

本文经授权转载,以下为原文:

我在OpenAI修中文

大家好,我是GPT Image团队的研究科学家陈博远。上周发布的GPT生图模型就是我主力训练的!

这次终于轮到我和奥特曼一起主持发布会。很高兴这次修好了模型的中文渲染!如果大家有什么反馈可以直接回复我哦。

图1中是我在发布会上的直播(不过多语言能力是直播后半节,国内媒体好像并没有发现只有我才是国人QwQ)。这次特意用图片生成了整个官网blog,背后有很多花絮很好玩。


陈博远(左二)在OpenAI GPT Image 2发布会上和山姆奥特曼演示文字渲染能力

我们的模型在发布前用duct-tape的代号在LMArena上进行了双盲测试。这个代号也是我起的,意思是布基胶带,也就是下面这个东西:


duct tape翻译过来叫布基胶带,不过国内不常见

至于为啥起名叫布基胶带嘛..当然是因为你可以用布基胶带把香蕉贴在墙上啦!


那幅世界闻名的艺术品,就是用布基胶带把香蕉贴在墙上

当然,结果也是在双盲测试中断崖领先了代号为小香蕉的第二名。

除此之外我花时间做了好多我们官网上的图片。整个Blog都是用图片生成的,完全没有文本。

下面这些图都是我亲手做的!每张图的背后都有很多思考,这里也像艺术家一样和大家展示下。

然后是我们的中文彩蛋。

当时特别想做一个很搞笑的漫画,于是想到了接住梗和香蕉梗。当然,为了秀一下文字能力,我特意让他用多国语言加了很多文字,并且家乡海报的右下角让他生成特别特别小的中文来测试到底能多细节。

我为了让模型做一些只有我们才做得到的事情,特意让它生成的图要看起来像是一张对着一本真的漫画书拍的照片。

这整张图,包括画中画和画中画中画都是一次性生成的。我设计完以后担心大家觉得这是张拼接图,于是特地在图底加了备注。

思来想去,这样的文字渲染其实还是不够惊艳。

在队友的提示下我做了一张4K图(为了节省大家的流量压缩了一点点)。内容是一堆米粒,但是其中的一颗上面刻着字。你能找到吗?


这张日语漫画也是我做的。

当时想做一个和GPT图片生成相关的漫画。当时做了一张和香蕉有关的巨搞笑的漫画,但是感觉放在官网上不太合适。于是最后还是用了另一种方式把漫画和GPT生图联系在一起。

我构思了羽毛笔这个主题,剩下的只有很简单的提示词,告诉他构思“戏剧化”的漫画。

更多杂志页,这张是和同事一起做的。思路是让生图模型用一些真实的物体结合艺术的布局。这样既可以体现模型的对真实世界的还原,又不失设计感。

做下面这张图的时候,我在想到底有什么东西能突出我们模型在思考能力上的进步。

如果让他解普通数学题方程啥的,似乎就太简单了。Nano Banana似乎通过思考模式+文字渲染的方式也能做。

于是我想到了我非常喜欢的一个视觉证明来真正考验GPT Image 2独特的视觉推理效果。

图里提示词说的是,在黑板上用视觉(而不是代数)证明从1开始的奇数之和是一个平方。普通的模型其实很容易推理出代数解,但是图形解只有视觉模型才能做了。

最后这张图展示的是搜索能力,要去我们官网的商店里找内容做一个海报。

直播里我们还展示了Thinking mode自动生成二维码放进图片里,其实背后有个彩蛋,当时展示的二维码扫进去的前若干个人可以获得一个免费小奖品。

最后的最后还是要感谢团队的齐心协力!每个人都做了很多很多的事情。

在发布前的尾声,我除了在修一些小东西就是和市场部门的同事还有做艺术的同事一起准备发布会和这个网站,他们真的是我见过的最强大的合作者了,也让我们最后才有了这么漂亮的网站。

希望这回稳稳地接住了大家!

《我在OpenAI修中文》:
https://zhuanlan.zhihu.com/p/2033191141806437343

欢迎AI产品从业者共建

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 👇 点亮星标

http://www.jsqmd.com/news/737581/

相关文章:

  • 毕业不焦虑:百考通AI双管齐下,轻松搞定查重与AIGC率
  • 【2026信创攻坚关键一步】:VSCode国产化适配的5大技术卡点——从字体渲染崩溃到GPU加速失效,全部源自某部委真实压测报告
  • 告别编译恐惧:用Meson+Ninja从零构建Mesa 22.x的完整指南(附常见错误排查)
  • Oura 5 月 6 日推生殖健康新功能,考虑激素避孕因素助力经期女性健康管理
  • PotatoNV终极指南:免费解锁华为设备Bootloader的完整教程
  • 网络排障必备技能:手把手教你用Wireshark分析ARP欺骗与IP冲突(附真实数据包解读)
  • 毕业季终极助手:百考通AI如何用“查重+AIGC检测”双引擎,为你的论文保驾护航
  • 2026年AI搜索生成式引擎GEO优化行业主流服务商3强竞争力深度分析报告 - 商业小白条
  • Win10更新后桌面黑屏别慌!教你用任务管理器+注册表三步修复Explorer进程
  • 避坑!SEED-XDS560V2PLUS仿真器安全模式退出失败?你可能缺了这几个关键DLL文件
  • NSC_BUILDER终极指南:Nintendo Switch文件处理的完整解决方案
  • Windows系统丢失D3DCompiler_47.dll文件无法启动程序解决
  • MediaPipe TouchDesigner插件完整解决方案:从安装到性能优化的专业指南
  • 终极指南:如何使用2048 AI实现游戏自动求解与智能决策
  • 从龙芯3A3000手册到实战:聊聊DCDC电源纹波超标如何让CPU‘罢工’
  • 基于LLM Agent的自主交易系统TradeClaw:从架构到实战部署
  • DEEPTRACEREWARD数据集与AI视频伪造检测技术解析
  • 3步搞定:roop-unleashed开源AI换脸工具让你的创意表达翻倍
  • DownKyi完全指南:三步搞定B站8K视频下载与高效管理
  • 5步掌握ColorControl:跨设备显示控制与电视协同终极指南
  • 怎样高效使用Python脚本:3步完成京东商品自动化抢购
  • IwaraDownloadTool:终极视频下载解决方案 - 一键批量保存心仪内容
  • 用PyTorch复现一个“工业级”时间序列预测流程:从数据预处理、移动平均、ARIMA调参到LSTM融合的完整实战
  • AI驱动Zotero文献管理:CLI与MCP模式实战指南
  • DNS自动化管理利器:OpenClaw DNSRobot实战指南
  • Python 描述符协议:从一个点号到语言核心机制
  • OpenClaw注释用法:龙虾智能体代码注释规范(提高可读性)
  • 为内容创作平台集成 Taotoken 实现多种风格的文本生成
  • 苹果 Mac mini 和 Mac Studio 供应短缺,AI 需求超预期或需数月平衡供需
  • 如何快速掌握开源LRC歌词制作工具:零基础实战教程