当前位置: 首页 > news >正文

底图法:让AI生成图像准确呈现文本和数字!

使用“底图”生成准确的文本和数字

发现了一种在AI生成图像中生成可靠文本和数字的技术。以目前最先进的图像模型而言,有一张图像被认为是无法生成的,但使用Gemini 3.0 Pro做到了(还有一个额外步骤,将在下面解释)。

底图法

给该方法起名为底图法,感觉它确实是个可行的方法。下面是一个简单的A/B测试,展示了使用和不使用该方法的效果。

测试要求为:生成一张游戏棋盘的图像,棋盘上有50块踏脚石,呈螺旋状排列,从外侧起点(1)开始逆时针向内盘旋,到中心终点(50)结束。每块石头都从1到50连续编号。风格:黏土动画模型,影棚灯光,糖果般明亮的色彩,柔和的背景虚化效果。

1.❌ Gemini 3 Pro(未使用底图法):乍一看令人印象深刻,但仔细查看就会发现问题。

2.❌ ChatGPT Images 2(未使用底图法):ChatGPT Images 2发布时给人留下了深刻印象,本以为它能完成这个任务,但令人惊讶的是,它和Gemini一样失败了。

3.✅ Gemini 3.0 Pro(使用底图法):成功了!数字正确,按钮数量和顺序正确,螺旋形状也正确。

它是如何工作的呢?

在为孩子制作一个100步冒险棋盘图像时想出了这个方法。

让确定性和生成性工具各展所长

1.SVG/HTML:能生成单调但数学精度极高的视觉效果。

2.图像生成模型:能生成令人惊叹的视觉效果,但在处理数学和文本方面不太可靠。

“给它一个轮廓,让它在上面作画”

1.第一层:“底图”(确定性):用喜欢的语言或格式(如SVG、Python、Mermaid)将数字和文本正确地布局在相应位置和方向上,只需导出包含数字和文本像素的图像即可。

2.第二层:“绘画”(生成性):使用像Gemini 3.0 Pro这样的多模态图像模型(需要图像 + 文本输入 → 图像输出),将底图和文本提示一起输入。

示例

1.步骤1:用SVG生成数字/文本轮廓:生成一个SVG图像,包含50块踏脚石,呈螺旋状排列,从外侧起点(1)开始逆时针向内盘旋,到中心终点(50)结束,每块石头从1到50连续编号。每块石头形状不同:圆形、方形、三角形、六边形。

2.步骤2:使用底图进行图像到图像的生成:将这张图像转换为一张拍摄的黏土动画模型,展示各种手工巧克力和糖果,呈螺旋状排列,从外侧起点(1)开始逆时针向内盘旋,到中心终点(50)结束,从低角度倾斜视角观看。

就是这么简单

这并不难。现在Claude Code或Codex可以为你完成每一步。

注意:这个方法很好,但并非每次都能达到完美效果。比如有张图里就有点小问题。

http://www.jsqmd.com/news/751955/

相关文章:

  • 如何在 Taotoken 控制台安全地管理多个项目的 API Key
  • 服务器GPU跑满100%?别慌!手把手教你排查并清除伪装成Python的nanominer挖矿病毒
  • AI系统架构设计实战:从理论到实践的完整解决方案
  • 5步掌握MuseTalk唇同步:从入门到精通的完整指南
  • 昆山祥泽瑞:常熟工字钢批发公司 - LYL仔仔
  • 字节面试官追问:“你的Agent调了三个工具就死循环了,异常处理在哪写的?”我:啊?还要写这个?
  • cpu_features:跨平台CPU特性检测的终极指南
  • 终极GPU显存健康检测指南:5分钟掌握memtest_vulkan专业诊断
  • 终极DevilutionX内存优化指南:从内存泄漏检测到性能飞升的实战案例
  • React Headroom 完全指南:如何创建智能隐藏的页面头部导航
  • 2026年宁波大学直属教学点深度测评报告 - 浙江教育测评
  • 终极开源解码器指南:LAV Filters如何彻底改变Windows媒体播放体验
  • 题解:AtCoder AT_awc0047_b Road Closure on a One-Way Street
  • 掌握八大网盘直链解析:LinkSwift全面实战指南
  • 告别重启!IDEA里用JRebel实现Java代码热更新(附自动编译设置避坑)
  • Business User Concept,SAP S/4HANA 中以 Business Partner 为核心的用户身份模型
  • 2026年天猫超市卡回收价格一览表 - 京顺回收
  • C++27文件系统库扩展应用案例(2024年唯一通过ISO WG21草案FCD阶段的生产就绪方案)
  • Microverse AI对话系统完全指南:从基础配置到高级定制
  • 终极指南:5分钟快速上手Sabaki,打造专业级围棋对弈环境
  • 如何在3秒内智能获取百度网盘提取码:免费高效工具终极指南
  • 闲置的京东e卡别浪费!最新回收价格参考 - 京顺回收
  • Agent Config Manager:跨平台AI助手配置迁移工具详解
  • OpenClaw 2.6.6 核心技能开启方法|高效办公实战攻略
  • 哈灵牛蛙面(复刻版)
  • 解放你的游戏时间:BetterGI原神智能助手终极指南
  • 2026 武汉专业防水公司TOP5推荐:卫生间、外墙、楼顶、地下室渗漏专业公司推荐(2026年5月武汉最新深度调研方案) - 防水百科
  • Asahi Linux虚拟化指南:在Apple Silicon上运行Windows 11虚拟机
  • AI辅助开发:让快马平台AI智能生成包含thisisunsafe安全提示的本地测试工具
  • 观察 Taotoken 在多模型间自动路由的稳定性与响应表现