当前位置: 首页 > news >正文

SkyReels-Text:Fine-grained Font-Controllable Text Editing for Poster Design

1.introduction

专业工作流中一个关键要求是能够快速修改文本内容,同时保持原始的视觉和谐,排版身份和美学意图,这不仅要求精准的字符展示,还需要对字体家族和风格细微差别的精细控制,尤其是在处理像手写文本这样复杂的文字。

seedream4,qwen-image目前的模型在精细化,字体感知的文本编辑时仍存在根本性的局限,这些模型能够将参考字体文本作为视觉上下文进行结合,然而他们常常无法正确编辑文本内容或准确的将参考排版转移到目标位置。

fluxtext这样的模型将显式的视觉先验(例如渲染的文本内容,位置掩码)注入到强大的DiT主干中,他们缺乏接受用户提供的由visual patch提取的任意字体风格的机制,无法提供对输出排版的精细控制,无法保证编辑后的文本将准确模仿给定参考的字体风格。Skyreel-text是一种新颖的字体可控框架,用于微调文本编辑,可实现精确的文本内容修改,同时保持排版风格。

2.Related work

通用模型的一个主要限制在于它们主要处理广泛的图像编辑任务,因此,它们在可靠文本编辑,特别是在字体转移场景中的特定健壮性不足。

Imagen采用大规模语言模型(T5-XXL),引入字形感知条件,GlyphDraw和GlyphControl使用字形图像来指导字符渲染,TextDiffuser则利用OCR生成分割掩码,AnyText和DreamText进一步丰富了对样式的控制,FluxText和TextFLUX基于flux基础模型构建,像DiT骨干网络注入字形先验(渲染的字形和位置掩码),以增强flux的文本生成能力。SkyReels-Text利用用户提供的字形补丁作为视觉参考,而不是单纯依赖文本提示或内部字形先验,从而实现可控字体的文本编辑。

3.Methods

3.1 Preliminary

3.2 Data Processing

合成数据很多问题,从设计平台和公共资源库收集了真实的海报,

现有的ocr模型对装饰性书法字体或展示不贵咋笔画和非标准空间布局的自定义字形很难识别,因此选择对Qwen2.5-vl 7B模型进行微调,该模型在解析图像中非标准文本模式方面表现出色。

风格迁移学习中的一个关键挑战是内容干扰,具体来说,模型常常混淆文本中某些字符的内容和风格特征。为了解决这个问题,设计了一个专用的数据生产管道。

最终创建一个10w样本的配对图像和参考字体。

3.3 Font-Controllable Text Editing

3.4 Text-Region Weighted loss

3.5 Distillation for fast inference

使用DMD2对skyreels-text进行了8步蒸馏。

4.Experiments

4.1 Implementation Details

4.2 Evaluation Dataset

4.3 Evaluation Metrics

4.4 Compare with sota

4.5 Ablation studies

http://www.jsqmd.com/news/500467/

相关文章:

  • 石蜡切片 VS 冰冻切片:一文读懂两者的核心差异与选择策略
  • AI生成课程论文靠谱吗?实测12款一键生成论文的软件教程,效率翻倍告别熬夜! - 掌桥科研-AI论文写作
  • 2026年执业药师备考刷题APP深度测评:6款主流工具优势解析,帮你选对提分神器 - 孤篇横绝
  • Keysight E4990A阻抗分析仪MLCC陶瓷电容器介电温谱测试
  • VUE + 操作系统的生命周期的庖丁解牛
  • 2026年无锡劳动工伤律师团队深度盘点:如何选择与联系专业维权伙伴? - 2026年企业推荐榜
  • java基于springboot微信小程序的大学生心理音乐治疗的设计与实现
  • 【2026年-11期】Where lies the future of humanity in the age of AI?
  • 阿里云AI算力服务涨价,背后原因与市场影响几何?
  • 开服即被打瘫痪?湘情盾:让攻击者“找不着北”,这次新服稳了!
  • 数据解读:2026年连云港智能化工程服务市场与优选策略 - 2026年企业推荐榜
  • 进阶11 翻译50 单词43
  • 58万票!星特杯投票进入冲刺阶段
  • AI生成论文AI率高么?9款写论文的AI工具亲测,查重率仅3%超低! - 掌桥科研-AI论文写作
  • GNS3 入门指南
  • 储能系统——04 升压换流一体机和箱变设计分析
  • Hot100 贪心算法解析(更新中)
  • 6ES7416-2XK02-0AB0西门子中央处理单元
  • 配电箱成套定制服务商深度解析:2026年市场格局与选型指南 - 2026年企业推荐榜
  • Weblogic下载使用全流程(附安装包)
  • 无人机可靠性困局的工程解:以六西格玛体系重构“设计-制造”一致性
  • 聊聊2026年北京美容院服务,哪家品牌口碑好且价格合理 - 工业设备
  • AI建站工具避坑指南:10个高频问题与真相解答,帮你少走弯路
  • Chrome浏览器整页截图方法(MacOS)
  • 2026年发动机缸盖工厂推荐:动力总成核心部件质量稳定口碑好工厂盘点 - 十大品牌推荐
  • 2026年兰州西宁内蒙等地电力检查井制造商排名,靠谱的有哪些 - 工业推荐榜
  • day2 数据类型和转换以及运算符
  • 储能数字孪生案例_国产三维可视化软件实践
  • 天梯赛L2题解(001-004)
  • 毕设程序java邯郸高铁服务系统 燕赵门户·邯郸智慧轨道交通服务平台 基于SpringBoot的区域高铁综合服务管理系统