当前位置: 首页 > news >正文

【字节拥抱开源】ByteDance-Seed开源连续潜在扩散语言模型——Cola DLM

Cola DLMContinuousLatentDiffusionLanguageModel)是一种分层连续潜空间扩散语言模型。它将文本自编码器(Text VAE)与基于块因果关系的扩散变换器(DiT)先验相结合:自编码器将文本映射为连续的潜在序列,并将潜在序列解码回令牌;而扩散变换器则通过流匹配(Flow Matching)实现潜在先验的传递。

本模型仓库包含论文《连续潜在扩散语言模型》的 HuggingFace 格式检查点。

链接

  • 模型仓库:https://huggingface.co/ByteDance-Seed/Cola-DLM
  • GitHub仓库:https://github.com/ByteDance-Seed/Cola-DLM
  • 论文:https://arxiv.org/abs/2605.06548
  • HuggingFace每日论文:https://huggingface.co/papers/2605.06548
  • 项目主页:https://hongcanguo.github.io/Cola-DLM/
  • 博客文章:https://hongcanguo.github.io/posts/2026-cola-dlm.html
  • 知乎文章:https://zhuanlan.zhihu.com/p/2038324180920313704

模型文件

预期的仓库目录结构为:

. ├── cola_dlm/ │ ├── cola_dit/ │ │ ├── config.json │ │ └── model.safetensors* │ └── cola_vae/ │ ├── config.json │ └── model.safetensors* ├── tokenizer.json ├── README.md └── README_zh.md

检查点由两个协作模块组成:

  • ColaDiTModel:一个块因果一维扩散变换器,用于连续文本潜在空间的先验建模。
  • ColaTextVAEModel:一个文本变分自编码器,包含编码器和条件解码器,实现文本到潜在空间及潜在空间到文本的双向映射。

快速开始

从GitHub仓库安装Cola DLM代码包,然后安装下载辅助工具:

gitclone https://github.com/ByteDance-Seed/Cola-DLM.gitcdCola-DLM pipinstall-e.pipinstallhuggingface_hub

下载模型文件:

huggingface-cli download ByteDance-Seed/Cola-DLM --local-dir hf_models

运行一个最小的Python示例:

importtorchfromtokenizersimportTokenizerfromcola_dlmimport(ColaDiTModel,ColaTextVAEModel,generate_task_repaint_inference,)device=torch.device("cuda"iftorch.cuda.is_available()else"cpu")dit=ColaDiTModel.from_pretrained("hf_models/cola_dlm/cola_dit").to(device)vae=ColaTextVAEModel.from_pretrained("hf_models/cola_dlm/cola_vae").to(device)tokenizer=Tokenizer.from_file("hf_models/tokenizer.json")prompts=[{"question":"Question: What is the capital of France? Answer:"}]results=generate_task_repaint_inference(dit=dit,vae=vae,tokenizer=tokenizer,prompts=prompts,task_name="lambada",device=device,max_new_tokens=32,temperature=0.0,guidance_scale=7.0,timestep_num=16,pad_token_id=100277,)print(results[0]["generate"])

OpenAI 兼容服务

Cola DLM 代码版本中的配套openai_adapter/服务通过 OpenAI 兼容的 Chat Completions 端点公开此模型:

POST /v1/chat/completions

从代码仓库根目录安装适配器依赖项:

pipinstall-e.pipinstall-ropenai_adapter/requirements.txt

启动服务:

exportCOLA_DIT_PATH=hf_models/cola_dlm/cola_ditexportCOLA_VAE_PATH=hf_models/cola_dlm/cola_vaeexportCOLA_TOKENIZER_PATH=hf_models/tokenizer.jsonexportCOLA_MODEL_NAME=cola-dlmexportCOLA_API_KEY=change-me uvicorn openai_adapter.server:app--host0.0.0.0--port8000

然后发送一个请求:

curlhttp://127.0.0.1:8000/v1/chat/completions\-H"Content-Type: application/json"\-H"Authorization: Bearer change-me"\-d'{ "model": "cola-dlm", "messages": [ { "role": "user", "content": "Question: What is the capital of France? Answer:" } ], "temperature": 0, "max_tokens": 32, "stream": false }'

该适配器目前支持非流式补全功能。

模型详情

  • 架构:文本VAE + 块因果DiT潜在先验
  • 训练目标:两阶段训练(先进行文本VAE预训练,再通过流匹配进行文本VAE与DiT联合训练)
  • 训练算力节点:发布权重对应论文RQ4扩展曲线中2000 EFLOPs的检查点
  • 分词器:OLMo 2分词器(词汇量100,278词条)
  • 特殊标记ID:填充标记=100277结束标记=100257im_end标记=100265
  • 框架:PyTorch 2.1+ 和 HuggingFace Transformers 4.40+
  • 许可:Apache 2.0许可证

评估结果

开源推理实现的零样本基准测试结果:

任务准确率(%)
LAMBADA50.80
MMLU19.30
OBQA23.00
HellaSwag10.70
RACE19.60
SIQA28.90
SQuAD30.90
Story Cloze30.77
任务平均26.75

开源HuggingFace实现与论文内部实现可能存在细微差异,各任务数值会有小幅波动,但整体趋势与论文一致。

使用范围

Cola DLM主要用于以下研究领域:

  • 分层潜变量语言模型
  • 文本连续潜在扩散
  • 流匹配先验
  • 基准式文本生成

该检查点未经过指令微调且未进行RLHF处理,不应视为生产级聊天机器人或用于安全关键决策。

局限性

  • 主要基于英文文本训练,其他语言评估不足
  • 输出可能包含事实错误、冒犯内容、偏见或幻觉
  • 生成质量对提示格式和长度敏感,建议采用"问题:...答案:"式提示进行快速评估
  • 生成时使用可变KV缓存,服务实现需在单进程内序列化生成(除非显式隔离缓存处理)

引用

如果您在工作中使用了Cola DLM,请引用:

@article{guo2026cola, title = {Continuous Latent Diffusion Language Model}, author = {Guo, Hongcan and Zhao, Qinyu and Zhao, Yian and Nie, Shen and Zhu, Rui and Guo, Qiushan and Wang, Feng and Yang, Tao and Zhao, Hengshuang and Wei, Guoqiang and Zeng, Yan}, journal = {arXiv preprint arXiv:2605.06548}, year = {2026}, url = {https://arxiv.org/abs/2605.06548}, }
http://www.jsqmd.com/news/858439/

相关文章:

  • 教育机构搭建ai编程辅导平台时如何通过taotoken管理多学生密钥
  • 从CubeMX到AD:为你的STM32F4项目创建‘带注释’原理图符号的完整指南
  • 2026 医用心电设备盘点:五家高口碑12导心电图机厂家推荐 - 品牌2025
  • 2026年企业管理咨询服务商选型指南! - 资讯速览
  • 2026杭州奢侈品回收商家深度测评,优选名点当奢品,35年口碑全国连锁 - 资讯速览
  • 从0到1上手 Claude Code:macOS 安装+API连接全流程(国内可直接用,少踩坑指南)
  • 工厂物业洗地机哪家好?山东天骏的服务保障让你售后无忧 - 速递信息
  • 实地实测连云港黄金回收 连锁大品牌凭实力站稳本地市场 - 润富黄金珠宝行
  • AI时代,产品已死,情感才是唯一的护城河
  • 会计学论文降AI工具免费推荐:2026年会计学毕业论文降AI知网4.8元免费99.26%完整方案 - 还在做实验的师兄
  • 2026贵阳高考志愿填报怎么选?从AI精准匹配到创业就业的全链条规划深度横评与避坑指南 - 精选优质企业推荐官
  • 智能仪表识别系统:基于计算机视觉的指针式仪表自动化读数深度解析
  • Codex 适配国产信创环境完整部署指南(深度技术篇)
  • TripoSR:用单张图片快速创建3D模型的终极指南
  • 数组的基本操作
  • ElastiFlow网络流量分析系统:从零到企业级监控的架构解密
  • 突破性技术揭秘:如何完全掌握FinalBurn Neo开源街机模拟器的高效应用
  • 广州医美公司注册代办机构TOP4推荐 合规高效 全程代办 快速拿证 - 速递信息
  • 宝丽来胶片模拟不等于加噪点!深度拆解Polaroid SX-70光学特性与MJ v6渲染引擎的4层映射偏差,附12组可直接复用的--sref哈希值
  • 在自动化客服场景中利用Taotoken聚合API实现智能问答
  • ONVIF-Java终极指南:快速集成网络摄像头的完整解决方案
  • 2026南京小程序开发品牌排行,选对少走弯路 - 速递信息
  • 2026年号易平台官方邀请码08888注册指南:权益一步到位,零门槛开启代理之路 - 号易官方邀请码08888
  • 你的单片机IO口驱动能力不够?试试用LM358电压跟随器做个‘缓冲保镖’
  • 2026佛山源头门窗厂家实力盘点,选对不踩坑 - 速递信息
  • ssh_utils.py
  • 告别混乱搜索:Visual Paradigm 17.0 企业模型查找器(Enterprise Model Finder)深度使用指南
  • FanControl完全指南:Windows风扇控制软件的专业配置教程
  • PPTist:重新定义在线演示文稿创作的Web应用革命
  • Java开发选服务器:8核16G真的适合你吗