当前位置: 首页 > news >正文

一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例 - 详解

CSDN叶庭云https://yetingyun.blog.csdn.net/


文章目录

  • 一、前言
  • 二、DeepSeek-V3.1 模型文件结构


一、前言

在当前 AI 技术讨论中频繁提及“大语言模型(Large Language Model,LLM)开源”,但它到底 “开” 出来什么?一个开源 LLM 究竟包含哪些核心组成部分?本文将介绍 DeepSeek-V3.1 模型记录由哪些部分组成,有助于理解大语言模型开源的具体内容和运行流程。

下图展示了知名大模型厂商DeepSeek公司在 Hugging Face 平台的主页,Hugging Face 实为当前全球最大的开源机器学习模型社区。Hugging Face 对于 AI 模型领域而言,可类比为面向人工智能领域的 GitHub。

在这里插入图片描述

我们以 DeepSeek-V3.1 的模型仓库作为观察示例,网址为:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

Model Card 页面展示了模型的基本信息,具体内容如下:

在这里插入图片描述

注意,真正的核心内容在Files and versions 选项卡里:https://huggingface.co/deepseek-ai/DeepSeek-V3.1/tree/main


二、DeepSeek-V3.1 模型文件结构

.safetensors 格式的模型权重文件数量最多且体积最大,因其包含模型中所有层的参数。为便于并行加载,模型权重通常被切分为许多 .safetensors 档案。在实际部署过程中,model.safetensors.index.json 索引文件负责记录模型层与对应权重文件之间的映射关系,从而确定各权重在具体文件中的存储位置。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

config.json 定义了模型的结构参数,相当于该大语言模型的 “身份证”,其内容包括 model_type、architectures、hidden_size、num_hidden_layers、vocab_size 等参数,以及 DeepSeek-V3.1 中所使用的混合专家(Mixture-of-Experts,MoE)配置。

在这里插入图片描述

config.json 文件以 JSON 格式存储模型参数,而这些参数由 configuration_deepseek.py 代码负责解析并转化为模型配置对象。因此,这两个文件构成了配置文件解析与模型配置初始化的核心组件。

在这里插入图片描述

modeling_deepseek.py 则负责实现模型架构与具体计算逻辑。

在这里插入图片描述

此外,诸如 DeepSeek 这类大语言模型并不直接处理原始文本,而是依赖分词器将输入文本转换为模型可处理的数字表示,其中 tokenizer.json 包含了分词规则映射与词汇表数据。例如,在词表中查询词汇 “good”,可获取其对应的 Token ID 为 25109。

在这里插入图片描述

tokenizer_config.json 用于配置文本处理方式、特殊 token、model_max_length 和 chat_template 等参数。总体而言,分词器的主要功能是将输入文本转换为模型可处理的 Token ID 序列;在解码过程中,则将模型输出的 Token ID 序列重新转换为自然语言文本。

在这里插入图片描述

generation_config.json 用于配置使用 transformers 库加载并推理 DeepSeek-V3.1 模型时的生成策略相关参数,例如 do_sample、temperature 和 top_p 等。

在这里插入图片描述

其他:

  • assets/- 辅助资源目录

  • .gitattributes- Git 属性部署

  • LICENSE- 特定开源许可证,DeepSeek-V3.1 实际用的 MIT License

  • README.md- 模型说明文档


有关链接:

http://www.jsqmd.com/news/115352/

相关文章:

  • 12.20
  • 学Simulink--电力系统与能源管理场景实例:电动汽车电池管理系统(BMS)的设计与优化
  • 【独家披露】Open-AutoGLM内部架构图流出:看懂它,你就掌握了下一代智能预订核心
  • AI幻觉问题的终极解决方案:揭秘可靠RAG技术的三重把关机制,让AI从’胡说八道王’升级为’靠谱答题员!
  • 新罗纹眉哪家好:最新权威排名深度解析 - 品牌测评家
  • 【弹簧】解决弹簧-质量-阻尼系统的强制振动问题【含Matlab源码 14737期】
  • 前端大文件上传,零基础入门到精通,收藏这篇就够了
  • 2025年CNC数控机床谁家强?设计服务口碑排行榜揭晓,动力刀塔数控车/4轴数控机床/液冷接头数控机床CNC数控机床品牌哪家好 - 品牌推荐师
  • 【故障诊断】稀疏贝叶斯学习方法复合轴承故障诊断【含Matlab源码 14741期】
  • 揭秘Open-AutoGLM物流数据同步难题:3步实现毫秒级响应
  • SwiftUI 如何精准识别用户点击的单词?一套可落地的实现方案
  • AI Agent智能体是什么?和LLM关系是什么?
  • 前端部署更新后,如何优雅地通知用户刷新页面?收藏这篇就够了
  • Open-AutoGLM外卖自动化实战(从部署到上线的完整路径)
  • 揭秘Open-AutoGLM如何实现毫秒级快递轨迹更新:技术架构全解析
  • Open-AutoGLM物流信息同步全解析(业界首次公开架构细节)
  • 2025深圳|广州|东莞|惠州|珠海|佛山|中山|江门|肇庆|湛江|清远商业摄影培训机构推荐榜:陈阅视觉连续三年排名靠前 - 速递信息
  • 最近爆火的AI Agent究竟是什么?一文了解其背后的技术与潜力!
  • 【缺陷检测】图像处理检测PCB故障【含Matlab源码 14739期】
  • KiRequestDispatchInterrupt宏定义和nt!KiIpiServiceRoutine函数到hal!HalRequestSoftwareInterrupt
  • 电商比价不再难,手把手教你用Open-AutoGLM实现全自动利润挖掘
  • 2030年中国AI人才缺口或超400万!麦肯锡报告解析与大模型学习指南!
  • 软件测试环境建设与运维管控体系
  • 括号匹配问题
  • 2026年AI大模型学习攻略:从新手到专家,算法工程师的修炼手册!一篇文章掌握大模型与多模态奥秘!
  • (Open-AutoGLM性能优化秘籍):提升酒店数据抓取效率的7种方法
  • 还在手动点外卖?Open-AutoGLM让你每天省下30分钟,效率翻倍!
  • 年终总结资源合集
  • 回归测试策略与范围界定:构建可持续的软件质量防线‌
  • 前端安全性问题解决方案,零基础入门到精通,收藏这篇就够了