当前位置：首页 > news >正文

DeepSeek崛起之路：从开源起步的AI新势力

news 2026/7/13 11:00:08

DeepSeek的发展历程是一个从零开始、快速崛起并成为行业重要参与者的典型技术创新故事。这家公司在短短两年多时间里，通过持续的技术创新和开源战略，在全球人工智能领域建立了显著影响力。

一、公司创立与初期布局（2023年）

DeepSeek（杭州深度求索人工智能基础技术研究有限公司）于2023年7月在浙江省杭州市成立。公司成立之初就确立了以开源大模型为核心的技术路线，这在当时的大模型竞争中是一个颇具远见的战略选择。

初期产品发布

2023年11月2日：发布首个开源代码大模型DeepSeek Coder，这是公司在AI领域的首次重要亮相。该模型专门针对编程任务设计，支持多种编程语言的代码生成、调试和数据分析。
2023年11月29日：推出参数规模达670亿的通用大模型DeepSeek LLM，包含7B和67B两种规格的基础模型（base）和对话模型（chat）版本。这一模型在中文和英文理解能力上表现出色，超越了Llama2 70B Base和GPT-3.5。

二、技术突破与模型迭代（2024年）

2024年是DeepSeek技术快速发展的关键一年，公司通过一系列重要发布确立了在开源大模型领域的领先地位。

2024年初的技术优化

2024年1月5日，DeepSeek发布了DeepSeek LLM（基础版），采用了多阶段学习率调度器和分组查询注意力机制（GQA），显著优化了训练过程和计算效率。

数学与视觉能力扩展

发布时间	模型名称	主要特点	技术突破
2024年2月5日	DeepSeekMath	基于DeepSeek-Coder-v1.5 7B	专注于数学相关任务
2024年3月11日	DeepSeek-VL	开源视觉-语言模型	具有较高的视觉任务处理能力

MoE架构的重大突破

2024年5月7日是DeepSeek发展史上的一个重要里程碑。公司发布了DeepSeek-V2，这是第二代开源混合专家（MoE）模型，总参数达2360亿，但通过创新的架构设计实现了推理成本的大幅降低。该模型采用MoE架构，实现了显著的性能提升。

持续优化与升级

2024年6月17日：推出DeepSeek-Coder-V2，进一步提升了编码和数学推理能力，并扩展了支持的编程语言数量。
2024年9月：升级到DeepSeek-V2.5，进一步优化了模型性能和推理成本。

年末技术冲刺

发布时间	模型名称	核心改进
2024年12月13日	DeepSeek-VL2	改进了视觉语言模型的多模态理解能力
2024年12月26日	DeepSeek-V3	显著提升了知识类任务和生成速度

三、2025年：推理能力的强化

2025年1月20日，DeepSeek发布了DeepSeek-R1，采用强化学习技术提升模型推理能力。这一发布标志着公司从基础模型能力向高级推理能力的战略转移。

四、技术贡献与行业影响

1. 开源生态建设

DeepSeek坚持开源战略，持续迭代并发布高性能模型，迅速扩大了在开发者社群中的影响力。这种开放合作的策略为整个AI社区带来了实质性价值：

# 示例：DeepSeek的开源模型使用 from transformers import AutoModelForCausalLM, AutoTokenizer # 加载DeepSeek开源模型 model_name = "deepseek-ai/deepseek-coder-6.7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) # 使用模型进行代码生成 prompt = "用Python实现快速排序算法" inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate(**inputs, max_length=200) generated_code = tokenizer.decode(outputs[0], skip_special_tokens=True)