DeepSeek-V4 重磅发布：向百万 token 上下文智能迈进

概述

2026 年 4 月，DeepSeek 正式发布 DeepSeek-V4 系列预览版，这是继 DeepSeek-V3 之后的又一重大升级。该系列包含两款强大的混合专家（Mixture-of-Experts, MoE）语言模型：

模型	总参数量	激活参数量	上下文长度
DeepSeek-V4-Pro	1.6T（1.6万亿）	49B（490亿）	100 万 token
DeepSeek-V4-Flash	284B（2840亿）	13B（130亿）	100 万 token

两款模型均支持百万级上下文长度，一举将长上下文处理能力推升至新高度。这意味着可以一次性处理数千页文档、完整代码库甚至多部小说文本。

一、核心技术亮点

1.1 混合注意力架构（Hybrid Attention）

长上下文处理一直是 LLM 领域的核心技术挑战之一。随着上下文长度从 4K、32K 增长到 128K、1M，标准的全注意力机制面临的计算开销呈平方级增长，KV Cache 的内存占用也成为一个严重的瓶颈。

DeepSeek-V4 设计了创新的混合注意力机制，结合两种互补的注意力变体：

压缩稀疏注意力（CSA, Compressed Sparse Attention）
- 通过稀疏化策略减少计算量
- 保留关键信息的同时跳过冗余计算
重度压缩注意力（HCA, Heavily Compressed Attention）
- 对早期 token 进行深度压缩
- 大幅降低长程依赖的计算成本

效率提升数据

在 100 万 token 上下文设置下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2 实现了质的飞跃：

指标	相对 DeepSeek-V3.2
推理 FLOPs	27%（降低 73%）
KV Cache	10%（降低 90%）

这一突破意味着即使处理百万 token 的超长文本，DeepSeek-V4 也能保持高效的推理速度，同时大幅降低了显存占用。

1.2 流形约束超连接（mHC）

深度神经网络中，信号在层间传播时容易出现梯度消失或梯度爆炸问题，尤其是在超深层的网络中。传统的残差连接（Residual Connection）虽然缓解了这一问题，但在超大规模模型中仍面临挑战。

DeepSeek-V4 引入了 Manifold-Constrained Hyper-Connections (mHC) 技术：

核心思想：在”流形空间”中对跨层连接进行约束，使得信息传播更加稳定可控。

技术优势：

加强传统残差连接，增强层间信号传播的稳定性
在保持模型表达能力的同时，提升训练收敛性
使模型在超深结构中依然能够有效学习

1.3 Muon 优化器

训练大规模 MoE 模型需要高效稳定的优化器。DeepSeek-V4 采用创新的 Muon 优化器：

收敛更快：相比传统优化器，Muon 能加速模型收敛
训练更稳定：减少训练过程中的振荡和不稳定现象
更好的泛化能力：助力模型在下游任务中表现更佳

1.4 超大规模预训练

DeepSeek-V4 在超过 32T（32万亿）高质量、多样化 tokens 上进行预训练。这一规模远超业界同类模型。

预训练数据特点

多样化来源：涵盖网页、代码、学术论文、书籍等多种数据类型
高质量过滤：通过多轮数据清洗和质量筛选
知识覆盖广：覆盖科学、技术、文学、历史等多个领域

二、后训练流程

DeepSeek-V4 采用了完整且精细的后训练流程，包含两阶段范式：

2.1 第一阶段：独立培养（Domain-Specific Expert Cultivation）

针对不同领域分别训练专业能力：

监督微调（SFT）
- 在各领域高质量数据上进行有监督微调
- 培养模型在特定任务上的基础能力
强化学习（RL with GRPO）
- 使用 GRPO（Group Relative Policy Optimization）算法
- 进一步提升模型在推理、对齐等方面的表现

2.2 第二阶段：统一融合（Unified Model Consolidation）

通过 on-policy 蒸馏 将不同领域的专业能力整合到单一模型中：

保留各领域专家模型的精华
避免能力冲突和遗忘
最终形成一个全能型模型

三、模型规格与下载

3.1 模型变体

DeepSeek-V4 提供四个主要模型变体：

模型	总参数量	激活参数量	上下文长度	精度	适用场景
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 Mixed	基础推理
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 Mixed	高效推理
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8	超大基础
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 Mixed	旗舰性能

3.2 下载地址

模型	下载链接
DeepSeek-V4-Flash-Base	HuggingFace / ModelScope
DeepSeek-V4-Flash	HuggingFace / ModelScope
DeepSeek-V4-Pro-Base	HuggingFace / ModelScope
DeepSeek-V4-Pro	HuggingFace / ModelScope

四、性能表现

4.1 DeepSeek-V4-Pro-Max

作为最大推理模式，DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的增强版本，通过更大推理预算进一步释放模型潜力。

核心成就：

🏆 开源模型最强：显著提升开源模型的知识能力上限
💻 顶级代码能力：在编码基准测试中达到顶尖水平
🧠 推理能力飞跃：大幅缩小与领先闭源模型的差距
🤖 Agent 能力突破：在复杂任务规划、执行方面表现卓越

4.2 DeepSeek-V4-Flash-Max

Flash 版本在更大思考预算下，可达到与 Pro 版本相当的推理性能。

特点：

性价比突出：更小的参数规模，更低的部署成本
推理性能优秀：充足思考时间下可匹配 Pro 水准
知识能力略逊：由于参数规模限制，在纯知识任务上稍逊于 Pro

五、技术报告

详细技术细节请参阅官方技术报告：

📄 DeepSeek-V4 Technical Report (PDF)（4.48 MB）

六、与前代版本对比

特性	DeepSeek-V3	DeepSeek-V4
发布年份	2024	2026
总参数量	236B	284B / 1.6T
激活参数	21B	13B / 49B
上下文长度	128K	1M
KV Cache 效率	-	降低 90%
推理 FLOPs	-	降低 73%

七、应用场景

DeepSeek-V4 的百万 token 上下文能力开启了众多新应用场景：

长文档理解与分析
- 一次性处理整本书籍、论文
- 完整代码库理解与重构
复杂 Agent 任务
- 多步骤任务规划与执行
- 长期记忆与上下文追踪
长程对话与交互
- 持续数小时的深度对话
- 保持一致性和连贯性
多文档问答与摘要
- 跨文档信息整合
- 全局视角的摘要生成

八、总结与展望

DeepSeek-V4 的发布标志着开源大模型在百万级上下文处理领域迈出重要一步。其创新的混合注意力架构（Hybrid Attention）和高效的 KV Cache 管理，使得处理超长文本成为可能，同时保持了卓越的推理性能。

无论是代码生成、复杂推理还是 Agent 任务，DeepSeek-V4 都展现了顶尖实力，被誉为当前最强的开源模型。随着技术的不断迭代，DeepSeek 正在推动 AGI 向更近一步。

💡 相关链接

🏠 官网：https://deepseek.com/

💬 体验地址：https://chat.deepseek.com/

🐙 GitHub：https://github.com/deepseek-ai

🤗 HuggingFace：https://huggingface.co/deepseek-ai

📄 技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf