DeepSeek-V4 重磅发布:向百万 token 上下文智能迈进

概述

2026 年 4 月,DeepSeek 正式发布 DeepSeek-V4 系列预览版,这是继 DeepSeek-V3 之后的又一重大升级。该系列包含两款强大的混合专家(Mixture-of-Experts, MoE)语言模型:

模型 总参数量 激活参数量 上下文长度
DeepSeek-V4-Pro 1.6T(1.6万亿) 49B(490亿) 100 万 token
DeepSeek-V4-Flash 284B(2840亿) 13B(130亿) 100 万 token

两款模型均支持百万级上下文长度,一举将长上下文处理能力推升至新高度。这意味着可以一次性处理数千页文档、完整代码库甚至多部小说文本。


一、核心技术亮点

1.1 混合注意力架构(Hybrid Attention)

长上下文处理一直是 LLM 领域的核心技术挑战之一。随着上下文长度从 4K、32K 增长到 128K、1M,标准的全注意力机制面临的计算开销呈平方级增长,KV Cache 的内存占用也成为一个严重的瓶颈。

DeepSeek-V4 设计了创新的混合注意力机制,结合两种互补的注意力变体:

  • 压缩稀疏注意力(CSA, Compressed Sparse Attention)

    • 通过稀疏化策略减少计算量
    • 保留关键信息的同时跳过冗余计算
  • 重度压缩注意力(HCA, Heavily Compressed Attention)

    • 对早期 token 进行深度压缩
    • 大幅降低长程依赖的计算成本

效率提升数据

100 万 token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 实现了质的飞跃:

指标 相对 DeepSeek-V3.2
推理 FLOPs 27%(降低 73%)
KV Cache 10%(降低 90%)

这一突破意味着即使处理百万 token 的超长文本,DeepSeek-V4 也能保持高效的推理速度,同时大幅降低了显存占用。


1.2 流形约束超连接(mHC)

深度神经网络中,信号在层间传播时容易出现梯度消失或梯度爆炸问题,尤其是在超深层的网络中。传统的残差连接(Residual Connection)虽然缓解了这一问题,但在超大规模模型中仍面临挑战。

DeepSeek-V4 引入了 Manifold-Constrained Hyper-Connections (mHC) 技术:

核心思想:在”流形空间”中对跨层连接进行约束,使得信息传播更加稳定可控。

技术优势

  • 加强传统残差连接,增强层间信号传播的稳定性
  • 在保持模型表达能力的同时,提升训练收敛性
  • 使模型在超深结构中依然能够有效学习

1.3 Muon 优化器

训练大规模 MoE 模型需要高效稳定的优化器。DeepSeek-V4 采用创新的 Muon 优化器

  • 收敛更快:相比传统优化器,Muon 能加速模型收敛
  • 训练更稳定:减少训练过程中的振荡和不稳定现象
  • 更好的泛化能力:助力模型在下游任务中表现更佳

1.4 超大规模预训练

DeepSeek-V4 在超过 32T(32万亿)高质量、多样化 tokens 上进行预训练。这一规模远超业界同类模型。

预训练数据特点

  • 多样化来源:涵盖网页、代码、学术论文、书籍等多种数据类型
  • 高质量过滤:通过多轮数据清洗和质量筛选
  • 知识覆盖广:覆盖科学、技术、文学、历史等多个领域

二、后训练流程

DeepSeek-V4 采用了完整且精细的后训练流程,包含两阶段范式:

2.1 第一阶段:独立培养(Domain-Specific Expert Cultivation)

针对不同领域分别训练专业能力:

  1. 监督微调(SFT)

    • 在各领域高质量数据上进行有监督微调
    • 培养模型在特定任务上的基础能力
  2. 强化学习(RL with GRPO)

    • 使用 GRPO(Group Relative Policy Optimization)算法
    • 进一步提升模型在推理、对齐等方面的表现

2.2 第二阶段:统一融合(Unified Model Consolidation)

通过 on-policy 蒸馏 将不同领域的专业能力整合到单一模型中:

  • 保留各领域专家模型的精华
  • 避免能力冲突和遗忘
  • 最终形成一个全能型模型

三、模型规格与下载

3.1 模型变体

DeepSeek-V4 提供四个主要模型变体:

模型 总参数量 激活参数量 上下文长度 精度 适用场景
DeepSeek-V4-Flash-Base 284B 13B 1M FP8 Mixed 基础推理
DeepSeek-V4-Flash 284B 13B 1M FP4 + FP8 Mixed 高效推理
DeepSeek-V4-Pro-Base 1.6T 49B 1M FP8 超大基础
DeepSeek-V4-Pro 1.6T 49B 1M FP4 + FP8 Mixed 旗舰性能

3.2 下载地址

模型 下载链接
DeepSeek-V4-Flash-Base HuggingFace / ModelScope
DeepSeek-V4-Flash HuggingFace / ModelScope
DeepSeek-V4-Pro-Base HuggingFace / ModelScope
DeepSeek-V4-Pro HuggingFace / ModelScope

四、性能表现

4.1 DeepSeek-V4-Pro-Max

作为最大推理模式,DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的增强版本,通过更大推理预算进一步释放模型潜力。

核心成就

  • 🏆 开源模型最强:显著提升开源模型的知识能力上限
  • 💻 顶级代码能力:在编码基准测试中达到顶尖水平
  • 🧠 推理能力飞跃:大幅缩小与领先闭源模型的差距
  • 🤖 Agent 能力突破:在复杂任务规划、执行方面表现卓越

4.2 DeepSeek-V4-Flash-Max

Flash 版本在更大思考预算下,可达到与 Pro 版本相当的推理性能。

特点

  • 性价比突出:更小的参数规模,更低的部署成本
  • 推理性能优秀:充足思考时间下可匹配 Pro 水准
  • 知识能力略逊:由于参数规模限制,在纯知识任务上稍逊于 Pro

五、技术报告

详细技术细节请参阅官方技术报告:

📄 DeepSeek-V4 Technical Report (PDF)(4.48 MB)


六、与前代版本对比

特性 DeepSeek-V3 DeepSeek-V4
发布年份 2024 2026
总参数量 236B 284B / 1.6T
激活参数 21B 13B / 49B
上下文长度 128K 1M
KV Cache 效率 - 降低 90%
推理 FLOPs - 降低 73%

七、应用场景

DeepSeek-V4 的百万 token 上下文能力开启了众多新应用场景:

  1. 长文档理解与分析

    • 一次性处理整本书籍、论文
    • 完整代码库理解与重构
  2. 复杂 Agent 任务

    • 多步骤任务规划与执行
    • 长期记忆与上下文追踪
  3. 长程对话与交互

    • 持续数小时的深度对话
    • 保持一致性和连贯性
  4. 多文档问答与摘要

    • 跨文档信息整合
    • 全局视角的摘要生成

八、总结与展望

DeepSeek-V4 的发布标志着开源大模型在百万级上下文处理领域迈出重要一步。其创新的混合注意力架构(Hybrid Attention)和高效的 KV Cache 管理,使得处理超长文本成为可能,同时保持了卓越的推理性能。

无论是代码生成、复杂推理还是 Agent 任务,DeepSeek-V4 都展现了顶尖实力,被誉为当前最强的开源模型。随着技术的不断迭代,DeepSeek 正在推动 AGI 向更近一步。

💡 相关链接