DeepSeek-V4 系列采用混合注意力架构(CSA + HCA), 结合流形约束超连接(mHC)与 Muon 优化器, 在百万 Token 上下文中实现了极致的推理效率与卓越性能。
DeepSeek-V4 系列包含 Pro 与 Flash 两个版本,均原生支持百万 Token 上下文。
重新定义开源模型的最强性能标杆
极致性价比,小参数大能力
四大关键升级,突破超长上下文的效率瓶颈
Compressed Sparse Attention 与 Heavily Compressed Attention 交替使用,将 KV 缓存压缩至原来的约 2%(相较 BF16 GQA8 基线),大幅降低长上下文计算开销。
将残差映射矩阵约束在双随机矩阵流形上,确保信号传播的数值稳定性,增强深层网络的训练稳定性与表达能力。
采用混合 Newton-Schulz 迭代进行正交化,结合 Nesterov 动量技巧,实现更快的收敛速度与更优的训练稳定性。
对 MoE 专家权重与索引器 QK 通路应用 FP4(MXFP4)量化,进一步降低推理阶段的显存占用与计算量。
在百万 Token 上下文场景下,DeepSeek-V4 系列相较 V3.2 实现了数量级的效率提升。
DeepSeek-V4-Pro-Max 模式在多项基准上达到开源模型新高度
| 基准测试 | V4-Pro Max | V4-Flash Max | GPT-5.4 | Gemini 3.1 Pro | Claude Opus 4.6 |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 87.5 | 86.2 | 87.5 | 91.0 | 89.1 |
| GPQA Diamond (Pass@1) | 90.1 | 88.1 | 93.0 | 94.3 | 91.3 |
| HLE (Pass@1) | 37.7 | 34.8 | 39.8 | 44.4 | 40.0 |
| LiveCodeBench (Pass@1) | 93.5 | 91.6 | — | 91.7 | 88.8 |
| SimpleQA Verified (Pass@1) | 57.9 | 34.1 | 45.3 | 75.6 | 46.2 |
| SWE Verified (Resolved) | 80.6 | 79.0 | — | 80.6 | 80.8 |
| MRCR 1M (MMR) | 83.5 | 78.7 | — | 76.3 | 92.9 |
* 数据来源:DeepSeek-V4 技术报告 Table 6 & Table 7(预览版)。加粗为该项最佳。
在 DeepSeek Chat 中体验百万 Token 上下文的强大能力,或通过 API 平台集成到您的应用中。