【鉴赏】Deepseek V3.2 Exp – Samuel 拾光札记

本文最后更新于 40 天前，其中的信息可能已经有所发展或是发生改变。

标题: DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention[1]

使用 Deepseek Sparse Attention 在没有明显降低精度的情况下大幅降低推理成本。

1. 模型架构

和 Deepseek V3.1 Terminus 相比，增加了 Deepseek Sparse Attention(DSA) 模块。DSA 就是在 MLA 的时候，先计算一下 qk 的 score，然后根据 top-k 的索引选择出最终进行 attention 的 kv。

主要有两个关键部分：

\[I_{t,s} = \sum_{j=1}^{H^I} w_{t,j}^I \cdot \text{ReLU}\left( \mathbf{q}_{t,j}^I \cdot \mathbf{k}_s^I \right)\]

\[\mathbf{u}_t = \text{Attn}\!\left( \mathbf{h}_t, \left\{ \mathbf{c}_s \mid I_{t,s} \in \text{Top-k}(I_{t,:}) \right\} \right)\]

从 V3.1 Terminus 继续训练。相当于修改了原始模型的结构，利用原始模型的参数。

训练数据的分布与 V3.1 Terminus 使用的 128K 长上下文扩展数据完全一致。

分为两个阶段

- short warm-up stage 来初始化 lightning indexer 的参数，同时冻结其它的参数。
- 为了对齐 indexer 和 attention 的输出分布，对于 t-th query token，统计所有 attention 的和，然后对这个和做 L1 正则（sequence 维度）来生成目标分布 p。然后使用 p 和 indexer 的 KL 散度作为训练 indexer 的目标函数。Dense Warm-up Stage
\[\mathcal{L}^I = \sum_{t} \mathbb{D}_{\text{KL}} \left( p_{t,:} \parallel\text{Softmax}(I_{t,:}) \right)\]
Sparse Training Stage

相对于 Warm-up 阶段，只是将 attention 的目标函数修改为了 sparse attention

\[\mathcal{L}^I = \sum_{t} \mathbb{D}_{\text{KL}} \left( p_{t, \mathcal{S}_t} \parallel \text{Softmax}(I_{t, \mathcal{S}_t}) \right)\]

和 V3.1 Terminus 用了一样的 post-training pipeline

Specialist Distillation 训练了 5 个专家模型：mathematics, competitive programming, general logical reasoning, agentic coding, and agentic search。生成 long CoT response data 和 direct response data 进行训练。
Mixed RL Training 使用 GRPO 算法。合并了推理，agent，human alignment 到一个 RL 阶段来避免灾难性遗忘。

奖励：
- resoning 和 agent 任务：基于规则的奖励
- general task：生成式奖励模型
奖励设计平衡了两个关键权衡：（1）长度与准确性（2）语言一致性与准确性

复杂度从 \(O(L^2)\) 降至 \(O(Lk)\)，其中 \(k \ll L\)。不过 Lightning Indexer 的复杂度仍是 \(O(L^2)\)，但其计算量仍然小于 V3.1 Terminus。

对于每个 token，只关注 sequence 中的 top k 个 token，而不是关注每个 token。感觉是符合直觉而且对于长文本能显著奖励计算复杂度的。

今天天气还不错。其中，错的注意力和今天的关系并不大。