标签: Attention

1 篇文章

thumbnail
【鉴赏】Deepseek V3.2 Exp
标题: DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention[1] Paper GitHub 使用 Deepseek Sparse Attention 在没有明显降低精度的情况下大幅降低推理成本。 1. 模型架构 和 Deepseek V…