分类: LLM Reports

2 篇文章

thumbnail
【鉴赏】LongCat-Flash
标题: LongCat-Flash Technical Report[1] arXiv GitHub LongCat-Flash 共 560B 参数量,激活 18.6B–31.3B 参数量的模型,平均 27B 参数量。比较注重计算效率和 Agent 能力。采用了两种不同的架构设计:zero-computation experts 和 shortcu…
thumbnail
【鉴赏】Deepseek V3.2 Exp
标题: DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention[1] Paper GitHub 使用 Deepseek Sparse Attention 在没有明显降低精度的情况下大幅降低推理成本。 1. 模型架构 和 Deepseek V…