【鉴赏】LongCat-Flash 2025-11-01 16:55 | 66 | 0 | LLM Reports 1931 字 | 8 分钟 标题: LongCat-Flash Technical Report[1] arXiv GitHub LongCat-Flash 共 560B 参数量,激活 18.6B–31.3B 参数量的模型,平均 27B 参数量。比较注重计算效率和 Agent 能力。采用了两种不同的架构设计:zero-computation experts 和 shortcu… LLMMoE
【鉴赏】Deepseek V3.2 Exp 2025-10-12 11:20 | 131 | 0 | LLM Reports 811 字 | 4 分钟 标题: DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention[1] Paper GitHub 使用 Deepseek Sparse Attention 在没有明显降低精度的情况下大幅降低推理成本。 1. 模型架构 和 Deepseek V… AttentionLLM