【鉴赏】LongCat-Flash 2025-11-01 16:55 | 67 | 0 | LLM Reports 1931 字 | 8 分钟 标题: LongCat-Flash Technical Report[1] arXiv GitHub LongCat-Flash 共 560B 参数量,激活 18.6B–31.3B 参数量的模型,平均 27B 参数量。比较注重计算效率和 Agent 能力。采用了两种不同的架构设计:zero-computation experts 和 shortcu… LLMMoE
【鉴赏】MoLE 2025-8-20 21:45 | 211 | 0 | ICML 799 字 | 4 分钟 标题: Mixture of Lookup Experts[1] FROM ICML 2025 oral arXiv GitHub MoE 架构的模型在推理时只会激活部分专家,但是所有的专家都需要加载到内存中,导致了大量的显存展用。而如果只加载被激活的专家,则会增加推理时延。因此作者提出了 Mixture of Lookup Experts(MoL… LLMMoE