标签: MoE

2 篇文章

thumbnail
【鉴赏】LongCat-Flash
标题: LongCat-Flash Technical Report[1] arXiv GitHub LongCat-Flash 共 560B 参数量,激活 18.6B–31.3B 参数量的模型,平均 27B 参数量。比较注重计算效率和 Agent 能力。采用了两种不同的架构设计:zero-computation experts 和 shortcu…
thumbnail
【鉴赏】MoLE
标题: Mixture of Lookup Experts[1] FROM ICML 2025 oral arXiv GitHub MoE 架构的模型在推理时只会激活部分专家,但是所有的专家都需要加载到内存中,导致了大量的显存展用。而如果只加载被激活的专家,则会增加推理时延。因此作者提出了 Mixture of Lookup Experts(MoL…