MoE – Samuel 拾光札记

标签： MoE

2 篇文章

2025-11-01 16:55

1931 字

8 分钟

标题: LongCat-Flash Technical Report[1] arXiv GitHub LongCat-Flash 共 560B 参数量，激活 18.6B–31.3B 参数量的模型，平均 27B 参数量。比较注重计算效率和 Agent 能力。采用了两种不同的架构设计：zero-computation experts 和 shortcu…

LLM MoE

【鉴赏】MoLE

2025-8-20 21:45

211

ICML

799 字

4 分钟

标题: Mixture of Lookup Experts[1] FROM ICML 2025 oral arXiv GitHub MoE 架构的模型在推理时只会激活部分专家，但是所有的专家都需要加载到内存中，导致了大量的显存展用。而如果只加载被激活的专家，则会增加推理时延。因此作者提出了 Mixture of Lookup Experts（MoL…

LLM MoE

归档

分类