【鉴赏】MoLE 2025-8-20 21:45 | 13 | 0 | ICML 2025 799 字 | 4 分钟 标题: Mixture of Lookup Experts[1] FROM ICML 2025 oral arXiv GitHub MoE 架构的模型在推理时只会激活部分专家,但是所有的专家都需要加载到内存中,导致了大量的显存展用。而如果只加载被激活的专家,则会增加推理时延。因此作者提出了 Mixture of Lookup Experts(MoL… LLMMoE