【鉴赏】MoLE – Samuel 拾光札记

本文最后更新于 93 天前，其中的信息可能已经有所发展或是发生改变。

标题: Mixture of Lookup Experts[1]

FROM ICML 2025 oral arXiv GitHub

MoE 架构的模型在推理时只会激活部分专家，但是所有的专家都需要加载到内存中，导致了大量的显存展用。而如果只加载被激活的专家，则会增加推理时延。因此作者提出了 Mixture of Lookup Experts（MoLE）架构。

MoLE 在训练和推理中具有不同的结构。在训练过程中，MoLE 类似于 MoE，有一个路由器和若干个专家。与 MoE 中专家以中间特征为输入不同，MoLE 的专家以 Embedding tokens (即 Embedding 层的输出)为输入。并且，MoLE 在训练阶段激活所有的专家。

经过训练后，MoLE 不是直接用于推理，而是经过一系列的 re-parameterizations。由于 Embedding 层的输出对于特定的 input ids 是固定的，因此专家的输入是个有限集，集合大小就等于词汇表大小。因此，对于 Embedding 层中的每个 token，预先计算所有专家对应的输出，创建替换原始专家的查找表 (LUTs, lookup tables)。（但是这样就没有 attention 了，或者说只会 attention 自己🤔。而且即使在后面加一些网络层感觉也无济于事呀，因为这个就像把专家融入 Embedding 层一样，对 Embedding 层做了个非线性变换。何况作者还没加额外的网络层。）