这项由清华大学计算机科学与技术系及人工智能研究院主导的研究,以预印本形式于2026年5月发布,论文编号为arXiv:2605.10933。有兴趣深入了解的读者可以通过该编号查询完整论文。
当你在手机上使用AI助手时,你或许从未想过背后那个"大脑"究竟有多重。今天主流的AI大模型,参数量动辄数百亿甚至上千亿,就像一座装满了书的超级图书馆——知识越丰富,性能越强大,但搬运和维护的代价也越高。手机、平板、边缘服务器这类"边缘设备"(也就是我们日常生活中那些算力有限的终端),既没有数据中心那样宏大的算力,也没有充裕的存储空间,却偏偏是AI技术真正走入日常生活的最后一公里。
为了解决这个矛盾,研究者们长期以来一直在寻找一种方法:让模型既能保留出色的智能水平,又能在计算和存储上做到足够"轻盈"。清华大学的研究团队提出了一个名为DECO(DEnse COmparable Sparse MoE)的新型架构,专门为边缘设备量身设计。这项研究的核心问题只有一个:在参数总量和训练数据量完全相同的前提下,一个稀疏激活的混合专家模型,能不能达到与传统密集模型相当的性能?
这个问题的答案,在AI研究界此前一直是存疑的。而DECO给出的回答是:可以。
一、边缘设备上的"不可能三角",以及为什么它如此难以打破
回到那座超级图书馆的比喻。传统的AI模型,就像是每次有人来查资料,都要把整个图书馆的每一本书都翻一遍——不管这个问题是关于烹饪还是天文学,所有书都得动。这种方式叫做"密集模型"(Dense Model),优点是每本书都充分参与,知识利用充分;缺点是太费时费力,尤其是当图书馆规模庞大时,翻书的成本几乎是不可承受的。
于是有人想出了"混合专家"模型(Mixture of Experts,简称MoE)的方案。这个方案把图书馆分成很多小专区,每个专区负责一个领域,每次有人来查资料,只调动相关专区的书,其他专区的书纹丝不动。这样一来,计算量大幅下降,效率提升明显。这就是"稀疏激活"的核心思想。
然而,这个方案在边缘设备上遇到了一个新问题。虽然每次只用到一小部分书,但整座图书馆仍然需要完整地存放在那里——所有专区的书都得在,才能保证"万一用到"时能取出来。这意味着,MoE模型虽然计算量少了,但总参数量(也就是"书的总数")往往是密集模型的好几倍甚至十几倍。对于内存有限的手机或边缘服务器来说,光是把这些参数装进去就已经是一场挑战,更别提频繁地在存储介质和运算单元之间搬运数据所带来的延迟了。
由此,边缘设备上的AI部署面临一个三角困境:高性能、低计算量、小存储占用,这三者很难同时实现。密集模型性能强但计算量大;大规模MoE计算量小但存储占用大;做了压缩(如剪枝或量化)的模型存储小了,但性能又难以保证。DECO的目标,就是在参数总量和密集模型相同的前提下,用稀疏激活的方式实现同等甚至更好的性能——在不扩大"图书馆规模"的情况下,让图书馆更聪明地工作。
这个设定之所以特别严苛,是因为以往那些声称MoE超越密集模型的研究,大多是在"MoE可以用更多的训练数据"这个前提下得出的。清华团队则要求训练数据量也完全一致,这相当于把竞争条件拉到了同一起跑线,不允许任何一方靠"多练习"来取巧。
二、DECO的核心设计:一座更聪明的分工图书馆
DECO的架构设计围绕三个方面展开:路由器(Router)的设计、专家(Expert)的设计,以及稀疏度的精确控制。
**路由器:从"固定分配"到"灵活感知"**
在传统MoE中,路由器的工作方式有点像一个固执的前台接待员:不管你来查什么资料,他总是固定地派你去同样数量的专区,比如每次都让你去两个专区,多一个不行,少一个也不行。这种方式叫做TopK路由,K就是那个固定的专区数量。它的问题在于,有些问题很简单,查一个专区就够了;有些问题很复杂,可能需要查四五个专区。强行统一成"两个",要么浪费资源,要么不够用。更糟糕的是,这个前台接待员的决策过程是"不可微分的"——在AI训练中,这意味着模型无法通过反向传播来优化这个路由决定,就像一个开关只有开和关,无法平滑调节。
DECO采用了ReLU路由(ReLU-based Routing)。ReLU是一个数学函数,它的行为类似一个"只允许正信号通过"的过滤器:如果某个专家的评分是正的,就激活它;如果是负的或零,就彻底忽略它。这样一来,每个输入(每个"问题")激活的专家数量是动态变化的,简单的问题激活少数专家,复杂的问题激活更多专家,完全根据实际需要来决定,而不是一刀切。同时,ReLU是可微分的,模型可以在训练过程中不断优化这个路由决策,变得越来越聪明。
在这个基础上,DECO引入了另一个创新:可学习的专家级缩放因子(Learnable Expert-Wise Router Scaling)。这听起来复杂,但本质上很直观。在DECO的架构中,除了那些"按需调用"的专门专家(路由专家),还有一位"全能员工"(共享专家),无论什么问题都会参与处理。问题在于,这位全能员工和各个专门专家的工作量和产出规模可能很不一样,直接混合在一起会导致输出失衡,就像让一个声音很大的人和一个说话很轻的人合唱,总是被大嗓门盖过。
DeepSeek-V3模型曾用一个固定的数值来调节这种平衡,而DECO则为每一位专门专家都分配了一个独立的、可以在训练中自动调整的缩放系数。这就相当于给每位专家配备了一个专属音量旋钮,而不是整个乐队共用一个总音量。研究数据证实了这种设计的必要性:在分析DECO的Medium规模模型时,研究者发现各个专家的输出强度(输出范数)差异悬殊,有些专家的输出强度是平均水平的好几倍,有些则远低于平均水平。如果用同一个固定系数来处理所有专家,必然会产生偏差。实验对比也表明,使用可学习的向量化缩放因子,比固定系数和单一可学习标量都有更好的表现。
**专家设计:给每位专家配上更稳定的"工作方式"**
如果说路由器决定"找谁",那么专家模块决定"怎么做"。DECO在专家设计上做了两个关键改变。
第一个改变是引入了NormSiLU激活函数。在深度学习中,激活函数就像神经网络里的"决策器",决定某个信号是否被传递和传递多强。传统MoE模型普遍使用SwiGLU激活函数,效果不错,但在与ReLU路由配合使用时,研究团队发现了两个棘手问题。
第一个问题是"激活比例飙升"。原本设计目标是每次只激活约20%的专家,但在训练初期,SwiGLU配合ReLU路由会导致被激活的专家比例急剧攀升,有时甚至超过40%甚至更高,远超目标。这就好比你本来计划每天只翻图书馆里20%的书,结果翻着翻着发现自己翻了一半,完全失控。虽然后来通过施加惩罚机制(稀疏化正则化)把比例强行压回去,但这个过程需要非常强烈的惩罚信号,而强烈的惩罚信号本身又会干扰模型学习知识的过程,降低最终性能。
第二个问题更隐蔽:SwiGLU激活函数在经过路由机制后,输出的数值幅度会越来越小,趋近于零。这意味着即使某个专家被"激活"了,它实际上也没有做什么实质性的贡献——就像一个员工虽然来上班了,但实际上在发呆,没有产出。
NormSiLU的设计正是为了解决这两个问题,它在SiLU(与SwiGLU类似的激活函数)之前增加了两步归一化处理。第一步叫"专家间均值归一化",它把所有专家的上投影权重(up-projection weights,可以理解为每个专家处理信息的"工具矩阵")的平均值计算出来,然后从每个专家的中间激活值中减去这个平均值,确保每个专家的信号都围绕零点分布,而不是偏向某个方向。这一步的效果是防止SiLU的输出幅度消失,确保每个被激活的专家真正有实质贡献。第二步叫"专家内RMS归一化",在每个专家内部对激活值进行尺度标准化,防止激活幅度无序增长,从而稳定路由器的激活比例,避免那种"越训练激活的专家越多"的失控状态。
实验数据非常清晰地展示了这两步的作用:去掉第二步(专家内RMS归一化),激活比例会急剧飙升,需要极强的正则化惩罚才能控制;去掉第一步(专家间均值归一化),SiLU的输出幅度会趋近于零,专家们虽然被激活却几乎没有贡献。两步都保留的完整NormSiLU,在激活比例稳定性和专家利用率上均表现最佳,最终的模型性能也最优。
从理论上看,这种设计还有一个优雅之处:在推理(使用模型,而非训练模型)阶段,专家间均值归一化的计算可以提前完成——因为所有专家的权重在推理时是固定不变的,平均权重矩阵可以提前算好存起来,每次只需用一个简单的矩阵乘法完成这步操作,几乎不增加额外计算负担。这使得NormSiLU在实用中不会带来明显的速度损失。
第二个改变是选择"非门控MLP专家"(Non-gated MLP Experts)。在深度学习中,"门控MLP"(Gated MLP,代表就是SwiGLU)是一种包含额外乘法交互的结构,通常被认为比"非门控MLP"表现更好。但DECO的研究团队发现,在ReLU路由的语境下,这个常识被打破了。
门控MLP中包含更多的乘法运算,这些运算会产生剧烈变化的梯度信号,并反馈给路由器。在ReLU路由机制下,路由器的激活决策和这些梯度信号紧密耦合,导致激活比例极不稳定——训练曲线上,门控专家版本的激活比例会先冲到45%以上,然后在强烈的惩罚下被猛烈压制,整个训练过程像一场剧烈的震荡。相比之下,非门控MLP专家的激活比例变化平稳,整个训练过程都维持在目标区间附近,几乎不需要强烈的惩罚干预。实验结果也证实了这一点:在使用ReLU路由时,DECO(非门控)的性能远优于DECO(门控),在小规模和中规模模型上的困惑度分别低了5.41和4.72个点——这是一个非常显著的差距。
有趣的是,对于使用TopK固定路由的DeepSeek-V3架构,门控和非门控之间的差距则微乎其微。这说明"门控专家是否更好"这个问题,答案取决于路由机制:固定路由对这个选择不敏感,而灵活路由则对此高度敏感。
三、精确的"稀疏度控制":不能太稀疏,也不能太密集
激活20%的专家,听起来是个简单的目标,但在实际训练中要精确维持这个比例并不容易。DECO设计了一套自适应稀疏度正则化(Adaptive Sparsity Regularization)机制来解决这个问题。
正则化(Regularization)这个词听起来很学术,但本质上就是一种"惩罚机制"——当模型某些行为过度时,就给它施加一个代价,让它收敛到目标状态。DECO用的惩罚指标叫"路由器熵"(Router Entropy),这是一个衡量路由决策"分散程度"的数值:如果每次都激活了很多专家,熵就高;如果激活的专家很少,熵就低。通过对熵施加惩罚,模型被鼓励朝着更稀疏的激活方向发展。
关键的创新在于这个惩罚力度是动态自动调整的,而不是人工设定的固定值。具体规则很直观:如果当前激活比例超过了目标(比如实际激活了25%,但目标是20%),就把惩罚系数乘以一个大于1的小系数(比如1.002),让惩罚稍微变强;如果当前激活比例低于目标,就把惩罚系数除以同样的系数,让惩罚稍微减弱。这个过程在每一次训练迭代后自动执行,就像一个自动调温的恒温器,持续把激活比例稳定在目标附近,既不会因为惩罚太强而损害模型学习能力,也不会因为惩罚太弱而导致激活比例失控。
与此同时,DECO把传统的L1范数惩罚替换为路由器熵,主要是因为熵的数值更稳定,不容易出现极端值,训练过程更平滑。
四、实验结果:DECO的表现如何?
研究团队在四个规模的模型上进行了系统测试,分别是Small(约1.1亿参数)、Medium(约2.4亿参数)、Large(约5.3亿参数)和XLarge(约11.8亿参数)。对比的基准方法包括:标准密集Transformer模型(LLaMA风格,代表传统密集模型)、TopP路由的MoE、DeepSeek-V3风格的MoE、ReMoE和BlockFFN。所有模型的对比都在完全相同的参数总量和训练数据量下进行,确保公平。
评估指标有两个:一是在C4英文验证集上的"困惑度"(Perplexity,简称PPL)——这个数值越低越好,代表模型对语言的预测越准确,可以理解为"语言理解能力";二是在七个常识推理基准测试上的平均准确率——包括PIQA(物理常识)、SIQA(社会常识)、HellaSwag(情境理解)、ARC-C/ARC-E(科学问答)、WinoGrande(语义消歧)和LAMBADA(长文理解),可以理解为"实际任务解决能力"。
结果清楚地展示了DECO的优势。在所有四个规模上,DECO的困惑度均低于或接近密集模型,同时其任务准确率也达到或超过密集模型。以Medium规模为例,Dense模型的困惑度为27.85,DECO为27.74,DECO略胜一筹;任务准确率上,Dense为39.01%,DECO为39.18%,同样领先。更值得注意的是,DECO在激活比例仅为20%的情况下,全面超越了包括ReMoE、BlockFFN和DeepSeek-V3在内的所有MoE基准,而这些基准使用的是同样约20%的激活比例和同样的参数总量。TopP路由的MoE表现最差,困惑度高出DECO多达6个点以上。
研究团队还探索了几个关键超参数对性能的影响。在激活比例方面,DECO的性能随激活比例的提高单调上升,但不同规模达到"赶上密集模型"的门槛不同:Small规模需要约15%的激活比例,而Medium规模只需约10%。这暗示着随着模型规模的扩大,MoE实现与密集模型同等性能所需的激活比例可能会进一步降低,与近期关于MoE最优激活比例随参数量增大而下降的研究发现一致。
在共享专家大小方面,研究发现当共享专家的中间维度是路由专家中间维度的1到2倍时,性能最好;当共享专家规模扩大到路由专家的3到4倍时,性能反而明显下降,原因是在参数总量固定的前提下,过大的共享专家挤占了路由专家的数量,导致专家多样性不足。在专家粒度方面,更细粒度(即每个专家更小,但专家总数更多)通常带来更好的性能,尤其是在中等和大规模模型上这一趋势更为明显。
五、把稀疏性变成真正的速度:硬件加速实验
上述所有讨论都是在模型质量层面。但对于边缘设备部署来说,实际运行速度同样关键。DECO是否真的能在真实硬件上跑得更快?
研究团队专门为DECO开发了一套定制的推理加速内核,基于NVIDIA的CUTLASS框架实现,充分利用张量核心(Tensor Core)来提升矩阵运算吞吐量,同时通过只计算被激活的专家来减少内存访问量。他们在两台不同类型的设备上进行了测试:一台是桌面级显卡NVIDIA RTX 4090(24GB显存),另一台是典型边缘设备场景的Jetson AGX(64GB内存),使用Spec-Bench基准来衡量实际解码速度。
结果令人印象深刻。在RTX 4090上,DECO加速内核的平均解码速度达到每秒224.63个token,而未经优化的标准自回归解码基准仅为87.10个token/秒,加速比约为2.58倍。在更贴近实际边缘设备场景的Jetson AGX上,加速效果更为突出:基准速度为14.77个token/秒,加速后达到44.32个token/秒,加速比约为3.00倍。这意味着,在边缘设备上,DECO不只是在理论上节省了计算量,而是真正在实际硬件上将推理速度提升到了原来的三倍。
六、为什么MoE理论上可以追上密集模型?一个有趣的视角
研究团队在讨论部分提出了一个颇具启发性的观点,值得特别介绍。
传统认知认为密集模型比稀疏MoE更充分地利用了所有参数,因为每一次计算都调用了全部神经元。但实际上,密集模型的"密集"并不像看起来那么彻底。多项近期研究(包括清华团队自己的早期工作)发现,对于一个使用SwiGLU激活函数的标准密集模型,每次处理一个输入token时,真正产生显著贡献的神经元只占全部神经元的30%到40%,其余60%到70%的神经元的激活值非常接近零,对输出几乎没有贡献,训练时也几乎不会被更新——它们虽然在场,但实际上处于"待机"状态。
从这个角度来看,密集模型本质上已经是一种隐式的稀疏MoE:SwiGLU的门控投影层扮演着路由器的角色,决定哪些神经元被激活;上投影和下投影层中的每一列/行权重对应一个微型"专家"。既然密集模型实际上也只有约三分之一的参数在工作,那么一个专门设计来精确激活这三分之一参数的稀疏MoE,理论上当然可以用相同的参数总量实现相同的功能——只不过要在架构设计上做得更精准、更高效。DECO的目标正是实现这个"精准激活"。
另一个值得注意的发现是,DECO的"密集可比性"对训练数据的多样性有一定的依赖。在使用包含网页文本、代码、数学、文章等多种类型数据的混合数据集训练时,DECO在各个规模上都能达到或超过密集模型;但当使用FineWeb这类相对单一的网页文本数据集时,Small规模的DECO在困惑度上略输于密集模型,尽管任务准确率上仍然持平或略高。合理的解释是,多样化的数据天然适合稀疏MoE的工作方式——不同的数据域对应不同的专家,稀疏路由可以有效地把不同类型的输入分配给最合适的专家;而在单一类型的数据上,这种"按域分工"的优势就不那么明显了。
说到底,DECO做的事情,可以用一句话来概括:在不扩充"图书馆藏书量"的前提下,通过更聪明的管理制度,让这个图书馆的检索效率和答疑质量追上了那些每次查询都翻遍所有书架的传统图书馆。
对于普通用户而言,这项研究最直接的意义在于:未来你手机上的AI助手,或许能在不需要庞大存储空间的情况下,具备与当今强大云端模型相当的理解能力,同时响应速度还快上三倍。这并不是遥不可及的未来——研究团队表示已经在开发产品级的边缘端DECO模型,同时也在探索监督微调和强化学习阶段的适配方案,因为MoE架构在这些后训练阶段还面临额外的挑战,比如路由激活波动可能导致训练不稳定的问题。
还有一些悬而未决的问题值得关注:随着模型规模进一步扩大(比如扩展到70亿、140亿参数量级),DECO实现密集可比性所需的最低激活比例究竟会降低到什么程度?在不同语言、不同领域的数据分布下,DECO的稀疏性优势是否依然稳健?这些问题,或许会在不远的将来给出答案。
如有兴趣深入研究,可以通过arXiv编号2605.10933查阅完整论文,代码和模型权重也将由清华大学团队公开发布。
Q&A
Q1:DECO和普通MoE模型有什么区别,为什么说DECO更适合手机等边缘设备?
A:普通MoE模型虽然每次计算只用一部分参数,但总参数量往往是密集模型的好几倍,手机等设备存储有限,根本装不下。DECO的特殊之处在于它在参数总量和密集模型完全相同的情况下实现稀疏激活,不需要更多存储空间,同时配套的硬件加速内核在Jetson AGX这类边缘设备上实现了约3倍的推理提速,真正做到了"又小又快又聪明"。
Q2:NormSiLU是什么,为什么普通SiLU激活函数在DECO里不够用?
A:NormSiLU是DECO为专家模块设计的增强激活函数,在标准SiLU之前增加了两步归一化处理。普通SiLU在配合ReLU路由使用时会出现两个问题:一是训练初期激活的专家数量会急剧飙升,远超设计目标,需要很强的惩罚来压制,而这种强惩罚又会损害模型学习能力;二是专家的实际输出幅度会慢慢缩减到接近零,即使专家被激活也没有实质贡献。NormSiLU通过两步归一化同时解决了这两个问题,让激活比例保持稳定,专家也能真正发挥作用。
Q3:DECO的激活比例控制是如何自动工作的,不需要人工一直调整吗?
A:DECO使用了一套自适应稀疏度正则化机制,完全自动运行。它持续监测当前实际激活的专家比例,如果比例超过目标值(比如目标是20%但实际达到了25%),就自动小幅提高惩罚力度;如果比例低于目标,就自动小幅降低惩罚力度。这个调整在每次训练迭代后自动执行,整个训练过程中激活比例都会自动收敛并稳定维持在目标附近,不需要人工介入。