近日,谷歌DeepMind与韩国科学技术院(KAIST)联合发布名为“Mixture-of-Recursions”(MoR)的新型语言模型架构,引发广泛关注。该架构将递归计算与动态路由机制相结合,在保持模型性能的同时,实现推理速度翻倍、训练计算量减少,并降低约50%的KV缓存内存使用,被认为有望成为“Transformer杀手”,为未来语言模型架构设计提供了新方向。
MoR架构诞生的背景
自2017年问世以来,Transformer架构成为大型语言模型的技术基础,但随着模型规模增大,其对计算和内存资源需求日益增加,训练和部署成本高昂。过去的效率优化方法通常只关注单一方向,难以同时优化多个效率目标。在此背景下,谷歌DeepMind与KAIST的研究人员联合发布了MoR架构。
MoR架构的核心创新
MoR架构的核心创新在于将递归计算与动态路由机制相结合。在标准Transformer模型中,输入文本的每个token都要经过相同数量计算层处理,而MoR允许不同token根据自身复杂度接受不同深度处理。它使用共享的参数块提升参数效率,通过轻量级“路由器”决定每个token的递归计算次数。研究团队测试了“专家选择”和“token选择”等多种路由策略,以平衡计算负载和避免逻辑问题。在参数共享方面,“Middle-Cycle”策略表现最佳,该策略在模型第一层和最后一层使用独立参数,中间层共享权重,在参数效率和模型表达能力间取得较好平衡。
MoR架构在内存管理上的改进
内存管理是MoR的关键改进之一。传统递归模型即使参数共享,每一层递归仍会产生独立的KV缓存,内存占用高。MoR提出“递归式缓存”和“递归共享”两种新策略。“递归式缓存”只为特定递归步骤的token存储KV数据,限制注意力计算在本地数据,降低内存占用和数据读写量;“递归共享”策略利用所有token都会经过第一个递归块的特性,只在第一步缓存KV数据供后续重复使用,最大化节省内存。
MoR架构的性能测试成果
研究团队在1.35亿到17亿参数的多个模型规模上进行测试。结果表明,相同训练计算预算下,MoR模型参数量比基准Transformer模型少近一半,但多项少样本学习任务平均准确率达43.1%,超过基准模型的42.3%。在固定训练数据量对比实验中,MoR使用少25%训练计算量,性能仍超过基准模型,训练时间减少19%,峰值内存使用降低25%。推理性能上,MoR优势明显,采用连续深度批处理技术和早期退出机制,显著提升处理吞吐量,3.6亿规模模型测试中,MoR-4配置特定设置下实现2.06倍推理加速。此外,MoR模型处理不同类型token时,会依据语义重要性分配递归次数,如内容丰富的token会被分配更多递归次数。
MoR架构的发展渊源与意义
MoR的出现离不开谷歌此前相关研究铺垫,如早前的Mixture-of-Depths(MoD)等技术探索了动态分配计算资源方法,递归Transformer也为其提供理论基础。MoR延续了对AI效率优化的探索,从单一维度转向多维度协同优化,对降低大语言模型部署和使用成本具有较大实际意义。虽然目前尚不能断言MoR能否完全替代Transformer,但它为未来语言模型架构设计提供了在性能和效率上极具潜力的发展方向。
以上文章由 AI 总结生成