分享好友 资讯首页 频道列表

谷歌DeepMind发布MoR架构,推理速度翻倍、内存减半,或成Transformer替代方案

2025-07-18 09:17210

近日,谷歌DeepMind与韩国科学技术院(KAIST)联合发布名为“Mixture-of-Recursions”(MoR)的新型语言模型架构,引发广泛关注。该架构将递归计算与动态路由机制相结合,在保持模型性能的同时,实现推理速度翻倍、训练计算量减少,并降低约50%的KV缓存内存使用,被认为有望成为“Transformer杀手”,为未来语言模型架构设计提供了新方向。


MoR架构诞生的背景

自2017年问世以来,Transformer架构成为大型语言模型的技术基础,但随着模型规模增大,其对计算和内存资源需求日益增加,训练和部署成本高昂。过去的效率优化方法通常只关注单一方向,难以同时优化多个效率目标。在此背景下,谷歌DeepMind与KAIST的研究人员联合发布了MoR架构。


MoR架构的核心创新

MoR架构的核心创新在于将递归计算与动态路由机制相结合。在标准Transformer模型中,输入文本的每个token都要经过相同数量计算层处理,而MoR允许不同token根据自身复杂度接受不同深度处理。它使用共享的参数块提升参数效率,通过轻量级“路由器”决定每个token的递归计算次数。研究团队测试了“专家选择”和“token选择”等多种路由策略,以平衡计算负载和避免逻辑问题。在参数共享方面,“Middle-Cycle”策略表现最佳,该策略在模型第一层和最后一层使用独立参数,中间层共享权重,在参数效率和模型表达能力间取得较好平衡。


MoR架构在内存管理上的改进

内存管理是MoR的关键改进之一。传统递归模型即使参数共享,每一层递归仍会产生独立的KV缓存,内存占用高。MoR提出“递归式缓存”和“递归共享”两种新策略。“递归式缓存”只为特定递归步骤的token存储KV数据,限制注意力计算在本地数据,降低内存占用和数据读写量;“递归共享”策略利用所有token都会经过第一个递归块的特性,只在第一步缓存KV数据供后续重复使用,最大化节省内存。


MoR架构的性能测试成果

研究团队在1.35亿到17亿参数的多个模型规模上进行测试。结果表明,相同训练计算预算下,MoR模型参数量比基准Transformer模型少近一半,但多项少样本学习任务平均准确率达43.1%,超过基准模型的42.3%。在固定训练数据量对比实验中,MoR使用少25%训练计算量,性能仍超过基准模型,训练时间减少19%,峰值内存使用降低25%。推理性能上,MoR优势明显,采用连续深度批处理技术和早期退出机制,显著提升处理吞吐量,3.6亿规模模型测试中,MoR-4配置特定设置下实现2.06倍推理加速。此外,MoR模型处理不同类型token时,会依据语义重要性分配递归次数,如内容丰富的token会被分配更多递归次数。


MoR架构的发展渊源与意义

MoR的出现离不开谷歌此前相关研究铺垫,如早前的Mixture-of-Depths(MoD)等技术探索了动态分配计算资源方法,递归Transformer也为其提供理论基础。MoR延续了对AI效率优化的探索,从单一维度转向多维度协同优化,对降低大语言模型部署和使用成本具有较大实际意义。虽然目前尚不能断言MoR能否完全替代Transformer,但它为未来语言模型架构设计提供了在性能和效率上极具潜力的发展方向。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
达美航空推进AI驱动动态票价策略,拟取代传统固定票价模式
达美航空正大力推进AI驱动的动态票价策略,计划逐步全面取代传统固定票价模式。自去年小范围测试成功后,公司打算在年底前将AI定

0评论2025-07-2019

微软宣布全面停止出售影视节目,退出流媒体内容销售市场
2025年7月19日,微软公司正式宣布全面停止通过官网、Windows应用商店及Xbox应用商店出售电影和电视节目,彻底退出流媒体内容销售

0评论2025-07-2018

京东携手多品牌向基层劳动者等群体捐赠1000台空调
盛夏七月,全国多地高温预警不断。京东在启动“城市冰岛计划”后,携手美的、格力等多个空调品牌,向一线环卫工、保洁员等基层劳

0评论2025-07-2018

马斯克旗下Neuralink标记“弱势小企业”后获90亿美元估值融资
近日,马斯克的脑机接口公司Neuralink引发关注,今年4月将自身标记为“弱势小企业”,随后5月底完成6.5亿美元融资,估值达90亿美

0评论2025-07-1913

网络安全公司NeuralTrust成功“越狱”xAI旗下Grok 4模型
近日,网络安全公司NeuralTrust宣布已成功“越狱”xAI旗下的Grok 4模型,利用“回音室攻击”等方法诱导其生成制造武器、毒品等不

0评论2025-07-1918

京东外卖推出一站式政企用餐解决方案,覆盖超15000家重点企业
为满足员工多元化用餐需求,京东外卖推出一站式政企用餐解决方案。该方案已覆盖超15000家重点企业,涉及多领域,解决了员工用餐

0评论2025-07-1916

OpenAI推出AGI,台积电业绩超预期,英伟达、微软、台积电市值创新高
7月17日,AI与芯片行业迎来重大动态。OpenAI的AGI震撼登场,展现出强大的自主能力;台积电业绩斐然,彰显AI芯片需求旺盛;英伟达

0评论2025-07-1912

上海岩思与华山医院合作脑机接口研究获突破,10例受试者实现“意念说话”
近日,上海岩思类脑人工智能研究院与复旦大学附属华山医院合作在脑机接口领域取得重大突破,10例受试者通过植入电极与训练,实现

0评论2025-07-1821

京东回应未参与外卖补贴大战,强调可持续增长
近期外卖行业补贴大战硝烟弥漫,“0元购”“18 - 18”等恶性补贴频出。对此,京东明确回应未参与此类恶性竞争,认为好生意应追求

0评论2025-07-1820

小米澎湃OS 2发布近期升级功能,支持苹果与小米相册双向云备份
7月17日,小米澎湃OS发布澎湃OS 2近期升级功能,涵盖萌宠主题、相册编辑等多方面,其中跨生态相册云备份功能实现苹果与小米相册

0评论2025-07-1825