分享好友 资讯首页 频道列表

谷歌DeepMind发布MoR架构,推理速度翻倍、内存减半,或成Transformer替代方案

2025-07-18 09:17290

近日,谷歌DeepMind与韩国科学技术院(KAIST)联合发布名为“Mixture-of-Recursions”(MoR)的新型语言模型架构,引发广泛关注。该架构将递归计算与动态路由机制相结合,在保持模型性能的同时,实现推理速度翻倍、训练计算量减少,并降低约50%的KV缓存内存使用,被认为有望成为“Transformer杀手”,为未来语言模型架构设计提供了新方向。


MoR架构诞生的背景

自2017年问世以来,Transformer架构成为大型语言模型的技术基础,但随着模型规模增大,其对计算和内存资源需求日益增加,训练和部署成本高昂。过去的效率优化方法通常只关注单一方向,难以同时优化多个效率目标。在此背景下,谷歌DeepMind与KAIST的研究人员联合发布了MoR架构。


MoR架构的核心创新

MoR架构的核心创新在于将递归计算与动态路由机制相结合。在标准Transformer模型中,输入文本的每个token都要经过相同数量计算层处理,而MoR允许不同token根据自身复杂度接受不同深度处理。它使用共享的参数块提升参数效率,通过轻量级“路由器”决定每个token的递归计算次数。研究团队测试了“专家选择”和“token选择”等多种路由策略,以平衡计算负载和避免逻辑问题。在参数共享方面,“Middle-Cycle”策略表现最佳,该策略在模型第一层和最后一层使用独立参数,中间层共享权重,在参数效率和模型表达能力间取得较好平衡。


MoR架构在内存管理上的改进

内存管理是MoR的关键改进之一。传统递归模型即使参数共享,每一层递归仍会产生独立的KV缓存,内存占用高。MoR提出“递归式缓存”和“递归共享”两种新策略。“递归式缓存”只为特定递归步骤的token存储KV数据,限制注意力计算在本地数据,降低内存占用和数据读写量;“递归共享”策略利用所有token都会经过第一个递归块的特性,只在第一步缓存KV数据供后续重复使用,最大化节省内存。


MoR架构的性能测试成果

研究团队在1.35亿到17亿参数的多个模型规模上进行测试。结果表明,相同训练计算预算下,MoR模型参数量比基准Transformer模型少近一半,但多项少样本学习任务平均准确率达43.1%,超过基准模型的42.3%。在固定训练数据量对比实验中,MoR使用少25%训练计算量,性能仍超过基准模型,训练时间减少19%,峰值内存使用降低25%。推理性能上,MoR优势明显,采用连续深度批处理技术和早期退出机制,显著提升处理吞吐量,3.6亿规模模型测试中,MoR-4配置特定设置下实现2.06倍推理加速。此外,MoR模型处理不同类型token时,会依据语义重要性分配递归次数,如内容丰富的token会被分配更多递归次数。


MoR架构的发展渊源与意义

MoR的出现离不开谷歌此前相关研究铺垫,如早前的Mixture-of-Depths(MoD)等技术探索了动态分配计算资源方法,递归Transformer也为其提供理论基础。MoR延续了对AI效率优化的探索,从单一维度转向多维度协同优化,对降低大语言模型部署和使用成本具有较大实际意义。虽然目前尚不能断言MoR能否完全替代Transformer,但它为未来语言模型架构设计提供了在性能和效率上极具潜力的发展方向。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
前JYP员工爆料离职原因:工作强度大,公司问题多
近日,一名前JYP员工爆料离职原因,其指出在JYP工作不仅强度大到身体不堪重负,且工作环境恶劣,同时公司内部管理、团队建设等方

0评论2025-09-105

美国财政部长贝森特晚宴上爆粗威胁住房金融署署长普尔特,称要揍烂其脸
9月3日,一场本应气氛融洽的私人晚宴却上演了戏剧性的一幕,美国财政部长贝森特与联邦住房金融署署长比尔·普尔特激烈冲突,贝森

0评论2025-09-103

英伟达CFO透露下一代Rubin芯片已流片,介绍业务详情
当地时间9月8日,在高盛技术会议上,英伟达CFO科莱特·克雷斯透露了英伟达下一代芯片的进展及业务详情,包括Rubin芯片流片情况、

0评论2025-09-103

2025年第二季度华为以990万台出货量再夺全球腕戴设备市场第一,小米、苹果分列二三位
2025年9月9日,IDC发布《全球可穿戴设备市场季度跟踪报告》显示,2025年第二季度全球腕戴设备市场出货4922万台,同比增长12.3%。

0评论2025-09-103

阿里巴巴股价3连升创半年新高,网传生日当天将发布重磅业务
9月9日,阿里巴巴股价涨近4%,3连升并创半年新高。因网传9月10日其26岁生日当天将在杭州举行发布会,发布重磅业务,大量媒体已受

0评论2025-09-102

苹果秋季发布会前,iPhone17黄牛“预售”生意抢跑,最高加价2500元
9月10日苹果秋季发布会前夕,iPhone17的“预售”生意已在黄牛端悄然开启。闲鱼平台上相关商品超40件,搜索用户达1296位,黄牛预

0评论2025-09-103

小米被辞退员工王腾30天抖音涨粉超17万,否认窃取公司机密
小米公司中国区市场部员工王腾因泄露公司机密遭辞退事件近日持续引发关注。9月8日,“王腾称没有窃取公司机密出售”等话题登上微

0评论2025-09-103

花旗因TPU竞争加剧下调英伟达目标价至200美元,预计2026年GPU销售额减少120亿美元
花旗银行近日因TPU竞争加剧,将英伟达目标价下调至200美元,并预计2026年英伟达GPU销售额将减少约120亿美元。尽管XPU市场增速将

0评论2025-09-095

小米总裁卢伟冰探班软件部,称基于澎湃OS 3 Beta版表现金凡可上桌
2025年9月8日,小米集团总裁卢伟冰发布“探班”视频,深入小米软件部了解澎湃OS 3 Beta版优化进展。视频中,卢伟冰、金凡等多位

0评论2025-09-0911

小米“昆仑”增程SUV谍照曝光,预计2026年推出
近日,小米“昆仑”增程SUV谍照再次曝光,此次它与小米YU7同框出现,引发广泛关注。从谍照来看,这款预计2026年推出的新车尺寸庞

0评论2025-09-095