2025年7月11日,国内大模型独角兽月之暗面发布并开源最新一代MoE架构基础模型Kimi K2,总参数量达1万亿,激活参数为32B。该模型在多项基准测试中取得开源模型中的SOTA成绩,在部分能力维度上超越竞品,同时在编程、工具调用等方面展现出一定特性,未来还将加入视觉理解和思考能力。
Kimi K2的发布与开源详情
7月11日,月之暗面发布并开源其最新一代MoE架构基础模型Kimi K2。此模型总参数量达到1万亿(1T),激活参数为32B 。Kimi K2已在Kimi Web端和App端中可用,其API服务也同步上线,支持最长128K上下文,计费方案为每百万输入tokens/4元,每百万输出tokens/16元,输入输出价格均为DeepSeek V3的2倍。Kimi K2系列中的两个模型版本现已开源,包括未经过指令微调的基础预训练模型Kimi-K2-base和通用指令微调版本Kimi-K2-Instruct(非思考模型),前者适合科研与自定义场景,后者则可用于大多数问答与Agent任务。此外,Kimi K2现已上线无问芯穹Infini-AI异构云平台(cloud.infini-ai.com/genstudio/),用户能以与官方API同样的价格调用。
Kimi K2的性能表现
在SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准测试中,Kimi K2取得开源模型中的SOTA成绩。在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2的表现超过了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基准测试中略逊于Claude 4 Opus、OpenAI GPT-4.1等模型。
Kimi K2的技术亮点
Kimi K2在预训练阶段使用了“MuonClip”优化器实现万亿参数模型的训练,该优化器能提高Token利用效率,缓解高质量人类数据的短缺问题。月之暗面还应用了大规模Agentic Tool Use数据合成技术,可覆盖数百领域、数千工具,样本由LLM评估筛选后用于训练。同时引入自我评价机制的通用强化学习技术,解决了不可验证任务的奖励稀缺问题,实现通用强化学习,提升泛化任务表现。
Kimi K2的能力实测
在编程能力上,据月之暗面博客文章,在前端开发任务中,Kimi K2能生成有设计感与视觉表现力的代码,支持粒子系统、可视化和3D场景等表现形式。但智东西实测时,Kimi K2交付的网页渲染效果并未如官方Demo中那般逼真,交互性和功能丰富度也略逊一筹。在个人网站开发任务上,其展现出一定规划能力,但相较Kimi K1.5的UI审美水平进步有限。在Agent工具调用能力方面,Kimi K2现具备复杂指令解析能力,可将需求自动拆解为一系列格式规范、可直接执行的ToolCall结构。在月之暗面内部测试环境演示中,它能分析远程办公比例对薪资的影响等复杂任务,还拥有更强的风格化写作能力,在通用知识推理、数学、规划等任务中的表现亦有提升。
Kimi K2的未来规划
目前,Kimi K2尚不支持视觉理解和思考能力,月之暗面称这些能力将在未来陆续加入。
以上文章由 AI 总结生成