深度求索发布DeepSeek - R1模型并开展开源行动，实现AI技术突破_新闻资讯_资讯

2025年1月20日，深度求索公司正式发布推理模型DeepSeek - R1，随后在2月24日至3月1日发起“技术开源周”行动，这一系列举措标志着中国科技企业在人工智能领域的重大突破。DeepSeek - R1不仅成功复现OpenAI o1能力，还在有限算力下实现技术飞跃，其创新的训练体系和全栈式技术革新，为行业发展带来新的思路与方向。

DeepSeek - R1发布及开源行动

2025年1月20日，深度求索（DeepSeek）公司正式发布最新推理模型DeepSeek - R1。紧接着，在2月24日至3月1日期间，深度求索创新性发起“技术开源周”行动，将DeepSeek V3/R1模型实践中验证的高效加速模块以源代码形式正式发布，形成从算法创新到工程落地的完整开源生态。

DeepSeek - R1受关注的原因

DeepSeek - R1此次受到广泛关注主要有两点原因。其一，在OpenAI o1完全闭源且API价格高昂的背景下，DeepSeek团队成功复现了o1的能力，类似2023年meta Llama发布，为全球开发者和企业提供了可用的推理模型。其二，在有限的算力资源支持下，DeepSeek - R1通过强大的算法创新突破了算力瓶颈，展示了在资源受限条件下实现全球领先成果的可能性。此外，该模型还支持模型蒸馏，允许用户基于此训练其他专用模型，进一步推动AI技术的普及和创新。

基于强化学习复现OpenAI o1能力

强化学习在大模型后训练阶段至关重要，OpenAI研发的ChatGPT采用的RLHF技术框架虽有成效，但存在技术实现复杂度高、依赖海量数据及计算资源消耗大等挑战。DeepSeek - R1创新性构建融合监督微调（SFT）与强化学习（RL）的多阶段协同训练体系，自主研发GRPO算法，通过采样输出平均奖励基准化技术，突破传统强化学习对大规模标注数据奖励模型的依赖瓶颈。其系统化训练框架涵盖冷启动阶段、推理导向强化学习、拒绝采样与监督微调以及全面强化场景学习等核心技术阶段，且该多阶段训练方法已被广泛验证，多个开源复现项目实现左右互搏持续学习效果，证明其有效性和可复现性。

有限算力下的高效大模型训练

为在有限算力资源条件下实现高效能模型训练，DeepSeek技术团队通过全栈式技术革新，构建涵盖硬件适配层、中间件层及算法层的协同优化体系，取得多项核心技术突破。在专家混合（MoE）架构方面，提出自研的细粒度专家与共享专家协同机制，解决专家负载均衡问题，提升模型训练和推理效率。针对多头注意力机制问题，自主研发多头潜在注意力机制（MLA），降低KV缓存，提升推理效率，并开源核心算法代码。创新设计的多Token生成（MTP）机制，突破传统逐token生成范式，提升模型训练效率与前向推理速度，降低算力消耗。此外，专为MoE架构分布式训练设计的DeepEP通信库，融合NVlink节点内高速互联与RDMA节点间通信技术，优化数据分发和合并操作。

以上文章由 AI 总结生成