在OpenAI前首席科学家Ilya Sutskever提出Scaling Law撞墙论后不久,12月1日,DeepSeek迅速发布V3.2和V3.2-Speciale两个模型予以回应,用实际成果表明Scaling Law仍具潜力,其团队成员发文强调持续扩展的重要性,并针对模型现存短板,表明将扩大预训练算力弥补差距,引发行业对其未来发展及算力来源的诸多猜测。
Scaling Law撞墙论引发热议,DeepSeek强势回应
就在上周,OpenAI前首席科学家、现SSI CEO Ilya Sutskever在播客访谈中称过去五年的“age of scaling”走向尽头,预训练数据有限,单纯增加GPU堆大模型难有质变,此表态被视为Scaling Law撞墙论的有力佐证。然而仅过几天,12月1日,DeepSeek发布V3.2和V3.2-Speciale,给出不同答案。DeepSeek研究员Zhibin Gou在X上发文:“如果Gemini - 3证明了持续扩展预训练的可能性,DeepSeek - V3.2 - Speciale则证明了在大规模上下文环境中强化学习的可扩展性。我们花了一年时间将DeepSeek - V3推向极限,得出的经验是:训练后的瓶颈需通过优化方法和数据来解决,而非仅等待更好的基础模型。”他还补充“持续扩大模型规模、数据量、上下文和强化学习。别让那些“遭遇瓶颈”的杂音阻挡你前进。”
V3.2:高效主力模型的卓越表现
V3.2是9月发布的实验版V3.2 - Exp的正式继任者,目标为平衡推理能力与输出成本。在推理类Benchmark测试中,它达到GPT - 5水平,如AIME 2025数学竞赛93.1%(GPT - 5为94.6%),HMMT 2025二月赛92.5%(GPT - 5为88.3%),LiveCodeBench代码评测83.3%(GPT - 5为84.5%)。相比Kimi - K2 - Thinking,V3.2在保持相近性能时,输出Token量大幅降低。架构上,它引入DeepSeek Sparse Attention(DSA),用稀疏注意力替代传统全量注意力,将计算复杂度从O(L²)降到O(Lk),经多维度确认DSA有效性,表明底层架构创新正确。此外,V3.2是DeepSeek首个融合“思考”与“工具调用”的模型,打破之前推理模型在思考模式下无法调用工具的限制。同时,DeepSeek构建大规模Agent任务合成流水线,覆盖1800 +环境和85000 +复杂指令,以“难解答,易验证”为设计哲学,通过大量尝试让模型获明确对错反馈,无需人工标注,且官方强调V3.2未针对测试集工具特殊训练,却在Agent评测中达到开源最高水平,泛化能力真实。
V3.2-Speciale:极限推理的出色成果
V3.2 - Speciale是V3.2的“长思考增强版”,与V3.2相反,它放宽长度限制,鼓励模型深度推理。从技术报告Table 3可见,同样任务下,Speciale输出Token量显著高于其他模型,如AIME 2025上,GPT - 5 High输出13k tokens,Gemini 3.0 Pro输出15k,而Speciale输出23k;Codeforces上差距更大,Speciale输出77k tokens,是Gemini的3.5倍。尽管Speciale Token输出量极大,但因DeepSeek定价策略和DSA带来的效率提升,其最终使用成本碾压对手,比GPT - 5便宜约25倍($0.4 vs $10),比Gemini 3.0 Pro便宜约30倍($12),比Claude Opus 4.5便宜约62倍($25)。它还验证了对推理“过程”的监督可从数学证明泛化到更广泛领域,整合DeepSeekMath - V2的数据集和奖励方法,追求推理过程严谨完整,将“过程监督”成功迁移到代码生成和通用逻辑任务中。
DeepSeek的现状与未来规划
DeepSeek在技术报告中承认,由于总训练FLOPs较少,V3.2的世界知识广度仍落后于Gemini 3.0 Pro。但他们不依赖更大基础模型,而是先打磨方法论,通过合成数据、自我验证和大规模RL,跑出后训练上限。此次发布展示了成果,V3.2将“自我进化式工程”应用在通用效率上,Speciale把过程奖励与自我验证机制推向高阶逻辑推理,共同指向模型依靠自我博弈持续演进。DeepSeek计划扩大预训练算力弥补知识差距,引发诸多联想,如补全算力后模型会怎样,算力资源从哪来。回顾过去一年,Janus的多模态统一架构等创新在V3基座上迭代,因此合理预期,当参数更大、训练FLOPs更多的V4或R2到来时,可能出现能感知多模态环境、具备更长期记忆、在真实交互中持续进化的系统,如今合成环境中的自我博弈或延伸到真实环境在线学习,而算力问题在英伟达中国市场份额归零背景下,显得更为关键和引人遐想。
以上文章由 AI 总结生成




