2025年8月20日深夜,字节跳动Seed团队开源大语言模型Seed-OSS系列,以360亿参数入局,却在上下文处理能力上实现512K的性能,是目前主流大模型的4倍。该系列模型还创新性地引入“思考预算”机制,在多项基准测试中取得优异成绩,为国产开源base模型注入新力量。
Seed-OSS系列模型发布详情
8月20日深夜,字节跳动Seed团队正式在Hugging Face和GitHub上发布Seed-OSS系列模型,采用Apache-2.0开源协议,可免费用于学术研究和商业部署。该系列包含两个基础模型和一个指令微调模型,基于稠密模型架构,有360亿参数,采用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数,整个模型有64层,隐藏层维度5120,词汇表大小155K 。此外,考虑到合成指令数据可能影响后训练研究,字节Seed团队提供了两个版本的基座模型,一个包含合成指令数据(性能更强),一个不包含(更纯净)。
512K原生长上下文能力
Seed-OSS最亮眼的特性是原生512K超长上下文窗口,目前主流开源模型如DeepSeek V3.1的上下文窗口是128K,Seed-OSS直接翻了4倍,且该512K是在预训练阶段构建好的。这意味着它能轻松应对法律文档审查、长篇报告分析、复杂代码库理解等需处理海量信息的专业场景。在长上下文基准测试RULER中,Seed-36B-Instruct的性能优于部分同级别模型,包括优于OpenAI-36B、Qwen-3-30B-Thinking模型。
“思考预算”机制
Seed-OSS引入 “思考预算”机制,通过设定token数量控制模型思考深度。比如设置512个token预算,模型推理时会实时反馈已使用和剩余token数量,在预算耗尽时给出答案。对于简单任务,可设较小预算让模型快速响应;复杂任务则给予更多预算。字节跳动建议使用512的整数倍,模型在这些区间经过大量训练。当预算设置为0(或低于512),模型会跳过内部思考步骤直接给出答案;设置为512及更高,模型会启动内部推理机制,利用预算空间展开逻辑分析等。
多项基准测试成绩优异
在知识理解方面,Seed-OSS-36B-base在MMLU-Pro上达到65.1分,超过同等规模的Qwen2.5-32B-base的58.5分,在TriviaQA上拿下82.1分。推理能力的BBH基准测试得分87.7,刷新开源模型记录。数学能力上,GSM8K达到90.8分,MATH为81.7分。代码能力方面,Humaneval得分76.8,MBPP达到80.6。指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到91.7分,仅次于OpenAI的OSS-20B。且这些成绩是用仅12T token训练出来的,相比之下,很多同规模模型训练数据量在15T以上。
字节Seed团队开源版图不断扩大
字节Seed团队成立于2023年,定位是打造业界最先进的AI基础模型,研究方向覆盖大语言模型、多模态、AI基础设施等领域。自成立后,已陆续开源多个有影响力项目,如今年5月发布的Seed-Coder,是8B规模代码生成模型,创新点是让LLM自己管理和筛选训练数据,提升代码生成能力;紧接着推出的BAGEL,是统一多模态模型,能同时处理文本、图像和视频;还发布过基于离散状态扩散技术的实验性语言模型Seed Diffusion,在代码生成任务上推理速度极高;为支撑模型训练,开源了VeOmni,一个PyTorch原生的全模态分布式训练框架;最近还推出Seed LiveInterpret端到端同声传译模型,翻译准确率高、延迟低,还能复刻说话人声音特征。如今Seed-OSS的开源,更为国产开源base模型增添一员猛将。
以上文章由 AI 总结生成