免费发布消息

OpenAI或发布两款开源大模型,六大技术细节及相关配置信息曝光

   2025-08-02 230
核心提示:近日,有关OpenAI可能发布开源大模型的消息引发关注,两款分别为1200亿参数的混合专家模型和200亿参数的稠密模型,专注文本处理

近日,有关OpenAI可能发布开源大模型的消息引发关注,两款分别为1200亿参数的混合专家模型和200亿参数的稠密模型,专注文本处理。其在模型架构、训练技术等多方面的六大技术细节遭泄露,同时,疑似该开源模型的配置信息也曾短暂出现在Hugging Face平台,被网友保存并似乎得到OpenAI成员点赞验证。


可能发布的两款开源大模型架构

据爆料,OpenAI可能发布两款模型。一款为1200亿(120B)参数的混合专家(MoE)模型,推理时仅激活约50 - 60亿(5B/6B)参数,在保持知识容量的同时,实现高推理效率,大幅降低运行成本。另一款是200亿(20B)参数的稠密模型,更为小巧、易于部署。目前这两款模型专注于文本处理,暂不涉及多模态能力。


训练技术与激活函数细节

为追求极致效率,模型可能采用Float4进行训练或量化,这一激进量化方案可压缩模型体积并提升运算速度,推测可能借助英伟达最新发布的Blackwell架构GPU完成,因其原生支持Float4运算,也可能是通过训练后量化(PTQ)技术压缩到Float4。同时,为配合Float4量化,模型可能采用带范围限制的SwiGLU激活函数,对其输出范围裁剪至 - 7到7之间,类似经典的ReLU6函数,目的是消除激活值中的极端异常值,确保数值分布稳定,降低量化精度损失。


上下文窗口与注意力机制技术

模型将拥有128K的超长上下文窗口,推测其基础上下文窗口为4K,之后在训练中途采用YaRN等技术无缝扩展至128K。为高效处理128K长文本,模型采用滑动窗口注意力(SWA)与注意力汇聚(Attention Sinks)两大关键技术。SWA窗口大小为128,计算注意力时每个词元只需关注邻近128个词元,将计算复杂度从二次方降至线性级别。而注意力汇聚技术则是为解决SWA遗忘早期重要信息的问题,强制模型始终关注最开始的几个(如4或8个)关键token,确保处理长序列时不会失忆,NVIDIA的TensorRT - LLM也支持此功能。


底层架构特点

模型的基础架构可能借鉴了Llama和Mixtral等成功开源模型。关键特征包括合并注意力机制中的查询(Q)、键(K)、值(V)矩阵,即合并的QKV矩阵,以优化计算效率;并且与一些模型去掉偏置项的做法不同,该模型在所有模块(包括MLP、注意力层甚至MoE的路由层)都保留了偏置项,这或许有助于提升模型的拟合能力。


疑似开源模型的短暂露面与配置信息

网友@apples_jimmy发现OpenAI开源模型gpt - oss - 20b和gpt - oss - 120b疑似被手滑“泄露”至Hugging Face,在模型上传一分钟内他便发现并在其被删除前保存了配置。配置文件显示,该模型可能是基于MoE混合专家架构的高容量模型,具备36层Transformer,每层可能有MoE路由;大规模MoE设置(128个专家,每个token激活4个);词表超过20万,可能支持多语种或代码混合输入;上下文窗口为4096,但有滑动窗口和扩展RoPE,或具备处理更长上下文能力;使用RoPE的NTK插值版本;注意力头多达64个,但键/值头只有8个,意味着用的是Multi - QueryAttention(MQA)。另一位网友@secemp9也在Hugging Face发现该模型,且有OpenAI成员点赞其爆料推文,上传模型的组织“yofo - happy - panda”中有OpenAI现任员工Dominik Kundel,负责开发者体验和SDK 。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行