分享好友 资讯首页 频道列表

OpenAI或发布两款开源大模型,六大技术细节及相关配置信息曝光

2025-08-02 11:11230

近日,有关OpenAI可能发布开源大模型的消息引发关注,两款分别为1200亿参数的混合专家模型和200亿参数的稠密模型,专注文本处理。其在模型架构、训练技术等多方面的六大技术细节遭泄露,同时,疑似该开源模型的配置信息也曾短暂出现在Hugging Face平台,被网友保存并似乎得到OpenAI成员点赞验证。


可能发布的两款开源大模型架构

据爆料,OpenAI可能发布两款模型。一款为1200亿(120B)参数的混合专家(MoE)模型,推理时仅激活约50 - 60亿(5B/6B)参数,在保持知识容量的同时,实现高推理效率,大幅降低运行成本。另一款是200亿(20B)参数的稠密模型,更为小巧、易于部署。目前这两款模型专注于文本处理,暂不涉及多模态能力。


训练技术与激活函数细节

为追求极致效率,模型可能采用Float4进行训练或量化,这一激进量化方案可压缩模型体积并提升运算速度,推测可能借助英伟达最新发布的Blackwell架构GPU完成,因其原生支持Float4运算,也可能是通过训练后量化(PTQ)技术压缩到Float4。同时,为配合Float4量化,模型可能采用带范围限制的SwiGLU激活函数,对其输出范围裁剪至 - 7到7之间,类似经典的ReLU6函数,目的是消除激活值中的极端异常值,确保数值分布稳定,降低量化精度损失。


上下文窗口与注意力机制技术

模型将拥有128K的超长上下文窗口,推测其基础上下文窗口为4K,之后在训练中途采用YaRN等技术无缝扩展至128K。为高效处理128K长文本,模型采用滑动窗口注意力(SWA)与注意力汇聚(Attention Sinks)两大关键技术。SWA窗口大小为128,计算注意力时每个词元只需关注邻近128个词元,将计算复杂度从二次方降至线性级别。而注意力汇聚技术则是为解决SWA遗忘早期重要信息的问题,强制模型始终关注最开始的几个(如4或8个)关键token,确保处理长序列时不会失忆,NVIDIA的TensorRT - LLM也支持此功能。


底层架构特点

模型的基础架构可能借鉴了Llama和Mixtral等成功开源模型。关键特征包括合并注意力机制中的查询(Q)、键(K)、值(V)矩阵,即合并的QKV矩阵,以优化计算效率;并且与一些模型去掉偏置项的做法不同,该模型在所有模块(包括MLP、注意力层甚至MoE的路由层)都保留了偏置项,这或许有助于提升模型的拟合能力。


疑似开源模型的短暂露面与配置信息

网友@apples_jimmy发现OpenAI开源模型gpt - oss - 20b和gpt - oss - 120b疑似被手滑“泄露”至Hugging Face,在模型上传一分钟内他便发现并在其被删除前保存了配置。配置文件显示,该模型可能是基于MoE混合专家架构的高容量模型,具备36层Transformer,每层可能有MoE路由;大规模MoE设置(128个专家,每个token激活4个);词表超过20万,可能支持多语种或代码混合输入;上下文窗口为4096,但有滑动窗口和扩展RoPE,或具备处理更长上下文能力;使用RoPE的NTK插值版本;注意力头多达64个,但键/值头只有8个,意味着用的是Multi - QueryAttention(MQA)。另一位网友@secemp9也在Hugging Face发现该模型,且有OpenAI成员点赞其爆料推文,上传模型的组织“yofo - happy - panda”中有OpenAI现任员工Dominik Kundel,负责开发者体验和SDK 。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
苹果测试全新Siri功能,或于明年春季上线,可实现iPhone无触控操作
彭博社记者马克・古尔曼透露,苹果正在测试一项全新的Siri功能,该功能依托改进的App Intents技术,旨在让iPhone用户仅凭语音即

0评论2025-08-110

科技媒体展示苹果折叠iPhone,预计2026或2027年发布,售价或超2000美元
科技媒体AppleInsider于8月8日发布博文,基于爆料制作展示了苹果折叠iPhone,这款手机预计2026或2027年发布,在屏幕、结构设计、

0评论2025-08-101

英伟达因销售与库存问题计划对RTX 50系列显卡降价
尽管英伟达凭借AI芯片的热销市值突破4万亿美元,但RTX 50系列显卡却因销售不佳、库存积压及市场供应过剩,计划于8月降价。部分厂

0评论2025-08-055

三星与特斯拉达成多项合作:165亿美元芯片订单,或为人形机器人供摄像头模组
近日,三星与特斯拉在业务合作上取得重大进展。不仅三星电子与特斯拉达成165亿美元芯片生产多年期协议,三星电机也传出将为人形

0评论2025-08-053

神舟二十号乘组在轨三个多月,开展多项空间科学实验
神舟二十号乘组陈冬、陈中瑞、王杰在轨已超三月,期间多项空间科学实验有序推进,空间站运行状态良好。他们在植物栽培、细胞学实

0评论2025-08-044

小米智能室外摄像机4 Pro 三摄变焦版开启预约,售价449元
8月3日,小米智能室外摄像机4 Pro 三摄变焦版在京东平台上架并开启预约,8月6日10:00正式开售,售价449元。这款新品在镜头配置

0评论2025-08-043

7月零跑交付5万辆夺新势力销冠,小鹏、小米交付超3万辆创新高
8月1日,造车新势力7月销量榜单出炉,各车企表现分化。零跑汽车以5.01万辆的成绩再度成为月度销量冠军,小鹏、小米等品牌交付量

0评论2025-08-033

华为宣布鸿蒙版《英雄联盟手游》8月6日抢先体验,《金铲铲之战》8月5日删档测试
华为官方宣布重要消息,鸿蒙版《英雄联盟手游》体验活动时间有变,将于8月6日开启万人抢先体验,账号与资产数据无缝互通;此外,

0评论2025-08-037

苹果迈阿密广告牌设计因意外呈阴茎形状引争议
近日,苹果公司在迈阿密为推广“Shot on iPhone,Drawn on iPad”活动设置的广告牌引发争议。该广告牌虽旨在凸显iPhone摄影和iPa

0评论2025-08-014

Meta首席执行官扎克伯格预言:未来不戴AI眼镜者或在认知上处于劣势
Meta首席执行官马克·扎克伯格在公司第二季度财报电话会议上语出惊人,大胆预言未来不佩戴AI眼镜的人将在认知上处于劣势,引发广

0评论2025-08-013