分享好友 资讯首页 频道列表

OpenAI时隔六年发布开源权重模型gpt-oss,解析其与GPT-2架构演进

2025-08-18 08:271810

8月5日,在GPT-5发布前夕,OpenAI推出两款开源权重大语言模型gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2发布后,OpenAI近六年来首次发布开放权重的模型,且借助优化技术可在本地设备运行。Sebastian Raschka博士对从GPT-2到gpt-oss的LLM架构演进进行深度解析,并与Qwen3详细对比,揭示大模型架构的发展脉络。


OpenAI发布开源权重大语言模型

8月5日,在GPT-5发布前两天,OpenAI推出两款开源权重大语言模型:gpt-oss-120b、gpt-oss-20b。这是自2019年GPT-2以来,近六年来OpenAI首次发布开放权重的模型。并且,得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。


GPT-2到gpt-oss的架构演进解析

Sebastian Raschka博士在《从GPT-2到gpt-oss:架构进步分析》一文中,深度解析了从GPT-2到gpt-oss的LLM架构演进。整体来看,顶尖的LLM开发者往往采用相同的基础架构,性能提升多来自数据与算法调整及小幅微调。其原因包括顶级实验室间人才流动频繁、Transformer架构的霸主地位以及性能提升多源于数据处理和算法微调而非架构重大变革。从具体架构变化上看,一是移除Dropout,它是传统防止过拟合技术,但在LLM通常的海量数据集单轮训练场景中,过拟合风险小,使用Dropout反而可能导致模型在下游任务表现变差;二是RoPE替代绝对位置编码,在基于Transformer的大模型中位置编码必要,RoPE通过对query和key向量施加位置相关旋转来编码位置信息,自2023年meta发布初代Llama模型后被广泛采用;三是激活函数之争,早期GPT架构使用GELU,如今Swish因计算成本略低在多数新模型中取代GELU,但GELU也未被完全抛弃;四是前馈网络模块结构改变,前馈模块常被带门控的GLU变体取代,以SwiGLU为例,其不仅性能更好,总参数量还更少。


gpt-oss与Qwen3的对比

Sebastian Raschka博士还将gpt-oss与Qwen3进行了详细对比,内容涵盖模型架构、MXFP4优化技术(如何将庞大的gpt-oss模型部署在单张GPU上)、宽度与深度的权衡(设计思路对比分析)、注意力机制的细节(注意力偏置与注意力池解析)以及性能基准(全面评测并与GPT-5展望比较)等方面。


以上文章由 AI 总结生成

反对 0
举报 0
收藏 0
打赏 0
评论 0
联合国秘书长发言人迪雅里克:被中国“一抓一放”人机交互技术“种草”
当地时间8月20日,联合国例行记者会结束后,央视记者展示的中国智造“一抓一放”隔空传送人机交互技术,成功吸引了联合国秘书长

0评论2025-08-220

微软AI首席执行官苏莱曼警示:看似有意识的AI或致严重后果,还可能引发“AI精神病”
微软AI首席执行官穆斯塔法・苏莱曼近日发出双重警示,一方面提醒看似有意识的AI将带来严重后果,另一方面表达对“AI致人精神失常

0评论2025-08-220

字节跳动开源360亿参数大模型Seed-OSS,512K上下文、多项性能刷新纪录
2025年8月20日深夜,字节跳动Seed团队开源大语言模型Seed-OSS系列,以360亿参数入局,却在上下文处理能力上实现512K的性能,是目

0评论2025-08-220

中兴通讯盘中触及涨停板,当日多概念上涨且前一日主力资金大幅流入
8月21日9点31分,中兴通讯股价表现亮眼,盘中触及涨停板。这一动态不仅反映了个股的强劲走势,还与所属行业及相关概念板块的行情

0评论2025-08-220

AI独角兽公司Character.AI商讨出售与融资,发展之路面临抉择
近日,据外媒报道,全球AI陪伴应用佼佼者、美国AI聊天机器人独角兽公司Character.AI正面临发展方向的重大抉择,近几周该公司与潜

0评论2025-08-220

中小型五金件厂商,让这些中小企业有机会参与到更高端的项目供应链中,突破以往“客户圈层有限”的瓶颈
中小型五金件厂商借助头部企业的渠道资源进入高端项目供应链,不仅是突破“客户圈层有限”瓶颈的关键,更是实现自身跨越式发展的

0评论2025-08-210

头部企业开放渠道资源,带动中小企业进入优质客户体系;中小企业则凭借灵活的定制能力
头部企业与中小企业的这种“资源互补+能力协同”模式,正是产业链生态活力的重要体现,尤其在五金机电这类细分领域特征明显的产

0评论2025-08-210

成都中石油锦华天山站50升油箱加出67.96升汽油,加油站退款后仍未解释
近日,车主杨先生在成都中石油锦华天山站加油时遭遇离奇一幕:其50升容量的汽车油箱,竟被加注了67.96升汽油。面对杨先生的质疑

0评论2025-08-214

美团国际外卖品牌Keeta上线卡塔尔,计划拓展多国市场
当地时间8月19日上午11点,美团旗下国际外卖品牌Keeta正式在卡塔尔首都多哈上线,开启在中东市场的新征程。自2024年9月进入沙特

0评论2025-08-210

美团、滴滴在巴西外卖市场竞争激烈,因“二选一”“侵权”等问题多次对簿公堂
今年二季度,美团和滴滴先后宣布进军巴西外卖市场,近日,双方因“二选一”、“侵权”等问题多次在巴西法院展开交锋,竞争激烈程

0评论2025-08-200