8月5日,在GPT-5发布前夕,OpenAI推出两款开源权重大语言模型gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2发布后,OpenAI近六年来首次发布开放权重的模型,且借助优化技术可在本地设备运行。Sebastian Raschka博士对从GPT-2到gpt-oss的LLM架构演进进行深度解析,并与Qwen3详细对比,揭示大模型架构的发展脉络。
OpenAI发布开源权重大语言模型
8月5日,在GPT-5发布前两天,OpenAI推出两款开源权重大语言模型:gpt-oss-120b、gpt-oss-20b。这是自2019年GPT-2以来,近六年来OpenAI首次发布开放权重的模型。并且,得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。
GPT-2到gpt-oss的架构演进解析
Sebastian Raschka博士在《从GPT-2到gpt-oss:架构进步分析》一文中,深度解析了从GPT-2到gpt-oss的LLM架构演进。整体来看,顶尖的LLM开发者往往采用相同的基础架构,性能提升多来自数据与算法调整及小幅微调。其原因包括顶级实验室间人才流动频繁、Transformer架构的霸主地位以及性能提升多源于数据处理和算法微调而非架构重大变革。从具体架构变化上看,一是移除Dropout,它是传统防止过拟合技术,但在LLM通常的海量数据集单轮训练场景中,过拟合风险小,使用Dropout反而可能导致模型在下游任务表现变差;二是RoPE替代绝对位置编码,在基于Transformer的大模型中位置编码必要,RoPE通过对query和key向量施加位置相关旋转来编码位置信息,自2023年meta发布初代Llama模型后被广泛采用;三是激活函数之争,早期GPT架构使用GELU,如今Swish因计算成本略低在多数新模型中取代GELU,但GELU也未被完全抛弃;四是前馈网络模块结构改变,前馈模块常被带门控的GLU变体取代,以SwiGLU为例,其不仅性能更好,总参数量还更少。
gpt-oss与Qwen3的对比
Sebastian Raschka博士还将gpt-oss与Qwen3进行了详细对比,内容涵盖模型架构、MXFP4优化技术(如何将庞大的gpt-oss模型部署在单张GPU上)、宽度与深度的权衡(设计思路对比分析)、注意力机制的细节(注意力偏置与注意力池解析)以及性能基准(全面评测并与GPT-5展望比较)等方面。
以上文章由 AI 总结生成