数月前,苹果杰出工程师庞若鸣离职加入meta,令人意外的是,在他于meta工作约三个月期间,其在苹果参与的工作仍不断发表高价值研究。其中,一项名为Synthetic Bootstrapped Pretraining(SBP)的新语言模型预训练流程,为解决大模型训练面临的高质量数据枯竭问题提供了新思路,并在实验中展现出良好效果,为数据高效训练开辟新方向。
庞若鸣离职后苹果期间工作仍有高价值研究发表
数月前,苹果基础模型团队负责人、杰出工程师庞若鸣离职,扎克伯格豪掷两亿美元招揽其加入meta超级智能团队。根据领英信息,他已在meta工作约三个月。但在此期间,庞若鸣在苹果参与的工作仍不断发表,且不乏高价值研究。在苹果时,庞若鸣领导苹果基础模型团队,负责开发Apple Intelligence及其他AI功能的核心基础模型,其工作在推动基础大模型进步领域影响力颇高。
SBP提出背景:大模型训练数据面临“规模壁垒”
大规模语言模型依赖海量互联网文本训练,受规模效应影响,数据量和多样性与模型能力相关。但如今,从互联网获取的数据已达真实数据规模瓶颈,高质量文本数据迅速枯竭,触及“规模壁垒”,急需重新思考如何高效利用现有数据。此外,大模型预训练成功依赖文档内部token间因果关联,却忽视了跨文档相关性,如Transformer论文与其代码实现文档、《哈利·波特》小说与电影剧本等,这些都表明存在源于预训练文档潜在联合分布的较弱跨文档相关性。
SBP预训练流程:三步充分利用跨文档相关性
为解决上述问题,研究团队提出Synthetic Bootstrapped Pretraining(SBP),分为三个步骤。第一步是相似文档对识别,SBP在预训练数据集中识别语义相似的文档对,如Transformer论文及其代码实现,通过外部模型编码文档为向量,用ScaNN结合量化进行近似最近邻搜索,当相似度分数高于0.75且经“shingles”检查无重叠时选入候选集合;第二步是条件建模,对d2|d1的条件概率进行建模,构建“数据合成器”,该合成器与主语言模型同架构且从预训练检查点初始化,通过最大化条件概率学习相似文档关系模式;第三步是数据扩展,将训练好的合成器应用于整个预训练语料库生成新文本语料,对合成结果过滤后与原始数据集联合训练,且合成文档训练中不重复使用。
SBP理论基础:贝叶斯视角下的概念学习
从贝叶斯视角,作者将文档生成建模为对潜在概念的后验分布采样,合成器在隐式学习中从种子文档推断潜在概念,生成以不同方式表达同一概念的新文档,使语言模型能以多样化形式多次接触相同知识,获得更强泛化和表达能力。
SBP实验结果:多方面表现出色
研究使用基于Llama 3架构的3B参数Transformer模型,在定制版本DCLM数据集上训练验证SBP。测试损失曲线表明,SBP始终优于基线重复方法,接近“Oracle”模型性能。在200B - token和1T - token训练规模下,SBP比强大基线模型持续改进,分别实现“Oracle”模型性能增益的42%和49%,平均在问答准确率提升上相当于“Oracle”模型有20倍更多独特数据时的47%。训练动态显示,SBP初期略逊基线,但后期性能持续提升,基线趋于平稳。质量分析方面,定性检查表明SBP超越简单释义,能从种子文档抽象核心概念创建新叙述,定量分析证实合成数据在多样性、重复性及更大训练规模下的事实准确性方面表现良好。
SBP的意义与影响:开辟数据高效训练新方向
SBP通过从现有数据提取更多价值,解决大型语言模型可持续发展的根本挑战。它具有数据效率优势,能从固定语料库获取更丰富训练信号,延长现有数据集有效寿命;可自我改进,通过自我引导实现性能提升,适用性广泛;有理论基础,贝叶斯解释提供原理性理解,实现概念级学习;具互补效益,其改进与模型规模扩展改进正交,可整合到现有扩展策略中。这项工作为数据高效训练开辟新方向,随着领域接近数据限制,SBP等方法对语言模型持续进步或至关重要。
以上文章由 AI 总结生成