近日,麻省理工学院(MIT)的Markus J。 Buehler和Alireza Ghafarollahi推出自主科学发现模型SPARKS,它能独立完成从假设生成到结果报告的整个科学发现周期,与当下前沿模型有着本质区别,并在蛋白质领域揭示了两条全新设计规则,为蛋白质设计提供了新的指导原则。
SPARKS:实现自主科学发现的创新模型
几个月前,MIT的Markus J。 Buehler和Alireza Ghafarollahi推出了自主科学发现模型SPARKS。这是一个多模态多智能体(Agent)AI模型,可执行整个发现周期,包括假设生成、实验设计和迭代改进,在无需人工干预的情况下开发出可推广的原则并生成报告。研究人员已证明其适用于从蛋白质、仿生材料到无机材料等各个领域的广泛问题空间。它利用实践学习,通过自我批判进行思考,并使用递归交互创造知识,不仅与数据交互,还与其自身想法的物理和逻辑后果交互,能完成假设生成、数据检索、编码、模拟、评审、改进以及详细的稿件撰写等一系列科学过程,无需提示、手动调整或人工监督。
SPARKS与前沿模型的本质差异
SPARKS与当下的前沿模型有着本质不同。虽然像o3 - pro和o3 deep research这样的模型可以生成摘要或设计思路,但它们无法实现全面的发现。而SPARKS能自主进行整个科学过程,生成并验证可证伪的假设,解释结果,并改进其方法,直到出现可重复、经过充分验证的基于证据的发现。Buehler表示:「这是我们首次见证人工智能发现新科学。SPARKS的能力远超前沿模型,即使仅比较写作能力,SPARKS的表现也依然出色:在基准评估中,它的得分比o3 - pro高出1.6倍,比o3深度研究高出2.5倍以上————这并非因为它的写作能力更强,而是因为它的写作目标明确,从始至终都以原创且经过验证的构图推理为基础。」
SPARKS揭示的两条蛋白质设计新规则
研究人员在多个案例研究中对SPARKS进行了基准测试,发现它揭示了两条此前未知的蛋白质设计规则。其一为长度相关的机械交叉,富含β折叠的肽的性能优于α螺旋,但仅当链长超过约80个氨基酸时才有效,低于该长度时,螺旋结构占主导地位。此前没有系统性研究揭示这种交叉效应,这一发现解决了分子设计中长期存在的一个模糊性问题,并提供了一种基于机械强度的生物材料和蛋白质基纳米器件结构调控的指导原则。其二是稳定性「挫折区」,当肽链长度适中(约50 - 70个残基),且α/β含量均衡时,肽链的稳定性会变得高度不稳定。SPARKS绘制了这一不稳定区域,并解释了其成因:竞争折叠的核和暴露的边缘链会破坏结构的稳定性。这一洞见精准地指出了蛋白质设计中的一种失效机制,为设计人员提供了新的手段来避免脆弱的结构或对其进行改造,为工程师和生物学家提供了在从头设计中避免稳定性陷阱的路线图,尤其是在探索混合基序时。
研究人员对AI实现自主科学发现的感慨
Buehler在推文里感叹道:「2004年我攻读博士学位时,我们花了无数的时间阅读论文、从零开始实现想法、运行模拟、调试代码,并试图理解嘈杂的数据。每一个洞见都是慢慢涌现的;通过迭代、直觉,以及常常的挫折!我从未想过,仅仅二十年后,我们就能拥有计算机模型,它不仅能生成科学假设,还能测试、模拟、验证这些假设,并提取可推广的原理————比如缩放定律、设计规则————然后将结果写成可发表的论文,所有这些都是自主完成的。」
以上文章由 AI 总结生成