近日,来自普林斯顿大学、斯坦福大学、浙江大学等机构的研究者发布了评估DNA大模型“越狱攻击”生物安全风险的框架GeneBreaker,发现当前最强的Evo2-40B模型即便在训练时去除致病序列,仍能被引导生成接近多种病原体的DNA序列,攻击成功率高达60%。此研究不仅揭示了模型漏洞,更为保障生物模型安全性指明方向。
DNA基础模型的发展与隐忧
近年来,DNA基础模型在生命科学领域取得显著进展,如Alphafold3、Evo2等工具可预测生命分子结构与功能,还能设计工程酶、疫苗等。然而,随着其发展,一个严峻问题浮现:这些模型对“越狱”的敏感性如何,是否会产生有害序列?科学家对此深感担忧。
GeneBreaker框架的诞生与构成
为解决上述担忧,科学家开发了首个系统性评估DNA基础模型越狱漏洞的框架GeneBreaker。该框架的越狱攻击包含三个关键组件:一是用于提示设计的LLM智能体,借助ChatGPT-4o检索与目标致病区域具有高同源性的非致病DNA序列,协助越狱攻击;二是由PathoLM和平均对数概率启发式方法指导的集束搜索策略,通过迭代采样和评分,引导生成类似病原体的输出并保持序列一致性;三是一个评估流程,使用核苷酸/蛋白质BLAST将生成的序列与精选的人类病原体数据库JailbreakDNABench进行比较,以标记“成功的越狱攻击”。
基于GeneBreaker的实验及成果
研究人员构建了用于测试DNA模型“越狱”的基准数据集JailbreakDNABench,涵盖6个主要类别的病毒序列。在该数据集上对模型评估后发现,GeneBreaker成功使6种病毒类别内的最新Evo系列模型发生持续越狱,其中Evo2-40B的攻击成功率高达60%。此外,研究人员还使用“越狱”后的模型生成了近似SARS-CoV-2刺突蛋白和HIV-1包膜蛋白的两种“病毒”DNA序列,经AlphaFold3结构预测表明生成序列与天然对应物相似且结构一致,“越狱”十分成功。同时,研究人员还利用GeneBreaker对SARS-CoV-2刺突蛋白进行进化建模研究,发现DNA语言模型能够重现进化上不同的刺突蛋白变体,并可计算氨基酸突变熵。
研究意义与呼吁
尽管当前基于假设想象出的病毒肆虐场景并未真实发生,但科学家通过GeneBreaker揭示DNA基础模型生成致病序列的漏洞,为构建更健全的防御机制和安全架构提供方向。他们呼吁,应通过加强跨学科合作、限制高风险信息传播来降低生物学AI被恶意滥用和影响公众信任的风险,同时优先考虑伦理问题,以保障生物生成式AI的安全未来。目前,GeneBreaker的相关数据已上传至github,感兴趣者可前往尝试。