7月19日,上海人工智能实验室发布Deeplink超大规模跨域混训技术方案,成功将相隔1500公里的两个异构智算中心整合,完成千亿参数AI大模型训练,全球首次实现长距离跨域异构智能算力高效整合,为解决算力资源分布与利用问题带来新突破。
Deeplink技术实现全球首次长距离跨域异构算力整合
上海人工智能实验室于7月19日发布具有里程碑意义的成果,其研发的Deeplink超大规模跨域混训技术方案,成功应用于中国联通网络,将相隔1500公里的上海和济南两个异构智算中心“拼成”一个“超级节点”,并完成千亿参数的AI大模型训练。这在全球首次实现长距离跨域异构智能算力的高效整合。据上海AI实验室介绍,今年2月,他们联合十余家合作伙伴建成超大规模跨域混训集群的原型,实现了千亿参数大模型20天不间断训练,在此基础上融合中国联通AINET算力智联网,完成此次跨域大模型混训。
技术突破化解算力资源难题
过去几年,国内算力建设如火如荼,但存在区域算力资源分布和使用不均衡的情况,如西部部分地区算力闲置,且各智算中心硬件架构不同。而“跨域+异构”算力集群此前因互联技术障碍,难以完成生产级模型训练。此次上海AI实验室成功突破,实测其与中国联通合作开展的跨域混训,等效算力高达单集群单芯片算力的95%以上。这不仅可化解全国算力资源分布不均、利用率不高的瓶颈,还能降低AI行业对特定芯片的依赖,为AI产业提供兜底算力支持。
创新架构减轻网络压力、提升稳定性
上海AI实验室青年科学家、Deeplink系统团队负责人王辉介绍,Deeplink方案创新性地采用“3D+PS”的高内聚低耦合架构,即“以算法换带宽”。它将超大规模训练任务分发到各个智算中心,通过算法创新减轻网络压力,用户使用普通专线网络即可开展大模型训练。此外,该方案还能确保在跨域训练中,即便某地智算节点发生故障,整体训练仍能继续,显著提升了稳定性。
多平台合作拓展应用
实际上,除中国联通外,上海AI实验室还与中国电信、商汤、仪电等智算平台进行了合作。基于中国电信息壤算网,在不到10G带宽的网络条件下,实现了北京、上海、贵州三地智算中心的互联和大模型混训,等效算力依然在90%以上。王辉表示,理论上,Deeplink可通过动态配置支持数千公里的跨域混训,意味着国内任意两地智算中心都可借助该方案实现算力整合。
未来计划组建算力生态、完善技术方案
上海AI实验室表示,下一步将进一步通过Deeplink方案组建算力生态,扩大应用范围,推动其被更多服务商整合,让用户能自由选择高质量、高性价比的算力供给,为全国算力一体化布局注入核心动能。同时,还会面向多元算力在AI大模型混合推理、分布式强化学习等需求,进一步完善技术方案。
以上文章由 AI 总结生成