9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越众多国内外厂商,在BIRD榜单的执行准确率与执行效率上均斩获第一,刷新中国公司在该榜单的最佳成绩,彰显了其在智能问数领域的全球领先技术实力。
蚂蚁数科Agentar-SQL登顶BIRD榜单
9月26日,全球权威评测基准BIRD-Bech官网显示,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一,这也是中国公司在该榜单上取得的最高成绩。值得一提的是,Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)均拔得头筹。
BIRD-Bench评测基准介绍
BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,它要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且要在真实复杂的大规模生产级数据库中稳定执行。其数据集覆盖金融、电力、医疗等37个行业场景,总量达33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。
Agentar-SQL技术优势解析
Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户能用自然语言轻松完成复杂的数据查询任务。它采用GSPO(组序列策略优化)强化学习训练方法,增强SQL内在推理,使大模型在推理阶段深度思考SQL框架,避免潜在逻辑错误,提升SQL逻辑准确性;具备多轮反思修正能力,对生成的SQL进行多轮次审视和修正,提升SQL语言精准性;还通过独创的两阶段生成法,让大模型生成多个SQL候选,再经两两PK的“锦标赛”筛选出最优的SQL。
蚂蚁数科在AI大模型领域的持续深耕
蚂蚁数科持续深耕AI大模型技术与应用,此前自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试中实现领先。专为新能源行业定制的能源电力垂类时序大模型,在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。
以上文章由 AI 总结生成

