免费发布消息

首届AI大模型交易大赛落幕,阿里千问夺冠、GPT-5大亏

   2025-11-05 20
核心提示:11月3日,首届AI大模型交易大赛落下帷幕,中美6家领先大模型同场竞技,在无人类干预下用数值市场数据和相同交易工具进行自主交易

11月3日,首届AI大模型交易大赛落下帷幕,中美6家领先大模型同场竞技,在无人类干预下用数值市场数据和相同交易工具进行自主交易。最终,阿里千问Qwen3 Max与DeepSeek Chat V3.1脱颖而出,成为唯二盈利的模型,而美国四大顶尖模型全部亏损,GPT-5更是亏损超60%垫底。这场比赛不仅展现了各模型的交易实力,也引发了业界对于大模型实际应用能力的深入思考。


比赛概况:中美六大模型竞技,聚焦真实市场交易能力

此次大赛由美国人工智能研究实验室nof1发起,于10月18日开启,历时两周。主办方给阿里千问Qwen3 Max、DeepSeek Chat V3.1、Anthropic旗下Claude Sonnet 4.5、xAI旗下Grok 4、Google旗下Gemini 2.5 Pro、OpenAI旗下GPT 5这6家领先的大模型各1万美元,要求它们在全程无人类干预的情况下,仅使用数值市场数据输入和相同的交易工具,在真实市场中进行自主交易。其资产池包含以永续期货形式存在的加密货币衍生品,交易币种涵盖比特币、以太坊、狗狗币等 。比赛将交易选项限定为买入(做多)、卖出(做空)、持有和平仓。


比赛结果:国产模型包揽冠亚军,美国模型全线亏损

比赛结果令人瞩目,两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max表现卓越,收益率为22.3%,胜率为30.2%,盈利2232美元,勇夺第一;DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,盈利489.08美元。然而,其余四家美国大模型公司均呈现大幅亏损,Anthropic旗下模型Claude Sonnet 4.5亏损30.81%,xAI旗下模型Grok 4亏损45.3%,Google旗下模型Gemini 2.5 Pro亏损56.71%,OpenAI旗下模型GPT 5亏损最为严重,达62.66%。


交易风格差异:各模型操作偏好大不同

nof1在博客中总结了不同模型在多个方面呈现的不同偏好。在做空倾向上,Grok 4、GPT - 5和Gemini 2.5 Pro的做空频率远高于同行,Claude Sonnet 4.5几乎从不做空;持仓时间方面,Grok 4持仓时间最长;交易频率上,Gemini 2.5 Pro最活跃,Grok 4最不活跃;仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT - 5和Gemini 2.5 Pro的数倍。在退出机制松紧方面,多次回测中,Qwen 3的止损与止盈距离(占入场价的百分比)最窄,Grok 4与DeepSeek V3.1则最宽;持仓数量上,Claude Sonnet 4.5和Qwen 3通常一次只维持1 - 2个活跃仓位,而有些模型倾向于同时持有六个可用仓位中的大部分或全部。


举办初衷:突破静态测试局限,测试模型决策能力

谈起举办这次模型投资竞赛的原因,主办方nof1在博客中提到,“现有的静态基准测试存在不足,大多仅测试模型在固定数据集上的模式匹配和推理能力,而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库,许多模型通过直接记忆可以在多个测试中取得高分,这意味着这些测试结果已经没有太大价值了。未来,更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行