首届AI大模型交易大赛落幕，阿里千问夺冠、GPT-5大亏

2025-11-05 720

核心提示：11月3日，首届AI大模型交易大赛落下帷幕，中美6家领先大模型同场竞技，在无人类干预下用数值市场数据和相同交易工具进行自主交易

11月3日，首届AI大模型交易大赛落下帷幕，中美6家领先大模型同场竞技，在无人类干预下用数值市场数据和相同交易工具进行自主交易。最终，阿里千问Qwen3 Max与DeepSeek Chat V3.1脱颖而出，成为唯二盈利的模型，而美国四大顶尖模型全部亏损，GPT-5更是亏损超60%垫底。这场比赛不仅展现了各模型的交易实力，也引发了业界对于大模型实际应用能力的深入思考。

比赛概况：中美六大模型竞技，聚焦真实市场交易能力

此次大赛由美国人工智能研究实验室nof1发起，于10月18日开启，历时两周。主办方给阿里千问Qwen3 Max、DeepSeek Chat V3.1、Anthropic旗下Claude Sonnet 4.5、xAI旗下Grok 4、Google旗下Gemini 2.5 Pro、OpenAI旗下GPT 5这6家领先的大模型各1万美元，要求它们在全程无人类干预的情况下，仅使用数值市场数据输入和相同的交易工具，在真实市场中进行自主交易。其资产池包含以永续期货形式存在的加密货币衍生品，交易币种涵盖比特币、以太坊、狗狗币等。比赛将交易选项限定为买入（做多）、卖出（做空）、持有和平仓。

比赛结果：国产模型包揽冠亚军，美国模型全线亏损

比赛结果令人瞩目，两家国产大模型公司获得盈利回报。其中阿里千问Qwen3 Max表现卓越，收益率为22.3%，胜率为30.2%，盈利2232美元，勇夺第一；DeepSeek Chat V3.1排名第二，收益率为4.89%，胜率为24.4%，盈利489.08美元。然而，其余四家美国大模型公司均呈现大幅亏损，Anthropic旗下模型Claude Sonnet 4.5亏损30.81%，xAI旗下模型Grok 4亏损45.3%，Google旗下模型Gemini 2.5 Pro亏损56.71%，OpenAI旗下模型GPT 5亏损最为严重，达62.66%。

交易风格差异：各模型操作偏好大不同

nof1在博客中总结了不同模型在多个方面呈现的不同偏好。在做空倾向上，Grok 4、GPT - 5和Gemini 2.5 Pro的做空频率远高于同行，Claude Sonnet 4.5几乎从不做空；持仓时间方面，Grok 4持仓时间最长；交易频率上，Gemini 2.5 Pro最活跃，Grok 4最不活跃；仓位规模上，阿里Qwen 3的仓位规模始终最大，通常是GPT - 5和Gemini 2.5 Pro的数倍。在退出机制松紧方面，多次回测中，Qwen 3的止损与止盈距离（占入场价的百分比）最窄，Grok 4与DeepSeek V3.1则最宽；持仓数量上，Claude Sonnet 4.5和Qwen 3通常一次只维持1 - 2个活跃仓位，而有些模型倾向于同时持有六个可用仓位中的大部分或全部。

举办初衷：突破静态测试局限，测试模型决策能力

谈起举办这次模型投资竞赛的原因，主办方nof1在博客中提到，“现有的静态基准测试存在不足，大多仅测试模型在固定数据集上的模式匹配和推理能力，而忽略了长期决策、运行鲁棒性、适应性以及在风险领域的表现。这些静态测试数据很快就会被纳入训练语料库，许多模型通过直接记忆可以在多个测试中取得高分，这意味着这些测试结果已经没有太大价值了。未来，更需要在真实、动态、竞争激烈的环境中测试模型的决策能力”。

以上文章由 AI 总结生成

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

推荐图文

减量提质绿智转型—

智能机器人时代：租赁

推荐资讯

点击排行

• 2026市场回暖！五金机电凭供应链优势拓全球市场	• 减量提质绿智转型——河北钢铁市场环境分析与
• 港口枢纽强基创新生态赋能——宁波市场环境优	• 直面竞争加剧需求收缩以匠心与实力破局——企
• 客流低迷守正创新服务为王激活市场——五金机	• 智造驱动创新研发引领升级——中国制造业迈向
• 五金机电市场深陷双重困境：线下人流低迷线上	• 产销协同聚力共赢深耕价值共筑口碑，生产商与
• 需求精细化、采购智能化：2026年五金机电主力采	• 聚焦产业新动能，共探发展新路径2026行业市场焦