7月18日凌晨,OpenAI发布ChatGPT Agent,这一举措在AI Agent领域激起千层浪。随着AI Agent领域逐渐分化为“基座派”与“应用派”,众多产品已在该赛道激烈角逐。ChatGPT Agent发布后,Genspark公开“叫板”,Manus也参与对比。经测试,不同AI Agent产品在报道该发布及实际案例操作中各有表现,当前AI Agent虽处于发展的“混沌期”,但竞争将推动其进步。
ChatGPT Agent发布,行业格局生变
7月18日凌晨,OpenAI发布了ChatGPT Agent,这是其继1月推出operator、2月推出deep research后,在Agent化道路上的又一关键动作。当下,AI Agent领域分化为两大流派,一方是以OpenAI、Claude为代表的“基座派”,将Agent能力融入底层模型;另一方是“应用派”,强调在具体应用场景和灵活工具调用上的设计规划。自3月Manus点燃通用Agent市场狂潮后,Genspark、Flowith、Fellou等新锐玩家纷纷从不同应用场景切入,在Agent赛道形成各自阵营。
竞品“叫板”,产品对比热潮涌起
OpenAI发布ChatGPT Agent后不久,Genspark便在社交平台X上公开“叫板”,直言视频中演示的ChatGPT Agent能力“表现不够出色”。Manus也贴脸开大,对比了自己和OpenAI展示的案例的结果。为探究竟,相关人员让Manus、Genspark、Flowith等备受关注的AI Agent产品以深度报告方式报道ChatGPT Agent的发布。结果显示,Manus的Agent分析后给了OpenAI更高分数;Genspark生成更复杂报告,对OpenAI ChatGPT信息捕捉更全,并输出详细对比,也对OpenAI水平高度认可;Flowith充分理解长prompt,抓住做one pager重点,设计感最强。
实际案例测试,各产品表现不一
在实际案例测试中,团队选取OpenAI视频展示的婚礼规划场景进行测试,将prompt提交给Manus、Genspark、Flowith、Fellou等产品。Manus输出长文本页面,类似婚礼参加指南和建议,但无具体购买链接,着装要求也无具体图片款式;Flowith同样给出婚礼参与指南,无法进行加购等动作,且挑选服饰任务线出现bug;Fellou为任务跑了1小时14分钟,操作认真但推荐无法直接购买,类似搜集信息的AI浏览器。在“做贴纸”场景中,多个产品在订购环节因无调用能力无法完成具体操作,Genspark和Flowith只能进行订购指引,而Manus在流程中完成了购物车的添加,是除OpenAI以外唯一进行到这一步的Agent。
AI Agent发展仍处“混沌期”,未来充满机遇
从此次发布及对比测试来看,如今的AI Agent仍处于“混沌期”,它能做到的事常令人惊叹,但也存在不稳定的情况,OpenAI此次发布的ChatGPT Agent更像是一个占位动作。不过,随着新的重要玩家加入,竞争愈发激烈,这将推动一个能稳定解决人类复杂任务的Agent更早出现,为人们的生活带来更多便利与变革。
以上文章由 AI 总结生成