秘塔AI推出“极速”模型,响应速度达400 tokens/秒,实现AI搜索“秒回”
2025年5月26日,秘塔AI搜索带来惊喜变革,推出“极速”模型,在单张H800 GPU上实现400 tokens/秒的响应速度,致力于为用户打造2秒内“秒回”的搜索体验。这一成果不仅源于技术优化,实测中在多种类型问题上的出色表现,更为未来AI搜索体验勾勒出更流畅即时的图景。
“极速”模型的速度提升与技术优化
秘塔AI搜索于5月26日宣布推出全新“极速”模型,其显著特点是实现了在单张H800 GPU上高达400 tokens/秒的响应速度,承诺用户在大部分问题上能体验到2秒内完成的“秒回”搜索体验。秘塔AI搜索团队表示,此速度提升得益于对GPU的kernel fusion以及CPU的动态编译优化,这些技术改进旨在优化数据处理流程,缩短生成答案的时间。
官方展示的测试示例
为展示“极速”模型性能,秘塔AI搜索官方提供两个测试示例。一是“为什么撕拉片突然火了?”这类快速响应型问题,二是“请总结2015年至今关于CRISPR - Cas9在治疗遗传性疾病中的研究进展”这类需要信息整合的问题,分别呈现“极速”和“极速·思考”两种模式下的表现。此外,还提供限时开放的测速站点(kuai.metaso.cn),方便用户亲身体验。
实测展现的模型能力
智东西AI前瞻在测速站点进行实测,多维度呈现“极速”模型实际表现。在“计时挑战”中,面对“两人从100枚硬币中轮流取1 - 5枚,取最后一枚者胜。请问先手第一步取几枚硬币才能确保必胜?”的逻辑题,秘塔AI搜索在2.42秒内完成解答,响应速度达366 token/秒,总输出字数886 token,并明确指出策略。“刁钻问题大考验”里,对于“请解释一下“薛定谔的猫”思想实验,并谈谈它对量子力学的意义。”这一问题,仅用1.86秒就完成阐述,响应速度高达353 token/秒,输出658 token,清晰解释实验并深入分析其对量子力学概念的影响。“效率实验”中,面对“下个月去日本东京旅行五天,请给我一个详细的行程规划,包括交通和特色美食推荐。”的复杂任务,在4.30秒内输出长达1550 token的详细方案,响应速度达360 token/秒,涵盖景点、交通、美食、住宿等多方面建议。从这些测试可见,该模型在不同类型问题下都具备快速生成答案的能力。
“极速”模型对未来AI搜索体验的意义
秘塔AI搜索推出的“极速”模型,在追求AI搜索响应速度上取得进展。其速度提升,让用户在日常信息获取和复杂任务处理中感受更直接的便利。这不仅是技术参数的进步,更意味着未来AI搜索体验将更流畅、即时,如同便捷的智能助手。