2025年10月29日,美国语音生成创企Cartesia宣布推出全新语音模型Sonic-3,并披露完成1亿美元融资,英伟达参投。该公司由斯坦福AI实验室研究员创立,团队成员背景强大。Sonic-3模型优势显著,应用广泛,进一步加剧了AI音频生成赛道的竞争。
明星团队创立Cartesia,此前已完成两轮融资
Cartesia创立于2023年,由5位斯坦福AI实验室研究员创立,其导师Chris Ré也参与其中。团队成员包括两位华人Albert Gu和Brandon Yang,以及两位印度人。其中,首席科学家兼联合创始人Albert Gu是Mamba作者之一,另一位华人Brandon Yang曾在谷歌大脑团队工作。此前,Cartesia在2024年12月获得Index Ventures领投的2700万美元种子轮融资,2025年3月又宣布完成6400万美元的A轮融资 。
推出Sonic-3模型,性能优势明显
Sonic-3模型基于SSM架构,与大多数依赖Transformer架构的语音模型不同。该模型在支持语言数量、可控性和速度上存在优势。用户可选择系统配备的42种语言和500多种音色进行文本转语音功能,还能对音量、语速和情绪进行精细控制,支持自定义发音。其模型延迟仅为90毫秒,端到端总响应时间在190毫秒以内,已跻身全球最快的实时语音AI系统之列。此外,Sonic-3还支持语音克隆、微调,能对生成语音自动缓冲与延续 。
应用广泛,加剧赛道竞争
目前,包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。在AI音频生成赛道竞争激烈的情况下,Cartesia获得新一轮融资并推出Sonic-3新模型,使竞争更加白热化。正如ServiceNow产品副总裁Ravi Krishnamurthy称:“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”
以上文章由 AI 总结生成




