声网、RTE开发者社区共同支持两款新模型开源,让Voice Agent 对话更拟人

2025-05-19 12:02:49     来源:

近日,声网和RTE开发者社区宣布,共同支持TEN VAD 和 TEN Turn Detection两款新模型开源。这两个模型是基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让 AI Agent 的交互体验更加自然。作为开源项目,任何人都可以自由使用、Fork 或为其贡献代码。这两款模型也将作为开源对话式 AI 生态体系 TEN 的核心模块持续迭代优化。

TEN VAD:超低延迟、低功耗、高准确率的语音活动检测模型

TEN VAD 是一个基于深度学习的轻量级流式语音活动检测模型,具备低延迟、低功耗、高准确率等优势。它通常用于语音输入大语言模型(LLM)前的预处理步骤,准确识别是否音频中包含人声并过滤掉无效音频(例如背景噪音或静音段)。

虽然它的功能简单,但作用十分强大:

准确识别音频帧中是否有人声;

判断一句话的开始和结束位置;

过滤掉无关音频(背景噪音、静音等);

这不仅提升了 STT 的准确性,还能显著降低处理成本--避免将无意义的声音送入到 STT 流程中从而产生费用。同时,如果你会用到“轮次检测(Turn Detection)”,那么 VAD 是你的必选项,它是轮次检测准确性的可靠保障。

性能对比:与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。

在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。

开发者友好:TEN VAD 已在 Hugging Face 和 GitHub 上开源,并附带人工精标的数据集(TEN VAD Test Sample),开发者可以一键使用进行模型推理或模型评估。

实际应用效果:一个真实用户案例显示,使用 TEN VAD 后,音频传输数据量减少了 62%,显著降低了语音服务成本。

TEN Turn Detection:让 Voice Agent 学会“何时说、何时听”

TEN Turn Detection 重在解决人机对话中最难的部分之一——判断用户何时停止说话。在真实交流中,AI 需要区分出“中途停顿”与“说完了”的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。

TEN Turn Detection 支持全双工语音交互,即允许用户和 AI 同时说话,就像两个人交流时那样自然。

工作原理:它不仅识别语音内容,还通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕;最终让 AI 更智能地决定“该说”还是“该听”,从而让对话更加流畅自然。该模型支持中英文,可供所有 Voice Agent 开发者自由使用。

效果表现:我们在多场景测试数据集上对比了 TEN Turn Detection 和其他同类开源模型,各模型的表现如下:

为什么选择 TEN VAD 和 TEN Turn Detection?

当结合使用这两个模型时可以打造出更自然、反应更迅速、成本更低的 Voice Agent:

开源 + 高质量

基于声网十多年实时语音深度研究经验;

超低延迟、低功耗、高准确率;

完全开源,Apache 2.0 许可证,欢迎使用、修改和贡献。

更自然的对话

正确处理“打断”、“停顿”、“回应”等人类式交互;

极大提升用户体验。

成本更低

VAD 准确识别语音帧,有效减少语音识别调用量;

实测结果显示:两者合用能大幅降低总系统成本。

即插即用

可作为 TEN Framework 的插件模块使用;

对于已经使用 TEN Framework 的开发者,支持无缝集成;

对于正在选型 AI Agent 框架的团队,TEN 是具备最佳 VAD 和轮次检测能力的选择之一。

使用 TEN VAD 和 TEN Turn Detection 的最佳实践

两款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:

Hugging Face 上快速运行(推荐)

1.登录 Hugging Face;

2.打开 TEN Agent Demo;

3.点击右上角设置 > Duplicate this Space;

4.即可用 Hugging Face 提供的 GPU 部署完整体验。

本地运行(自带 GPU)

1.登录 Hugging Face;

2.打开 Demo 页右上角设置 > Run Locally;

3.按照本地部署指南(https://github.com/TEN-AI/TEN)操作即可运行完整。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

林青霞署名普洱茶慈善拍卖 收益捐中大高锟脑智共护
因为有光所以前行,青春回忆是有颜色的
走进工行 | YashanDB全维度1:1替代 加速金融核心国产化升级
传承与创新的盛宴:汉仁宫"承脉启新"非遗双仪盛典即将启幕
中国农机智造新标杆 ——解码雷沃智慧农业智能拖拉机制造基地“超能力”
完整版1-3月报告:同比增18%!这些游戏创历史新高
汇丰青少年重庆站决赛日|李孟阳、彭严萱捧杯男女A组,男子C组孟繁熙逆转加洞取胜
品牌中国战略规划院执行院长华国中: 品德是品牌的生命之源
VOGUE Vintage登陆西安 掀起可持续时尚的“轮回艺术”风潮
开启 “核 + 数智” 生态互联新时代 共绘行业数字化转型新蓝图
从云监工到健康共生:雪莲生物直播电商重构大健康信任生态
浙里友爱 美好新生 友邦人寿浙江分公司正式开业
达索系统与空中客车拓展战略合作伙伴关系, 以虚拟孪生助力下一代航空项目
澳洲羊肉大使匠心之作:「赏味南半球」主厨菜单
科技赋能·政策领航——2025职业教育海上对话创享会在沪举办
跨越山海传递科技温度 蚂蚁集团青年在行动 蚂蚁岛老人喜戴“i守护”智能手表
匠心守护健康天然营养新体验——维您黑番茄冻干固体饮料上市
一粒双控好处多 高血压高血脂双控时代来临
中轴线上私飨盛筵 双厨联袂四手联弹
iHerb520宠粉节特惠启幕 品质生活触手可及!
与智造同行:华为助力制造行业拥抱数智新时代
上海糖酒集团启动首届“好选+”惠享季 老字号创新基因重构消费体验
平安人寿上海分公司特邀张雪峰推出升学规划讲座
第二十一届中国科学院行政管理局公众科学日:四大科学之问开启智慧探索之旅
520来京东选购情人节限定耳机音箱礼盒 晒单送2000京豆
新冠抬头,嗓如刀割!白云山板蓝根、口炎清等产品需求激增
钾喻户晓 智启新程 | 罗布泊“黄金钾”新品首场发布会在疆内成功举办
多达一的“前世今生”:从原研引进到本土崛起的蜕变之路
雪芙格全球首发再生胶原黑科技,掀起“制药级护肤”革命
尚普咨询集团:诚道考试大师荣获中高考技巧提分行业第一品牌证明