Soul App开源播客语音合成模型SoulX-Podcast,河南话、四川话等多方言与副语言风格

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

SoulX-Podcast表现

Demo Page: https://soul-ailab.github.io/soulx-podcast

Technical Report: https://arxiv.org/pdf/2510.23541

Source Code: https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

聚焦语音,AI重构情感纽带

一直以来,声音都是传递信息和情感的重要媒介,也最能在沟通中赋予“情绪温度”和“陪伴感”。在Soul,用户积极通过语音实时互动,表达自我、分享交流,收获新关系,语音成为用户构建链接的“情感纽带”,“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予 AI 自主决策对话节奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速应用于“虚拟伴侣”、群聊派对(多人语音互动场景)等多元场景中。

例如,9月,Soul 的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话,在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。

这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力,更揭示了 AI 在内容创作与社交互动中的全新潜能。

然而,当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时,也普遍面临一些问题。为此,Soul 团队决定开源 SoulX-Podcast, 希望能携手 AIGC 社区,共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段,探索AI+社交更多可能

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。

整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,SoulX-Podcast 以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异。在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。

SoulX-Podcast在播客场景下的表现

SoulX-Podcast在通用TTS上的表现,*官方模型的复现结果

此次 SoulX-Podcast 的开源,是 Soul 在开源社区领域的一次全新尝试,也是一个新的起点。 Soul团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展 AI 语音等前沿能力的边界,探索 “AI +社交” 的更多可能。

标签：

猜你喜欢

重阳敬老，“胃”爱出发——奥林巴斯新年度肠胃健康公益活动即将启动

央视点赞公牛新国标插座，五大安全升级引领行业革新

从“跑步机”到“训练平台”，Precor 必确Breakaway跑步机重塑商用健身范式

儿童补钙产品推荐：Vitabiotics 液体钙，全英标杆级营养守护

一杯“三元北京鲜牛奶”的70年坚守：三元用自有奶源筑牢品质护城

润泽银发岁月：珠海华润银行书写适老服务新答卷

“迈开步动出彩”北京体彩邀您相约2025北京·马拉松博览会

中国大地保险浙江分公司“浙礼赔” 上线：理赔超省心，服务暖人心

从母亲到女儿，平安福两代赔付让爱与保障跨越时间

一款调味料为何能让渠道、终端、媒体集体“青睐”? 山海鲜的出圈密码藏在这四个维度里

福鹿相伴，山海争鲜：格兰菲迪开启威士忌与中餐融合新章

五粮液一见倾心上市60天销售破亿

全新「四“0”」乳清蛋白粉“蛋百乐TM”正式上市

新东方与汇丰中国达成合作协议，打造金融+留学一站式服务

吉利汽车获2025杭马冠名合作伙伴授牌

众天蜂蜜产业之路：以商业实践守护自然生态

CINNO：维信诺三季度AMOLED智能手机面板出货量位居全球第三

以书会友，共读经典，华为阅读VIP会员南京专场读书会火热进行中！

央视新闻专访挚听陈霏：用 “全国产技术” 打破听损困境，重阳让孝心不再 “听不见”

市场地位声明：噜咪啦云贵薯片开创者，云贵薯片全国销量第一

夜间护肤黄金期，干燥肌如何 “睡出” 水润透亮？KANSOSAN干燥宝高保湿睡眠面膜给出答案

从传统行政到AI智能办公：王璐的创新之路

2025中国广播电视精品创作大会剧集创作沙龙：嘉宾共议好剧本是如何炼成的

第十四届可再生能源发电国际会议圆满落幕，全球智慧共绘能源转型蓝图

豪雅超乐学镜片于爱尔眼科首发上市，开启全球近视防控的 “新” 时代

亨斯迈亮相中国国际石化大会：以创新与绿色实践解码产业新增长

京东工业与福禄克深化战略合作共推仪器仪表行业数智供应链升级

对话新加坡旅游局：新加坡如何以“反转”体验破局中国银发旅游市场

英科医疗荣获尚普咨询集团系列市场地位声明

同仁堂科技：出口品种生产研发基地完成试机

热点图片

要闻

同仁堂科技：液体制剂产能或突破2.4亿支，智能化产线驱动增长新引擎
北京同仁堂科技发展股份有限公司（以下简称同仁堂科技）液体制剂产能布局实现重要进展
同仁堂科技：营销网络覆盖连锁及终端门店超23万家
2025年以来，北京同仁堂科技发展股份有限公司（以下简称同仁堂科技）持续推进营销体系
得力×《樱兰高校》快闪燃爆全国，三城联动唤醒青春记忆
谁懂啊！站在樱兰快闪现场，感觉下一秒就要和环学长见面了！近日，得力牵手超人气少女
柠季荣获第十六届“峨眉雪芽杯・天府名茶”金奖
近日，由四川省茶叶学会主办，四川省园艺作物技术推广总站、四川省农业科学院茶叶研究
健合集团Swisse斯维诗升级品牌主张，携手代言人共创健康新风尚
在当前消费升级与健康理念不断更新的背景下，公众对健康的理解正逐步超越传统标准，转
三元食品Q3财报透视：战略聚焦，筑牢发展根基
10月28日晚间，三元食品（600429 SH，北京三元食品股份有限公司）发布了2025年第三季
河南省人民政府发文：扩大“学生饮用奶计划”覆盖面
10月14日，省人民政府办公厅印发《河南省加快畜牧业转型升级高质量发展若干政策措施》
金山办公与视源股份达成深度战略合作：全线新品预装WPS 365，开启协同办公新篇
近日，在金山办公全球核心生态伙伴大会上，制造业领军企业视源股份携全线MAXHUB会议产
低空经济洞察：从多城实践看中科星图低空方案如何体系化落地
当西宁7606 平方公里高原实现低空一网统飞，当在长江上行驶的船舶也能收到空中外卖
第一届北京市广播影视春燕奖揭晓，爱奇艺斩获35项荣誉
10月27日，第一届北京市广播影视春燕奖（以下简称春燕奖）评选表彰发布会在北京举办，

Soul App开源播客语音合成模型SoulX-Podcast,河南话、四川话等多方言与副语言风格

相关阅读

猜你喜欢

热点图片

要闻