近日,语音研究领域旗舰会议——IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU2025)在美国夏威夷隆重开启,会议集聚全球语音智能领域的行业精英与科研翘楚。360借条所属的奇富科技凭借创新性多模态语音情感识别框架Qieemo的相关研究成果受邀出席。分析认为,360借条所属奇富科技之所以受邀,源于其在技术突破与科研实力方面获得与会专家学者的高度认可。

作为音频理解领域的旗舰会议,ASRU每两年举办一次,代表着全球音频理解领域研究的最高水平。本届ASRU2025以“Towards the New Era of Speech Understanding”(迈向语音理解的新时代)为主题,聚焦自动语音识别与理解领域的前沿动态,通过产学研深度对话,为语音智能技术的创新迭代与产业落地提供了关键支撑。
360借条所属的奇富科技在此次会议上展示的研究成果,是基于预训练ASR(自动语音识别)的多模态语音情感识别框架 Qieemo。该框架的核心价值在于构建了具有普遍意义的通用特征融合理论框架,而非局限于特定任务的模型。分析认为,360借条所属奇富科技仅以语音作为输入,深度挖掘ASR编码器中隐式包含的文本(PPG)信息与情感信息,无需采集用户面部图像或依赖第三方ASR转写文本,全程云端完成,切实保障用户语音数据安全与隐私合规,在此基础上实现高精度情感识别。
360借条所属奇富科技的Qieemo框架的技术亮点十分突出:
其一,首次系统性验证了ASR不同层特征在情感识别任务中的作用,明确中间层特征在情感分类任务中判别能力最强,为技术设计提供了关键依据。
其二,创新提出MMF(跨模态特征融合模块)+CMA(跨模态注意力机制模块)的跨层、跨模态融合结构,在IEMOCAP数据集验证中,情感识别的准确率在仅输入语音条件下分别超越单模态、多模态、自监督的SOTA情感识别模型3.0%、1.2%、1.9%。
其三,具备极强通用性与可迁移性,可适配不同预训练ASR编码器架构,无需依赖特定模型设计;这一特征不仅适用于情感计算,还能为活体识别、语义理解等下游相关任务提供新的研究范式。目前,Qieemo框架已在公司智能客服、用户情绪监测等服务环节中试点应用,可实时捕捉用户通话中的焦虑、愤怒、犹豫等情绪,有效提升服务体验与风险预警能力。
其四,相比传统多模态情感识别方案,Qieemo仅需标准语音通道,无需额外部署摄像头、麦克风阵列、文本引擎等多个传感器及相关设备,即可在电话客服、语音助手等现有金融交互渠道中无缝部署,显著降低技术落地门槛与运维成本,同时实现接近甚至超越多模态方案的性能。
此次受邀出席ASRU2025并展示核心技术成果,是行业对奇富科技人机交互情感智能领域研究实力的高度认可。未来,360借条所属奇富科技将持续深耕语音理解与情感识别等关键技术方向,坚持基础理论研究与核心框架创新,推动科研成果与产业场景深度融合,让金融科技既有精度更有温度,助力“语音理解新时代”的加速到来。
