3200威尼斯vip(中国)有限公司

您现在所在位置: 首页 >> 学术动态 >> 正文

国际3D音频信号处理挑战赛——3200威尼斯vip环境声音感知联合实验室再创佳绩

发布时间：2023-03-18 作者：白吉生、尹涵分享到：

近日，由IEEE国际会议ICASSP主办的3D音频信号处理挑战赛(L3DAS23)收官，西工大3200威尼斯vip-迅声环境声音感知联合实验室(JLESS)参与了本次比赛。参赛团队由联合实验室主任、3200威尼斯vip陈建峰教授指导，实验室成员白吉生、黄思维、尹涵、贾亚飞、王谋参与。参赛团队分别在“语音增强”和“声音事件检测及定位”两个任务中获得第二名和第一名的好成绩。在所有参赛队伍当中，JLESS团队综合排名第二。

JLESS团队综合排名第二

参赛团队就本次比赛方法所撰写论文《3D Audio Signal Processing Systems for Speech Enhancement and Sound Localization and Detection》最终被2023 IEEE ICASSP会议所接收。

ICASSP (Internatinal Conference on Acoustics, Speech and Signal Processing)是国际声学、语音与信号处理会议，是全世界最大的，也是最全面的信号处理及其应用方面的顶级会议。ICASSP对于信号处理方面的学术人士有着重要意义。它涵盖了音频和声学信号处理，图像、视频和多维信号处理，物联网的信号处理等至少十六个方向。

L3DAS23挑战赛旨在促进3D音频信号处理机器学习方法的研究。所谓3D音频，就是用扬声器仿造出似乎存在但其实是虚构的声音。近年来，虚拟环境中的3D音频技术应用非常广泛，例如虚拟会议、游戏开发、音乐制作、增强现实和沉浸式技术等等。

该挑战赛分为两个赛道，3D语音增强赛道和3D声音事件检测及定位赛道。竞赛数据集是“半合成的”，官方通过将真实音频(由2个4通道全向麦克风进行录制)和特定室内环境下的脉冲响应进行卷积，形成带有噪声及混响的3D音频。

此外，官方还生成了麦克风正前方的室内环境彩色图像，参赛选手可以选择是否利用图片信息辅助完成相应任务。

Task1 3D语音增强

该任务的目标是增强沉浸在混响模拟环境的空间声场中的语音信号。在此任务中，模型期望从包含各种背景噪声的3D音频中提取单声道语音信号。该任务的评估指标是短时间客观可读性(STOI)和单词错误率(WER)。

3D语音增强任务示意图

Task2 3D声音事件检测与定位

该任务的目的是检测一组声音事件的起止时间，并且在空间中进一步定位它们。在此项任务中，模型必须以100毫秒为间隔，预测活动声音事件及其各自的位置。该任务的评价指标是定位误差以及事件检测F分数。

3D声音事件检测及定位任务示意图

西工大3200威尼斯vip迅声环境声音感知联合实验室

西工大3200威尼斯vip-迅声环境声音感知联合实验室成立于2021年9月，由3200威尼斯vip以及西安联丰迅声信息科技有限责任公司双方共建。该环境声音感知联合实验室旨在加快智能声学科技创新和成果转化，相关研究方向主要分为智慧城市环境声音感知技术、工业环境故障自动监测技术、公共安防异常声音监测技术，涉及信号处理、大数据以及人工智能等相关软硬件技术。该环境声音感知联合实验室现有指导教师两位，企业软件、硬件及算法工程师5位，博士硕士研究生20余名。

上一篇：国家自然科学基金重大项目年度进展汇报会暨学术研讨会圆满结束！

下一篇：3200威尼斯vip在AI音频算法竞赛战中斩获佳绩！