3200威尼斯vip(中国)有限公司

您现在所在位置: 首页 >> 学术动态 >> 正文

航海大讲堂《基于相位谱预测的神经网络声码器》

发布时间：2023-09-22 作者：分享到：

报告题目：基于相位谱预测的神经网络声码器

报告人：凌震华教授

报告时间：2023年9月25日10: 00-12:00

报告地点：3200威尼斯vip西配楼215会议室

邀请人：陈景东教授

报告人简介：

凌震华，中国科学技术大学信息学院教授、博士生导师，语音及语言信息处理国家工程研究中心副主任，入选教育部CJ学者校企联聘学者。主要从事语音信号处理、自然语言处理等方向的研究。主持多项国家自然科学基金、国家重点研发计划课题、安徽省语音专项等科研项目，已发表论文200 余篇，累计被引8000余次，获国家科技进步奖二等奖、IEEE信号处理学会最佳青年作者论文奖等奖项。在Blizzard Challenge、 Voice Conversion Challenge等国际语音技术评测中多次获得测试指标第一名。曾任IEEE/ACM TASLP期I编委，现为IEEE高级会员、IEEE信号处理学会语音与语言处理技术委员会委员、中国计算机学会语音听觉与对话专委会执行委员、全国人机语音通讯学术会议常设机构委员会委员。

报告简介：语音合成是语音信号处理与人工智能领域的重要研究方向，声码器是统计参数语音合成的核心模块。目前，神经网络声码器重构语音质量相比于传统源-滤波器声码器提升显著，但直接预测点级的语音波形仍存在生成效率低的问题。为此，我们提出了一种幅度相位谱分级预测的神经网络声码器HiNet，分别预测语音幅度和相位谱后再重构波形。然而，受限于相位的卷绕性质，HiNet声码器并未实现相位的直接建模和全帧级的语音生成。进一步地，我们根据语音相位谱的特点，提出了一个新的神经网络语音相位预测模型NSPP，通过引入相位平行估计架构和抗卷绕损失，实现了对语音相位谱的直接精确预测。基于该相位预测模型，我们提出了幅度相位谱平行直接预测的全恢级神经网络声码器APNet，在保证生成质量的前提下提升了生成效率。除声码器之外，该相位预测模型也应用于语音增强等其他语音生成任务，取得了良好效果。

上一篇：讲座预告：《无线人工智能：解读世界的新第六感》

下一篇：航海大讲堂《新世纪的主动噪声控制：过去、现在和未来？》