第十届语言与智能高峰论坛

生成式语音与音乐处理技术

摘要：本次报告将和大家一起探讨生成式语音与音乐处理技术前沿技术。首先交流基于语言模型的语音合成与增强技术，特别关注语音合成的风格化和灵活可控。而后探讨说唱生成和音乐生成，包括以歌词与伴奏为输入的高质量说唱合成技术和基于扩散模型的全曲生成技术。随后介绍一个开源的语音理解大模型的构建过程，以及在此基础上如何构建的基于语音理解的共情语音对话模型。最后对未来研究方向和趋势进行展望。

简介：谢磊，西北工业大学教授/博导，音频语音与语言处理实验室（ASLP@NPU）负责人。曾在比利时布鲁塞尔自由大学、香港城市大学和香港中文大学工作，获得教育部新世纪优秀人才支持计划，陕西省青年科技新星、全球前2%顶尖科学家（斯坦福大学&Elsevier）、华为云AI名师等荣誉。在音频语音相关领域发表论文400余篇，Google Scholar引用1.4万次。多次获得学术会议最佳论文奖和国际评测冠军。众多研究成果在产业界落地应用。担任国际语音通信协会ISCA中文口语语言处理兴趣组(SIG-CSLP)副主席、IEEE语音和语言技术委员会（IEEE SLTC）委员、中国计算机学会语音听觉与对话专委会常务委员、IEEE/ACM Transactions on Audio, Speech and Language Processing和IEEE Signal Processing Letters高级领域编委（SAE）等。