一种具身发展式语言学习框架——从语音到发声姿态的反演示例

摘要:在深度学习技术的推动下,随着语音标注数据规模的巨量化,机器语音识别取得了令人瞩目的进展。种种迹象表明语音识别性能已显露出“天棚”现象,而且在方言和小语种语音识别方面尚无有效的解决方案。报告对语音识别任务的工作假设进行反思,基于具身认知主义,结合机器人、机器视觉和机器听觉的研究进展,提出一种具身发展式语言学习框架。作为该框架的核心之一,基于听觉的“肌动理论(Motor Theory)”,提出了一种结合发声物理模型的非监督自主学习方法。通过正向物理模型和逆向听觉模型的迭代学习,实现了从任意非标注语音到声门激励信号和发声姿态参数的推断,推断结果对语音的描述具有可解释性;通过在线自适应可实现对新语音的发声姿态推断,解决了模型学习的泛化问题。基于发声姿态可进一步实现任意语种的音系构建,为小语种和方言的语音识别、个性化语音合成任务提供了一个新的解决思路。


简历:吴玺宏,男,汉族,北京大学教授、博士生导师。现为北京大学信息科学技术学院副院长、智能科学系主任、言语听觉研究中心主任。长期致力于机器听觉计算理论、语音信息处理、自然语言理解以及智能机器人等领域的基础及应用基础研究。先后主持和参与国家级、省部级项目40余项,包括国家973课题、863项目、国家科技重大专项、国家科技支撑计划、国家自然科学基金重大项目及重点项目、国家社会科学基金重大项目等。获国家授权发明专利11项,发表学术论文200余篇。