第六届语言与智能高峰论坛

一种具身发展式语言学习框架——从语音到发声姿态的反演示例

摘要：在深度学习技术的推动下，随着语音标注数据规模的巨量化，机器语音识别取得了令人瞩目的进展。种种迹象表明语音识别性能已显露出“天棚”现象，而且在方言和小语种语音识别方面尚无有效的解决方案。报告对语音识别任务的工作假设进行反思，基于具身认知主义，结合机器人、机器视觉和机器听觉的研究进展，提出一种具身发展式语言学习框架。作为该框架的核心之一，基于听觉的“肌动理论（Motor Theory）”，提出了一种结合发声物理模型的非监督自主学习方法。通过正向物理模型和逆向听觉模型的迭代学习，实现了从任意非标注语音到声门激励信号和发声姿态参数的推断，推断结果对语音的描述具有可解释性；通过在线自适应可实现对新语音的发声姿态推断，解决了模型学习的泛化问题。基于发声姿态可进一步实现任意语种的音系构建，为小语种和方言的语音识别、个性化语音合成任务提供了一个新的解决思路。

简历：吴玺宏，男，汉族，北京大学教授、博士生导师。现为北京大学信息科学技术学院副院长、智能科学系主任、言语听觉研究中心主任。长期致力于机器听觉计算理论、语音信息处理、自然语言理解以及智能机器人等领域的基础及应用基础研究。先后主持和参与国家级、省部级项目40余项，包括国家973课题、863项目、国家科技重大专项、国家科技支撑计划、国家自然科学基金重大项目及重点项目、国家社会科学基金重大项目等。获国家授权发明专利11项，发表学术论文200余篇。