情智兼备的高表现语音对话研究

摘要:语音对话系统的出现为大语言模型提供了一个全新的交互入口,使其从“指尖的工具”进化为“身边的伙伴”。但大语言模型在接入语音模态后,智商显著下降,且在理解用户情绪、进行共情交流等“情商”维度上仍显不足,导致交互体验生硬、缺乏人性化。本报告聚焦于“情智兼备的高表现语音对话研究”这一前沿课题,旨在打破“智商”与“情感”的壁垒,探索构建一个全新的对话系统框架。该框架将融合上下文深度理解推理与多模态情感计算。我们的核心目标是让系统不仅能高效解决用户的实际问题(高智商),更能敏锐感知其语气、情感与潜在意图,并给予富有同理心和个性化的回应(高情商)。通过此项研究,我们期望推动语音对话从“功能型工具”向“伙伴型伴侣”的转变,打造出更自然、更可信、更具吸引力的交互体验,为下一代人机交互树立新的标杆。


简介:赵洲,浙江大学计算机学院教授、博士生导师、国家青年人才、科技部2030重点研发计划青年科学家,主持国家自然科学基金联合基金重点、浙江省杰青等项目。主要研究方向为自然语言理解、计算机视觉计算和生成式模型,在国际期刊TPAMI和会议NeurIPS,ICML,ICLR,CVPR等上发表100余篇论文,谷歌学术引用2万+,相关技术被应用于微软、字节、Stability AI、华为等公司,获2022年度教育部科技进步一等奖、2023年度上海市科学技术一等奖、2024年度人工智能学会科技进步一等奖、2021年度中国电子学会科技进步一等奖、2022年浙江大学竺可桢学院十佳专业导师,连续4年(2021-2024)入选“全球前2%顶尖科学家榜单”,连续2年(2023-2024)入选“中国高被引学者”,指导的多位学生获华为天才少年奖和浙江大学竺可桢奖学金。