第十届语言与智能高峰论坛

基于具身场景认知的视觉导航

摘要：具身智能是真实物理世界中人工智能的重要表现形态，具身导航是指智能体根据任务目标，感知与理解周围环境并执行移动动作完成任务，这是具身智能系统与真实世界交互的关键技术之一。生理学与认知科学研究表明，场景认知在导航任务中起着至关重要的作用，智能体不仅通过当前观察来感知环境，还能通过过往经验和记忆对未观测的场景进行推测，如何将场景认知与导航任务相结合，为智能体提供预想与决策能力，是一项值得研究的重要问题。本报告将首先介绍具身智能与具身导航的研究背景，并汇报基于具身场景认知的视觉导航研究进展，包括基于场景知识图的物体导航、基于网格记忆地图的视觉语言导航、基于神经辐射表征前瞻探索的视觉语言导航等技术，最后介绍具身导航从虚拟到真实环境的适配并给出演示。

简介：蒋树强，中国科学院大学特聘教授，博士生导师，先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委，中国人工智能学会具身智能专委会主任、中国计算机学会多媒体专委会副主任、中国自动化学会网络计算专委会副主任、ACM SIGMM中国分会副主席，研究方向是多媒体内容分析和具身智能技术。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金青年基金A类（杰青）、B类（优青）、重点等项目20余项，发表论文200余篇，获授权专利20余项，多项技术应用到实际系统中，先后获省部级或学会奖励5项。