基于具身场景认知的视觉导航
摘要:具身智能是真实物理世界中人工智能的重要表现形态,具身导航是指智能体根据任务目标,感知与理解周围环境并执行移动动作完成任务,这是具身智能系统与真实世界交互的关键技术之一。生理学与认知科学研究表明,场景认知在导航任务中起着至关重要的作用,智能体不仅通过当前观察来感知环境,还能通过过往经验和记忆对未观测的场景进行推测,如何将场景认知与导航任务相结合,为智能体提供预想与决策能力,是一项值得研究的重要问题。本报告将首先介绍具身智能与具身导航的研究背景,并汇报基于具身场景认知的视觉导航研究进展,包括基于场景知识图的物体导航、基于网格记忆地图的视觉语言导航、基于神经辐射表征前瞻探索的视觉语言导航等技术,最后介绍具身导航从虚拟到真实环境的适配并给出演示。

简介:蒋树强,中国科学院大学特聘教授,博士生导师,先后担任期刊《IEEE TMM》、《ACM ToMM》、《IEEE Multimedia》、《计算机研究与发展》、《JCST》、《CAD学报》编委,中国人工智能学会具身智能专委会主任、中国计算机学会多媒体专委会副主任、中国自动化学会网络计算专委会副主任、ACM SIGMM中国分会副主席,研究方向是多媒体内容分析和具身智能技术。主持承担科技创新2030-“新一代人工智能”重大项目、国家自然科学基金青年基金A类(杰青)、B类(优青)、重点等项目20余项,发表论文200余篇,获授权专利20余项,多项技术应用到实际系统中,先后获省部级或学会奖励5项。