从语言理解到多模态智能

摘要:近年来一系列的人工智能技术的创新极大推动了语言和视觉智能的发展。在此我将介绍在自然语言理解和计算机视觉的交叉学科领域的一些最新进展,包括语言与图像的理解、推理和生成。具体而言,我将介绍跨语言和视觉的语义表示建模,然后将介绍在图像描述,即理解视觉内容和生成自然语言描述;视觉问答,即跨自然语言和视觉执行推理以推断答案;以及文字到图像合成,即按照自然语言描述生成图像等方面的进展。特别地,我将分析算法中的可解释性和可控性。最后我还将展示AI在其它领域比如艺术与创作方面的一些探索。


简历:何晓冬博士是京东人工智能研究院常务副院长,深度学习及语音和语言实验室的负责人。他还在华盛顿大学(西雅图)、香港中文大学(深圳)、同济大学(上海)、及中央美术学院(北京) 任兼职教授和荣誉教授。在加入京东集团之前,他曾担任微软雷德蒙德研究院深度学习技术中心的主任研究员和负责人。他的研究主要集中在人工智能领域,包括深度学习,自然语言处理,语音识别,计算机视觉,信息检索和多模态智能。他与合作者在这些领域发表了100多篇论文,谷歌学术统计引用数过万次,并多次获得优秀论文奖及赢得重要的人工智能方面大赛。他与合作者发明的深层结构化语义模型(DSSM/C-DSSM),分层注意力网络(HAN),CaptionBot,AttnGAN,Bottom-Up Attention等广泛应用于语言,视觉,IR和人机对话等任务。基于其在自然语言和视觉技术及多模态信息处理方面的贡献,他于2018年入选IEEE Fellow。