当语言遇上视觉:基于可视化内容的跨模态自然语言处理

摘要:近年来,随着网速的不断提升和移动终端的普及,越来越多的可视化内容(例如图片和视频等)出现在人们的日常生活中,并迅速成为互联网内容的主要载体。这一趋势也使得计算机视觉和自然语言处理这两大人工智能分支不断碰撞和融合,衍生出若干跨领域的研究课题和实际应用。在本报告中,我们首先从自然语言处理研究者的视角,说明开展跨模态自然语言处理研究的重要意义。然后,以基于可视化内容的三种典型任务(图片检索、图片问答和视频问答)为例,介绍跨模态自然语言处理研究的一些最新进展。最后,分析该方向目前存在的主要问题,并和大家讨论未来可能的解决方案。


简历:段楠,博士,微软亚洲研究院自然语言计算组主管研究员,中文信息技术专委会委员。主要研究方向包括自然语言理解与生成、自动问答、多模态学习、任务驱动对话系统、信息抽取等。先后在国际高水平NLP/CV/ML会议(ACL、EMNLP、NAACL、COLING、AAAI、IJCAI、CVPR、KDD、NeurIPS等)发表论文40余篇。著有《智能问答》一书(高等教育出版社)。自2015年起至今负责NLPCC开放领域自动问答评测,并担任NLPCC 2018和2019评测主席。持有美国专利8项。多项技术已成功转化到包括必应搜索、必应广告、Cortana语音助手和微软小冰等在内的微软人工智能产品。