面向信息检索的预训练语言模型

摘要:近年来,“预训练-调优”范式在自然语言处理领域取得了显著的成功,基于自监督任务训练得到的BERT等预训练模型在诸多自然语言理解的下游任务上取得了最优性能。目前,预训练语言模型也被信息检索领域广泛采纳,在实际Web搜索系统中发挥了重要作用。然而,已有的预训练任务和检索的契合度不高,导致预训练模型在排序任务上获得的提升不够显著,如何构建契合信息检索的预训练任务成为一个值得探索的科学问题。在本次报告中,我将首先介绍当前预训练模型在信息检索系统的主要应用与效果,并进一步介绍近期在面向信息检索的预训练方法上最新的研究成果。


简历:郭嘉丰,博士生导师,中科院计算技术研究所研究员,中国科学院大学岗位教授,现任中科院网络数据科学与技术重点实验室常务副主任,国家优青获得者,中科院青促会优秀会员,北京智源学者,联想青年科学家。长期从事智能信息检索与大数据分析方向研究。发表学术论文100余篇,Google Scholar累计引用7000余次,获得CIKM 2011最佳论文奖,SIGIR 2012最佳学生论文奖, CIKM 2017最佳论文Runner-up奖。担任本领域国际重要学术期刊ACM TOIS、IRJ编委以及主要国际会议的程序委员会高级评审委员、委员等。相关成果获得2020年国家技术发明二等奖(待批)、2012年国家科技进步二等奖、2012年中国中文信息学会 “钱伟长中文信息处理科学技术奖——汉王青年创新奖”一等奖。