第四届语言与智能高峰论坛－语言和智能技术评测报告信息

语言和智能技术评测报告

总体报告：2019语言与智能技术评测总体报告
报告人：吴华（百度公司）
摘要：语言是人类信息传递最重要的媒介，让机器理解语言并进行交互是人工智能的基本挑战。“2019语言与智能技术竞赛”旨在推动相关技术研究和应用的发展。竞赛设立了三大任务——信息抽取、知识驱动对话及机器阅读理解。每项任务均提供了面向真实应用场景的大规模中文数据集和基于PaddlePaddle的开源基线系统。竞赛总共吸引了2376支队伍报名参赛，累计收到提交结果6212份，三大任务效果均相对基线获得了显著提升。本报告将介绍技术竞赛的任务设置和参赛情况。

“机器阅读理解”任务冠军队伍报告：一种机器阅读理解模型BMAnet
报告人：杨志明（深思考人工智能机器人科技（北京）有限公司）
摘要：机器阅读理解是自然语言处理和人工智能领域的重要前沿课题，对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值，近年来受到学术界和工业界的广泛关注。“2019语言与智能技术竞赛”开设的机器阅读理解任务，重点关注当前优秀的阅读理解系统尚不能正确回答的问题，全面评测机器进行深度语言理解以回答复杂问题的能力。为了达成这一目标，我们在数据预处理、模型搭建、预测优化等方面提出了一些创新的解决方案，构建了机器阅读理解模型BMAnet，在最终的评测中，凭借单模型取得了ROUGE-L值63.13，BLEU-4值59.34的成绩，获得“2019语言与智能技术竞赛”机器阅读理解任务冠军。

“知识驱动对话”任务冠军队伍报告：知识驱动对话生成式对话系统
报告人：潘晟锋（深圳追一科技有限公司）
摘要：这次报告主要介绍一种通过迁移学习，将预训练语言模型运用到知识驱动的生成式对话任务中的方法。我们采用图谱形式对背景知识进行编码，并对Transformer结构的预训练模型的输入以及注意力mask进行相应的改进，使预训练模型能够同时对图谱结构的知识以及自然语言序列进行处理。通过在预训练模型上对背景知识图谱以及自然语言序列进行合适的finetune后，最后再进行自然语言生成为目标的训练。最终得到一个可以根据背景知识进行多轮对话生成的系统，该系统在LIC2019语言智能挑战赛中的知识驱动生成任务中获得第一名。

“信息抽取”任务冠军队伍报告：Schema约束的知识抽取系统架构
报告人：梁家卿（上海数眼科技发展有限公司/复旦大学知识工场）
摘要：知识是许多人工智能应用必不可少的基础。而自然语言文本中涵盖了大量的知识，是很好的知识来源。因此，从自然语言文本中抽取知识成为一个非常重要的任务。由于自然语言文本的复杂性和智能应用对知识的高可靠性要求，构建能支撑各种智能应用的知识抽取器并不容易。在业界规模最大的中文信息抽取数据集SKE下，我们实现了对给定Schema的F1接近90%的抽取器。该抽取器使用一个两步抽取框架，先确定句子中可能包含的知识类型，再针对每个知识类型抽取其元素。同时，我们引入从数据集中构建的知识图谱作为先验验证抽取到的知识和现有知识的一致性。