序 一 智能可以分为两个层次。一是感知智能,即让计算机可以看见、听见和触摸。在这些领域,人工智能取得了许多突破,包括语音识别、语音合成、计算机视觉等。而更高的层次是认知智能,它需要计算机能够真正理解和分析各种概念、关系、逻辑等。在这个层次,人工智能的进展还处于起步阶段。 语言作为人类进行交流和传播思想的重要媒介,集中承载了*高层级的智能水平。从20世纪50年代提出的图灵测试开始,到深度学习方兴未艾的今天,理解和应用自然语言一直是全世界人工智能研发同行们梦寐以求想解决的共同课题。语音和语言技术是镶在AI皇冠上的明珠。如果计算机在未来的某**可以完全理解人类的语言,我们就实现了强人工智能。 近年来,机器阅读理解成为语言处理研究中*热门、*前沿的方向之一。利用计算机建立模型,使计算机能像人类一样阅读文章、分析语义和回答问题,有着重要的科研价值和实用价值。从智能客服到搜索引擎,从作文自动评分到智能金融,机器阅读理解技术可以将大量耗时费力的人工分析自动化,极大地提高了社会的生产力。 随着深度学习技术的不断发展,机器阅读理解研究有了长足的进步。在一些特定的任务中,计算机模型的回答已经可以媲美人类的水平,一些媒体也对这些成果冠以“计算机的阅读理解能力已超人类”的标题。但是,现有的模型能力离真正智能的阅读还有很大距离。大多数情况下,模型仍然简单依赖于局部词句的匹配,而并非基于对篇章结构和语义的理解。 一般来说,人工智能如果要在某个领域获得成功,3个因素缺一不可:平台、数据和算法。而随着硬件算力的不断提升和大数据的爆炸式增长,对算法的探索与改进就成为人工智能研究的必争之地。 现在市面上完整介绍机器阅读理解算法研究与应用现状的书籍非常少见,相关的中文资料更是少之又少。我们团队的朱晨光博士在机器阅读理解领域深耕多年,并曾在多项国际竞赛中带领团队夺得**。他写这本书的目的就是将机器阅读理解的真实面貌展现给读者。书中既有对*新研究成果的详细介绍,也有他对机器阅读理解未来发展方向的思考。希望本书能够启发各位读者为实现人类水平的机器阅读理解共同努力。 黄学东博士 微软公司人工智能**技术官 序 二 朱晨光博士现在(美国)微软公司担任**研究员,主要从事自然语言处理方面的研究,包括机器阅读理解、任务驱动对话和文本摘要等。他在CCCF(《中国计算机学会通讯》)上写的一篇特约专稿《机器阅读理解:如何让计算机读懂文章》很受欢迎。机械工业出版社的编辑看到后,特邀他写书。近期,他完成了专著《机器阅读理解:算法与实践》,让我写一段序言。 自然语言处理旨在解决对自然语言的理解和生成问题。自然语言问题是人工智能皇冠上的明珠,是计算机重要的能力之一,也是研究难度很大的一个领域。人类常用的每一种自然语言都有其语法,但由于使用语言的人的风格不同,加上地方话和习惯用语等因素,所产生的语言千变万化。人和人之间的交流和理解一般是没有障碍的,但让计算机理解就非常困难。这是因为,目前的冯·诺依曼计算机体系结构处理有明确规则的事务比较容易,但处理规则多变的事务就显得有些力不从心。 多少年来,研究者提出和发展了很多方法,有基于语言学规则的技术,也有基于统计机器学习的模型。*近一段时间以来,研究者发展了端到端训练的深度学习自然语言处理体系,包括词嵌入、句子嵌入、注意力机制、编码/解码方法以及*近的预训练模型等,大幅提升了模型处理各项任务的能力,给自然语言理解带来了新的、有趣的思路。 机器(就是计算机)阅读理解是自然语言处理中*热门、*前沿的研究课题之一。阅读是人们获得信息的基本手段,没有阅读就没有理解,没有理解就无法交流。市面上已有很多聊天机器人产品,但人们发现这些机器人往往答非所问。究其原因,就是目前采用的技术是“文本比对”的黑盒方式,而实际上机器人并不理解人类在和它说什么。大家知道,人们在交流时是有语境(即上下文)的,通过联想,人们可以方便地理解对方在说什么,但是让机器了解语境确实是一件非常困难的事。为了解决这些问题,研究者提出了许多改进方法,不断提高模型理解对话与文章的能力。而且,一大批阅读理解数据集的发布强有力地推动了技术的发展。 机器阅读除了研究价值以外,还有许多很有意义的应用,比如文本摘要可以省去人们阅读全文的时间,问答系统可以从海量文档中**地找到用户问题的答案。机器阅读也是翻译和对话的基础,这对计算机辅助人工服务有重大价值。 晨光的这本书系统地介绍了这个领域的关键技术、取得的进展,以及存在的问题。相信读者读完本书后,会对这一领域的研究及应用有一个比较清晰的认识。 晨光在上中学时参加了CCF主办的信息学奥林匹克竞赛,曾获得全国竞赛的**,也是国际赛IOI中国队的候选队员。因我是主席,那时就认识他了。他后来被保送到清华大学计算机系读书,毕业后又去斯坦福大学攻读博士学位,然后在微软从事自然语言处理方面的研究,造诣很高。我们很少见面,但一直保持联系。我认为他是一个天资聪颖、学风严谨而又非常通达事理的青年学者,因此非常乐意和他讨论问题。他提出让我写篇序,看到他的新的研究进展,我深感高兴,于是欣然提笔,也借此向他表示祝贺。 杜子德 原中科院计算所研究员,现任中国计算机学会秘书长