近年来,统计自然语言处理(或称统计语言学)异军突起,现已成为自然语言处理研究中的主流。在统计自然语言处理学科成长的过程中,有四个因素起着推动作用:
1. 由于计算机硬件的发展,使大容量的存储和高速计算已经成为可能;
2. 由于计算机网络的普及,大量电子文本在网络上的涌现,使语料的获取不再困难;
3. 机器学习学科本身的发展日趋成熟,并在许多领域得到了广泛应用,因此它在自然语言处理中的应用已经成为很自然的事情;
4. 由于自然语言本身的复杂性,即使是语言学家也很难用纯粹的人工规则(或规律)来刻画它,这就迫使我们从实际语料中学习语言规律。
统计自然语言处理的研究涉及了传统自然语言处理的各个方面,例如语言分析、机器翻译、信息检索、文本分类等。可以毫不夸张地说,统计学习方法的引入大大促进了这些领域的研究和发展。目前国内几乎所有**大学的计算机系都在从事这方面的研究(或开设了类似专业)。但是,系统地讲授或阅读这方面的专著并未得到学术界同行们的重视。在一次学术会议上,某校一位教授深有感触地说,“研究生在校学习期间一定要认真读一本专著。”我们对这位教授的发言深有同感。研究生们一定要看*新的参考文献,包括学术会议文章和杂志文章,但只看这些资料,不看(或学习)一两本专著,所学知识可能是支离破碎的,也未免有急功近利之嫌,尤其是对一些新兴学科更是如此。在这样的情况下的研究往往底气不足,不容易出一些像样的成果。在学术交流中,往往大家没有共同的语言,甚至闹出笑话。
本书是一本系统介绍统计自然语言处理(或统计语言学)的专著,在国外已经被许多大学用来作为教材。在国内,大家已经开始认识到了这本书的价值,不少大学将本书的英文版作为研究生教材。将这本专著翻译并介绍给国内广大从事自然语言处理研究的读者,具有重要的现实意义。本书覆盖了统计自然语言处理的各个领域中*重要的主题,内容详尽,层次清楚。无论是对于从事信息检索、机器翻译、文本分类和语言分析等方面的研究的人员,还是对于计算语言学专业的本科生和研究生,本书都有着非常重要的参考价值。
本书由清华大学计算机系的苑春法组织翻译。苑春法长期从事统计自然语言处理相关领域的研究和教学工作,对该领域里的问题有一定深度的了解。参译者也都在该领域里具有一定的研究基础和经历。本书第2章和第13章~第16章由李庆中初译,第1章和第5章~第8章由王昀初译,第3章和第9章~第12章由李伟初译,前言部分和第4章由曹德芳初译。*后,全书由苑春法负责统一修改、审阅并定稿。在翻译本书的过程中,大家力求忠实于原著,在此基础上尽量把概念表达准确、清晰。黄昌宁教授对于本书的翻译工作给予了指导,闻扬、周剑辉、徐薇、翁耀、钱冬蕾和林静等人也做了部分内容的翻译和辅助性工作,在此一并表示感谢。
本书采用英文版第5次印刷的版本进行翻译,已经对照作者在网站上提供的勘误表对相关内容进行了更正或注解。由于译者水平有限,翻译中难免会出现一些不妥之处,希望广大读者批评指正。