目录
第1章绪论
1.1基本概念
1.1.1作者身份识别
1.1.2作者身份描述
1.1.3作者聚类分析
1.1.4机器学习
1.1.5计算语言学<p>目录</p> <p>第1章绪论</p> <p> </p> <p>1.1基本概念</p> <p> </p> <p>1.1.1作者身份识别</p> <p> </p> <p>1.1.2作者身份描述</p> <p> </p> <p>1.1.3作者聚类分析</p> <p> </p> <p>1.1.4机器学习</p> <p> </p> <p>1.1.5计算语言学</p> <p> </p> <p>1.2作者身份识别研究</p> <p> </p> <p>1.2.1文体风格特征研究内容</p> <p> </p> <p>1.2.2作者身份建模技术研究内容</p> <p> </p> <p>1.3作者身份建模基本方法</p> <p> </p> <p>1.3.1基于侧面的作者身份建模</p> <p> </p> <p>1.3.2基于实例的作者身份建模</p> <p> </p> <p>1.4作者身份识别面临的主要问题</p> <p> </p> <p>1.5本章小结</p> <p> </p> <p>第2章作者身份分析应用领域</p> <p> </p> <p>2.1英美文学作品作者身份识别</p> <p> </p> <p>2.2中文作品作者身份识别</p> <p> </p> <p>2.2.1中文自动分词</p> <p> </p> <p>2.2.2中文自动分词主要方法</p> <p> </p> <p>2.2.3中文作者身份识别相关研究</p> <p> </p> <p>2.3其他语种作者身份识别</p> <p> </p> <p>2.4网络文本作者身份识别</p> <p> </p> <p>2.5作者身份属性分析</p> <p> </p> <p>2.6作者身份法庭取证</p> <p> </p> <p>2.7本章小结</p> <p> </p> <p>第3章文体风格特征</p> <p> </p> <p>3.1文体风格特征类别</p> <p> </p> <p>3.1.1一元和多元文体风格特征</p> <p> </p> <p>3.1.2多层面文体风格特征</p> <p> </p> <p>3.1.3文体风格特征评述</p> <p> </p> <p>3.2文体风格特征选择</p> <p> </p> <p>3.3本章小结</p> <p> </p> <p>第4章作者身份识别算法</p> <p> </p> <p>4.1主要算法</p> <p> </p> <p>4.1.1支持向量机算法</p> <p> </p> <p>4.1.2朴素贝叶斯算法</p> <p> </p> <p>4.1.3*近邻算法</p> <p> </p> <p>4.1.4决策树算法</p> <p> </p> <p>4.1.5神经网络算法</p> <p> </p> <p>4.1.6其他方法</p> <p> </p> <p>4.2性能评价指标</p> <p> </p> <p>4.3实验平台</p> <p> </p> <p>4.4本章小结</p> <p> </p> <p>第5章英文博客作者身份识别</p> <p> </p> <p>5.1博客作者身份研究</p> <p> </p> <p>5.2英文博客作者文体特征模型</p> <p> </p> <p>5.2.1词汇层面特征</p> <p> </p> <p>5.2.2浅层句法特征</p> <p> </p> <p>5.2.3基于依存关系的特征</p> <p> </p> <p>5.2.4基于词性标注的特征</p> <p> </p> <p>5.2.5结构层面特征</p> <p> </p> <p>5.3博客作者身份识别实验</p> <p> </p> <p>5.3.1数据准备</p> <p> </p> <p>5.3.2特征组合实验</p> <p> </p> <p>5.3.3单独使用各组特征实验</p> <p> </p> <p>5.4本章小结</p> <p> </p> <p>第6章中文微博作者身份识别</p> <p> </p> <p>6.1微博作者身份相关研究</p> <p> </p> <p>6.1.1微博作者身份研究现状</p> <p> </p> <p>6.1.2中文微博作者身份研究现状</p> <p> </p> <p>6.2研究思路</p> <p> </p> <p>6.3中文微博作者文体特征模型</p> <p> </p> <p>6.3.1词汇特征</p> <p> </p> <p>6.3.2标点特征</p> <p> </p> <p>6.3.3微博特征</p> <p> </p> <p>6.3.4功能词特征</p> <p> </p> <p>6.3.5词性标注特征</p> <p> </p> <p>6.3.6依存句法特征</p> <p> </p> <p>6.4中文微博作者身份识别实验</p> <p> </p> <p>6.4.1数据准备</p> <p> </p> <p>6.4.23位作者LibSVM实验结果及分析</p> <p> </p> <p>6.4.38位作者身份识别实验</p> <p> </p> <p>6.4.4特征集组合C4.5实验</p> <p> </p> <p>6.4.5单独使用各组特征C4.5实验</p> <p> </p> <p>6.4.6单独使用各组特征LibSVM实验</p> <p> </p> <p>6.4.7特征选择实验</p> <p> </p> <p>6.5本章小结</p> <p> </p> <p>第7章基于依存关系的中文微博作者性别识别</p> <p> </p> <p>7.1作者性别属性相关研究</p> <p> </p> <p>7.2作者性别文体特征</p> <p> </p> <p>7.2.1依存关系</p> <p> </p> <p>7.2.2性别识别主要文体特征</p> <p> </p> <p>7.3微博作者性别识别实验</p> <p> </p> <p>7.3.1数据准备</p> <p> </p> <p>7.3.2LibSVM、NBC、IBK和C4.5中文微博</p> <p>作者性别识别</p> <p> </p> <p>7.3.3单独使用各组特征实验</p> <p> </p> <p>7.4本章小结</p> <p> </p> <p>参考文献</p>显示全部信息前 言前言文本作者身份识别广泛应用于文学作品、新闻稿、商品评论、垃圾邮件的作者身份鉴定以及法庭取证等领域。随着大数据时代网络文本的大量涌现,匿名文本的作者身份识别在网络取证、不良舆情监控等任务中的应用成为国内外学者关注的热点。文本作者身份识别研究主要通过文体风格特征建模表达作者无意识的写作习惯,从而自动映射匿名文本作者归属。相关研究经过百余年的发展,奠定了良好的理论和应用基础,已经广泛应用于文学作品或新闻报道等传统语料的作者身份识别。近年来网络文本作者身份识别成为研究热点,语料涉及电子邮件、网络评论、BBS和博客等,出现了数据海量、特征维度巨大、每个用户可得训练文本少等新特点,这些都是文本作者身份识别研究面临的新挑战。本书探讨了文本作者身份识别的关键问题、基本方法和*新研究进展,并应用于实践得以验证。全书共7章,共分为3部分。第1部分包括第1~2章,介绍文本作者身份识别的基础知识。其中,第1章介绍了作者身份识别的基本概念、研究内容、建模基本方法和面临的主要问题; 第2章分类归纳了作者身份分析的主要应用领域。第2部分包括第3~4章,介绍现有的作者身份文体特征和作者身份识别算法。其中,第3章介绍了作者身份文体特征类别和特征选择的一般方法; 第4章介绍了作者身份识别的主要算法、性能评价指标和主要实验平台。第3部分包括第5~7章,介绍本书对作者身份识别研究的贡献和实验验证。其中,第5章建立了英文博客作者身份文体特征模型,在公开博客语料上的实验证实了模型在短文本语料的有效性; 第6章建立了中文微博作者文体特征模型,在中文微博语料上证实了模型在短篇幅网络文本上的有效性; 第7章在中文微博作者性别识别实验中进一步拓展了文体特征模型的应用范围。本书主要面向文本挖掘领域的研究生和相关专业的研究人员,既可以作为文本分析与研究的教科书,也可以作为政府相关部门产品研发人员的参考书。本书能够尽快完成出版,首先要感谢美国Purdue大学的Marcus Rogers教授、Julia Taylor教授和我的同事霍跃红老师、刘彩虹老师、郭旭老师等,以及参与数据收集和整理的学生,本书的若干专题研究都与他们进行过深入的讨论。还要感谢清华大学出版社的编辑,是他们的鼓励和细致工作使得本书得以顺利出版。*后感谢在本书中所引用参考文献的作者和公开语料库的***,本书的写作从他们的研究成果中获取了很多营养,正是他们的勤奋以及分享的科研精神**和启发我完成本书的写作。本书研究获得以下研究项目的资助: 教育部第50批留学回国人员科研启动基金“典籍英译国外读者观点文本主题挖掘研究”(教外司[2015]1098); **社科基金一般项目“典籍英译国外读者网上评论观点挖掘研究”(15BYY028),在此表示感谢。虽然我始终以认真严谨的态度对待本书的撰写工作,但很多研究尚属于探索阶段,书中难免有不足之处,恳请广大读者批评指正!祁瑞华2016年7月前言 <div>文本作者身份识别广泛应用于文学作品、新闻稿、商品评论、垃圾邮件的作者身份鉴定以及法庭取证等领域。随着大数据时代网络文本的大量涌现,匿名文本的作者身份识别在网络取证、不良舆情监控等任务中的应用成为国内外学者关注的热点。文本作者身份识别研究主要通过文体风格特征建模表达作者无意识的写作习惯,从而自动映射匿名文本作者归属。相关研究经过百余年的发展,奠定了良好的理论和应用基础,已经广泛应用于文学作品或新闻报道等传统语料的作者身份识别。近年来网络文本作者身份识别成为研究热点,语料涉及电子邮件、网络评论、BBS和博客等,出现了数据海量、特征维度巨大、每个用户可得训练文本少等新特点,这些都是文本作者身份识别研究面临的新挑战。本书探讨了文本作者身份识别的关键问题、基本方法和*新研究进展,并应用于实践得以验证。全书共7章,共分为3部分。第1部分包括第1~2章,介绍文本作者身份识别的基础知识。其中,第1章介绍了作者身份识别的基本概念、研究内容、建模基本方法和面临的主要问题; 第2章分类归纳了作者身份分析的主要应用领域。第2部分包括第3~4章,介绍现有的作者身份文体特征和作者身份识别算法。其中,第3章介绍了作者身份文体特征类别和特征选择的一般方法; 第4章介绍了作者身份识别的主要算法、性能评价指标和主要实验平台。第3部分包括第5~7章,介绍本书对作者身份识别研究的贡献和实验验证。其中,第5章建立了英文博客作者身份文体特征模型,在公开博客语料上的实验证实了模型在短文本语料的有效性; 第6章建立了中文微博作者文体特征模型,在中文微博语料上证实了模型在短篇幅网络文本上的有效性; 第7章在中文微博作者性别识别实验中进一步拓展了文体特征模型的应用范围。本书主要面向文本挖掘领域的研究生和相关专业的研究人员,既可以作为文本分析与研究的教科书,也可以作为政府相关部门产品研发人员的参考书。本书能够尽快完成出版,首先要感谢美国Purdue大学的Marcus Rogers教授、Julia Taylor教授和我的同事霍跃红老师、刘彩虹老师、郭旭老师等,以及参与数据收集和整理的学生,本书的若干专题研究都与他们进行过深入的讨论。还要感谢清华大学出版社的编辑,是他们的鼓励和细致工作使得本书得以顺利出版。*后感谢在本书中所引用参考文献的作者和公开语料库的***,本书的写作从他们的研究成果中获取了很多营养,正是他们的勤奋以及分享的科研精神**和启发我完成本书的写作。本书研究获得以下研究项目的资助: 教育部第50批留学回国人员科研启动基金“典籍英译国外读者观点文本主题挖掘研究”(教外司[2015]1098); **社科基金一般项目“典籍英译国外读者网上评论观点挖掘研究”(15BYY028),在此表示感谢。虽然我始终以认真严谨的态度对待本书的撰写工作,但很多研究尚属于探索阶段,书中难免有不足之处,恳请广大读者批评指正!祁瑞华2016年7月<br /><br /><br /><br /><br /></div>显示全部信息媒体评论评论免费在线读第3章文体风格特征作者身份识别研究基于语言学研究领域中的文本分析,通过利用统计学方法分析文体风格来判断一段作品是否由这个作者创作。传统的作者身份识别技术主要应用于文学作品归属问题,近年来国内外学者正尝试将其应用于现实世界中的文本,如电子邮件、博客、在线信息以及源代码的作者归属问题。作者身份识别研究有两个关键问题: ①选择哪些文体风格特征; ②选取何种作者身份识别技术。本章讨论作者身份识别问题中*基本的问题之一: 文体风格特征及其在国内外的研究现状和趋势。文体风格特征是指能够有效识别作者身份的独特文档属性和写作风格标识等语言参数。理论文体学的作家决定论指出,作品风格产生于作者对其思想行为的合理安排[4],作者在其作品中会自觉或不自觉地融入其个性和个人社会背景。作者身份识别研究的基础就是对文体风格特征的比较分析,关键问题在于如何捕捉这些作者独特的文档属性和写作风格。国内外相关研究中选择的文体风格特征主要可分为字符特征、词汇特征、句法特征、结构特征、语义特征和领域相关特征。本章主要从一元和多元文体特征、多层面文体特征,以及文体特征选择三个方面探讨,还对文体风格特征的选择方法进行了介绍。3.1文体风格特征类别3.1.1一元和多元文体风格特征
作者身份识别的定量研究始于Mendenhall T. C.从单词长度规律的角度对英美文学作品写作风格的分析[2],代表研究有Yule G. U.根据句子长度分析英文散文、传记和随笔等作品的写作风格[39],Effon B.等统计莎士比亚作品中的词汇量,用以判断匿名作品是否是莎士比亚本人所著[40],Baayen H.基于重写规则频率语法对Nijmegen标注语料库中20世纪60年代戏剧、犯罪小说和文学评论的作者进行分析等[41],这些早期研究主要基于一元文体风格特征,仅适用于特定语料。为了增强通用性,随后学者们在作者身份识别中引入多元特征,如Zhao Y.等从句法角度以365个功能词为特征对美联社TREC语料库文章进行作者识别[15],Hollingsworth C.采用DepWords编码替代句法依存关系来识别英文侦探小说的作者[42],Chaurasia M.等检测了英美文学作品中文本单词首字符、中间字符、结束字符的Ngram,指出仅使用首字符Bigram和Trigram能有效识别作者[87]。一元和多元文体风格特征研究如表3.1所示。
表3.1一元和多元文体风格特征研究
文体风格特征作者年份应 用 语 料