《Python中文自然语言处理基础与实战》肖刚,张良均

第 1章绪论 1 1.1 自然语言处理概述 1 1.1.1 NLP的发展历程 2 1.1.2 NLP研究内容 3 1.1.3 NLP的几个应用场景 4 1.1.4 NLP与人工智能技术 5 1.1.5 学习NLP的难点 6 1.2 NLP基本流程 6 1.2.1 语料获取 6 1.2.2 语料预处理 7 1.2.3 文本向量化 7 1.2.4 模型构建 7 1.2.5 模型训练 7 1.2.6 模型评价 8 1.3 NLP的开发环境 8 1.3.1 Anaconda安装 8 1.3.2 Anaconda应用介绍 9 小结 14 课后习题 14 第 2章语料库 16 2.1 语料库概述 16 2.1.1 语料库简介 16 2.1.2 语料库的用途 17 2.2 语料库的种类与构建原则 17 2.2.1 语料库的种类 17 2.2.2 语料库的构建原则 18 2.3 NLTK 19 2.3.1 NLTK简介 19 2.3.2 安装步骤 19 2.3.3 NLTK中函数的使用 21 2.4 语料库的获取 23 2.4.1 获取NLTK语料库 23 2.4.2 获取网络在线语料库 30 2.5 任务:语料库的构建与应用 32 2.5.1 构建作品集语料库 32 2.5.2 武侠小说语料库分析 33 小结 35 实训 35 实训1 构建语料库 35 实训2 《七剑下天山》语料库分析 36 课后习题 36 第3章正则表达式 38 3.1 正则表达式的概念 38 3.1.1 正则表达式函数 38 3.1.2 正则表达式的元字符 40 3.2 任务:正则表达式的应用 43 3.2.1 《西游��》字符过滤 43 3.2.2 自动提取人名与电话号码 44 3.2.3 提取网页标签信息 45 小结 46 实训 46 实训1 过滤《三国志》中的字符 46 实训2 提取地名与邮编 46 实训3 提取网页标签中的文本 46 课后习题 47 第4章中文分词技术 48 4.1 中文分词简介 48 4.2 基于规则分词 48 4.2.1 正向匹配法 49 4.2.2 逆向匹配法 49 4.2.3 双向匹配法 50 4.3 基于统计分词 51 4.3.1 n元语法模型 51 4.3.2 隐马尔可夫模型相关概念 55 4.4 中文分词工具jieba 62 4.4.1 基本步骤 63 4.4.2 分词模式 63 4.5 任务:中文分词的应用 64 4.5.1 HMM中文分词 64 4.5.2 提取新闻文本中的高频词 68 小结 69 实训 70 实训1 使用HMM进行中文分词 70 实训2 提取文本中的高频词 70 课后习题 70 第5章词性标注与命名实体识别 72 5.1 词性标注 72 5.1.1 词性标注简介 72 5.1.2 词性标注规范 73 5.1.3 jieba词性标注 74 5.2 命名实体识别 77 5.2.1 命名实体识别简介 77 5.2.2 CRF模型 78 5.3 任务:中文命名实体识别 82 5.3.1 sklearn-crfsuite库简介 83 5.3.2 命名实体识别流程 83 小结 90 实训中文命名实体识别 90 课后习题 91 第6章关键词提取 92 6.1 关键词提取技术简介 92 6.2 关键词提取算法 93 6.2.1 TF-IDF算法 93 6.2.2 TextRank算法 94 6.2.3 LSA与LDA算法 96 6.3 任务:自动提取文本关键词 103 小结 109 实训 109 实训1 文本预处理 109 实训2 使用TF-IDF算法提取关键词 109 实训3 使用TextRank算法提取关键词 110 实训4 使用LSA算法提取关键词 110 课后习题 110 第7章文本向量化 112 7.1 文本向量化简介 112 7.2 文本离散表示 113 7.2.1 独热表示 113 7.2.2 BOW模型 113 7.2.3 TF-IDF表示 114 7.3 文本分布式表示 114 7.3.1 Word2Vec模型 114 7.3.2 Doc2Vec模型 118 7.4 任务:文本相似度计算 120 7.4.1 Word2Vec词向量的训练 121 7.4.2 Doc2Vec段落向量的训练 122 7.4.3 计算文本的相似度 124 小结 128 实训 128 实训1 实现基于Word2Vec模型的新闻语料词向量训练 128 实训2 实现基于Doc2Vec模型的新闻语料段落向量训练 128 实训3 使用Word2Vec模型和Doc2Vec模型计算新闻文本的相似度 129 课后习题 129 第8章文本分类与文本聚类 131 8.1 文本挖掘简介 131 8.2 文本分类常用算法 132 8.3 文本聚类常用算法 133 8.4 文本分类与文本聚类的步骤 135 8.5 任务:垃圾短信分类 136 8.6 任务:新闻文本聚类 141 小结 144 实训 144 实训1 基于朴素贝叶斯的新闻分类 144 实训2 食品种类**问题聚类分析 145 课后习题 145 第9章文本情感分析 147 9.1 文本情感分析简介 147 9.1.1 文本情感分析的主要内容 147 9.1.2 文本情感分析的常见应用 148 9.2 情感分析的常用方法 149 9.2.1 基于情感词典的方法 149 9.2.2 基于文本分类的方法 150 9.2.3 基于LDA主题模型的方法 151 9.3 任务:基于情感词典的情感分析 151 9.4 任务:基于文本分类的情感分析 154 9.4.1 基于朴素贝叶斯分类的情感分析 154 9.4.2 基于SnowNLP库的情感分析 156 9.5 任务:基于LDA主题模型的情感分析 157 9.5.1 数据处理 157 9.5.2 模型训练 158 9.5.3 结果分析 159 小结 160 实训 160 实训1 基于词典的豆瓣评论文本情感分析 160 实训2 基于朴素贝叶斯算法的豆瓣评论文本情感分析 160 实训3 基于SnowNLP的豆瓣评论文本情感分析 161 实训4 基于LDA主题模型的豆瓣评论文本情感分析 161 课后习题 161 第 10章 NLP中的深度学习技术 163 10.1 循环神经网络概述 163 10.2 RNN结构 164 10.2.1 多对一结构 164 10.2.2 等长的多对多结构 164 10.2.3 非等长结构(Seq2Seq模型) 169 10.3 深度学习工具 171 10.3.1 TensorFlow简介 171 10.3.2 基于TensorFlow的深度学习库Keras 172 10.4 任务:基于LSTM的文本分类与情感分析 172 10.4.1 文本分类 172 10.4.2 情感分析 181 10.5 任务:基于Seq2Seq的机器翻译 185 10.5.1 语料预处理 185 10.5.2 构建模型 188 10.5.3 定义优化器和损失函数 191 10.5.4 训练模型 191 10.5.5 翻译 194 小结 195 实训 195 实训1 实现基于LSTM模型的新闻分类 195 实训2 实现基于LSTM模型的携程网评论情感分析 196 实训3 实现基于Seq2Seq和GPU的机器翻译 196 课后习题 197 第 11章智能问答系统 198 11.1 智能问答系统简介 198 11.2 智能问答系统的主要组成部分 198 11.2.1 问题理解 199 11.2.2 知识检索 199 11.2.3 答案生成 200 11.3 任务:基于Seq2Seq模型的聊天机器人 201 11.3.1 读取语料库 201 11.3.2 文本预处理 202 11.3.3 模型构建 206 11.3.4 模型训练 211 11.3.5 模型评价 218 小结 218 实训基于Seq2Seq模型的聊天机器人 218 课后习题 219 第 12章基于TipDM大数据挖掘建模平台实现垃圾短信分类 220 12.1 平台简介 220 12.1.1 实训库 221 12.1.2 数据连接 222 12.1.3 实训数据 222 12.1.4 我的实训 223 12.1.5 系统算法 223 12.1.6 个人算法 225 12.2 实现垃圾短信分类 226 12.2.1 数据源配置 227 12.2.2 文本预处理 229 12.2.3 朴素贝叶斯分类模型 234 小结 235 实训实现基于朴素贝叶斯的新闻分类 235 课后习题 236

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

Python中文自然语言处理基础与实战

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户