《R数据科学实战(第2版)》(美)尼娜·祖梅尔(Nina Zumel)，约翰·蒙特(John Mount)著张骏温许向东张

第Ⅰ部分数据科学引论第1 章数据科学处理过程 2 1.1 数据科学项目中的角色 3 1.2 数据科学项目的阶段 5 1.2.1 制定目标 6 1.2.2 收集和管理数据 7 1.2.3 建立模型 9 1.2.4 评价和评判模型 10 1.2.5 展现结果和编制文档 12 1.2.6 部署模型 14 1.3 设定预期 14 1.4 小结 15 第2 章从R和数据入门 16 2.1 R入门 17 2.1.1 安装R、工具和示例 18 2.1.2 R编程 18 2.2 处理文件中的数据 28 2.2.1 使用来自文件或URL的结构良好的数据 28 2.2.2 使用R处理非结构化的数据 33 2.3 使用关系数据库 37 2.4 小结 50 第3 章探索数据 52 3.1 使用概要统计方法发现问题 54 3.2 使用图形和可视化方法发现问题 59 3.2.1 采用可视化的方法检查单变量的分布 61 3.2.2 采用可视化的方法检查两个变量之间的关系 71 3.3 小结 87 第4 章管理数据 89 4.1 清洗数据 90 4.1.1 特定领域的数据清洗 90 4.1.2 处理缺失值 92 4.1.3 自动处理缺失值变量的vtreat程序包 96 4.2 数据转换 99 4.2.1 归一化处理 101 4.2.2 **化和定标 102 4.2.3 针对偏态分布和广泛分布的对数转换 107 4.3 用于建模和验证的抽样处理 109 4.3.1 用于测试和训练的分组数据集 110 4.3.2 创建一个样本分组列 111 4.3.3 记录分组 112 4.3.4 数据来源 113 4.4 小结 114 第5 章数据工程与数据整理 115 5.1 数据选取 118 5.1.1 设置行子集和列子集 118 5.1.2 删除不完整的数据的记录 124 5.1.3 对行进行排序 128 5.2 基础数据转换 133 5.2.1 添加新列 133 5.2.2 其他简单操作 139 5.3 汇总转换 140 5.4 多表之间数据的转换 144 5.4.1 快速地对两个或多个排序的数据框执行合并 144 5.4.2 合并多个表中数据的主要方法 152 5.5 重新整理和转换数据 159 5.5.1 将数据从宽表转换为窄表 159 5.5.2 将数据从窄表转换为宽表 164 5.5.3 数据坐标 169 5.6 小结 169 第Ⅱ部分建模方法第6 章选择和评价模型 172 6.1 将业务问题映射为机器学习任务 173 6.1.1 分类问题 173 6.1.2 打分问题 175 6.1.3 分组：目标未知情况下的处理 176 6.1.4 从问题到方法的映射 178 6.2 模型评估 179 6.2.1 过拟合 179 6.2.2 模型性能的度量 183 6.2.3 分类模型的评价 184 6.2.4 评估打分模型 195 6.2.5 概率模型的评估 198 6.3 使用局部可解释的、与模型无关的解释技术(LIME)来解释模型预测 206 6.3.1 LIME：自动的完整性检查 208 6.3.2 LIME实现过程：一个小样本 208 6.3.3 LIME用于文本分类 216 6.3.4 对文本分类器进行训练 219 6.3.5 对分类器的预测进行解释 221 6.4 小结 227 第7 章线性和逻辑回归 228 7.1 使用线性回归 229 7.1.1 了解线性回归 229 7.1.2 建立一个线性回归模型 235 7.1.3 预测 235 7.1.4 发现关系并抽取建议 241 7.1.5 阅读模型摘要并刻画系数质量 243 7.1.6 线性回归要点 250 7.2 使用逻辑回归 251 7.2.1 理解逻辑回归 251 7.2.2 构建逻辑回归模型 256 7.2.3 预测 257 7.2.4 从逻辑回归模型中发现关系并提取建议 262 7.2.5 解读模型摘要并刻画系数 264 7.2.6 逻辑回归的要点 272 7.3 正则化 272 7.3.1 一个准分离的例子 273 7.3.2 正则化回归方法的类型 278 7.3.3 使用glmnet程序包实现正则化回归 280 7.4 小结 291 第8 章 **数据准备 292 8.1 vtreat程序包的作用 293 8.2 KDD和KDD Cup 2009 295 8.2.1 使用KDD Cup 2009 数据 296 8.2.2 “莽撞”做法 298 8.3 为分类操作准备基本数据 301 8.3.1 变量的分数框 303 8.3.2 正确使用处理计划 308 8.4 适用于分类的**数据准备 309 8.4.1 使用mkCrossFrame- CExperiment() 309 8.4.2 建立模型 312 8.5 为回归建模准备数据 317 8.6 掌握vtreat程序包 320 8.6.1 vtreat的各个阶段 320 8.6.2 缺失值 322 8.6.3 指示变量 323 8.6.4 影响编码 324 8.6.5 处理计划 326 8.6.6 交叉框 327 8.7 小结 332 第9 章无监督方法 333 9.1 聚类分析 334 9.1.1 距离 335 9.1.2 数据准备 338 9.1.3 使用hclust()进行层次聚类 341 9.1.4 k-均值算法 356 9.1.5 给聚类分派新的点 363 9.1.6 聚类的要点 365 9.2 关联规则 366 9.2.1 关联规则概述 366 9.2.2 示例问题 368 9.2.3 使用arules程序包挖掘关联规则 369 9.2.4 关联规则要点 379 9.3 小结 379 第10 章 **方法探索 381 10.1 基于决策树的方法 383 10.1.1 基本决策树 384 10.1.2 使用bagging方法改进预测 387 10.1.3 使用随机森林方法进一步改进预测 390 10.1.4 梯度增强树 397 10.1.5 基于决策树的模型的要点 407 10.2 使用广义相加模型学习非单调关系 407 10.2.1 理解GAM 408 10.2.2 一维回归示例 409 10.2.3 提取非线性关系 414 10.2.4 在真实数据集上使用GAM 416 10.2.5 使用GAM实现逻辑回归 420 10.2.6 GAM要点 422 10.3 使用支持向量机解决“不可分”的问题 422 10.3.1 使用SVM解决问题 424 10.3.2 理解SVM 429 10.3.3 理解核函数 431 10.3.4 支持向量机和核方法要点 434 10.4 小结 434 第Ⅲ部分结果交付第11 章文档编制和部署 438 11.1 预测热点 440 11.2 使用R markdown生成里程碑文档 441 11.2.1 R markdown是什么 441 11.2.2 knitr技术详解 444 11.2.3 使用knitr编写Buzz数据文档和生成模型 446 11.3 在运行时文档编制中使用注释和版本控制 449 11.3.1 编写有效的注释 449 11.3.2 使用版本控制记录历史 451 11.3.3 使用版本控制探索项目 457 11.3.4 使用版本控制分享工作 460 11.4 模型部署 464 11.4.1 使用Shiny部署演示 466 11.4.2 将模型部署为HTTP服务 467 11.4.3 以导出模式部署模型 470 11.4.4 本节要点 472 11.5 小结 472 第12 章有效的结果展现 474 12.1 将结果展现给项目出资方 476 12.1.1 概述项目目标 477 12.1.2 陈述项目结果 479 12.1.3 补充细节 480 12.1.4 提出建议并讨论未来工作 482 12.1.5 针对项目出资方的演示文稿中的关键点 482 12.2 向终用户展现模型 483 12.2.1 概述项目目标 483 12.2.2 展现如何将模型应用于用户的工作流程 484 12.2.3 展现如何使用模型 486 12.2.4 终用户演示文稿中的关键点 488 12.3 向其他数据科学家展现你的工作 488 12.3.1 介绍问题 488 12.3.2 讨论相关工作 489 12.3.3 讨论你的方法 490 12.3.4 讨论结果和未来的工作 491 12.3.5 向其他数据科学家展现的要点 493 12.4 小结 493 附录A 使用R和其他工具 495 A.1 安装 495 A.1.1 安装工具 495 A.1.2 R的程序包系统 500 A.1.3 安装Git 501 A.1.4 安装RStudio 501 A.1.5 R资源 502 A.2 开始使用R语言 503 A.2.1 R语言的基本特性 505 A.2.2 R语言的主要数据类型 509 A.3 在R语言中使用数据库 515 A.3.1 使用查询生成器运行数据库查询 515 A.3.2 如何从关系角度思考数据 520 A.4 小结 522 附录B 重要的统计学概念 523 B.1 分布 524 B.1.1 正态分布 524 B.1.2 R语言中对分布的命名约定的汇总 529 B.1.3 对数正态分布 530 B.1.4 二项式分布 534 B.1.5 更多用于数据分布的R工具 541 B.2 统计理论 541 B.2.1 统计的哲学思想 541 B.2.2 A/B检验 544 B.2.3 检验的功效 548 B.2.4 专业的统计检验 550 B.3 从统计学视角观察数据的示例 552 B.3.1 采样偏差 553 B.3.2 遗漏变量偏差 556 B.4 小结 562 附录C 参考文献 563

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

R数据科学实战(第2版)

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户