您好,欢迎光临有路网!
R数据科学实战(第2版)
QQ咨询:
有路璐璐:

R数据科学实战(第2版)

  • 作者:(美)尼娜·祖梅尔(Nina Zumel),约翰·蒙特(John Mount)著 张骏温 许向东 张
  • 出版社:清华大学出版社
  • ISBN:9787302595441
  • 出版日期:2022年01月01日
  • 页数:0
  • 定价:¥139.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    内容提要
    有依据的决策对于成功至关重要。将正确的数据分析技术应用到精心筹备的业务数据中有助于做出准确预测、确定趋势,以及提前发现问题。R数据分析平台提供了许多**率的工具,可用来处理8常的数据分析和机器学习任务。 《R数据科学实战》(第2版)是一本基于任务的教程,引导读者使用R语言参与几十个实用的数据分析实践。本书**介绍读者在工作中将面临的重要任务,对于商业分析师和数据科学家来说都非常实用。因为数据只有在可理解的情况下才有用,所以读者也可以在表格中找到组织和展示数据的妙招,以及快速生动的可视化效果。 主要内容 ●商务级统计分析 ●有效的数据展示 实用的R工具 ●解释复 杂的预测模型
    目录
    第Ⅰ部分 数据科学引论 第1 章 数据科学处理过程 2 1.1 数据科学项目中的角色 3 1.2 数据科学项目的阶段 5 1.2.1 制定目标 6 1.2.2 收集和管理数据 7 1.2.3 建立模型 9 1.2.4 评价和评判模型 10 1.2.5 展现结果和编制文档 12 1.2.6 部署模型 14 1.3 设定预期 14 1.4 小结 15 第2 章 从R和数据入门 16 2.1 R入门 17 2.1.1 安装R、工具和示例 18 2.1.2 R编程 18 2.2 处理文件中的数据 28 2.2.1 使用来自文件或URL的结构良好的数据 28 2.2.2 使用R处理非结构化的数据 33 2.3 使用关系数据库 37 2.4 小结 50 第3 章 探索数据 52 3.1 使用概要统计方法发现问题 54 3.2 使用图形和可视化方法发现问题 59 3.2.1 采用可视化的方法检查单变量的分布 61 3.2.2 采用可视化的方法检查两个变量之间的关系 71 3.3 小结 87 第4 章 管理数据 89 4.1 清洗数据 90 4.1.1 特定领域的数据清洗 90 4.1.2 处理缺失值 92 4.1.3 自动处理缺失值变量的vtreat程序包 96 4.2 数据转换 99 4.2.1 归一化处理 101 4.2.2 **化和定标 102 4.2.3 针对偏态分布和广泛分布的对数转换 107 4.3 用于建模和验证的抽样处理 109 4.3.1 用于测试和训练的分组数据集 110 4.3.2 创建一个样本分组列 111 4.3.3 记录分组 112 4.3.4 数据来源 113 4.4 小结 114 第5 章 数据工程与数据整理 115 5.1 数据选取 118 5.1.1 设置行子集和列子集 118 5.1.2 删除不完整的数据的记录 124 5.1.3 对行进行排序 128 5.2 基础数据转换 133 5.2.1 添加新列 133 5.2.2 其他简单操作 139 5.3 汇总转换 140 5.4 多表之间数据的转换 144 5.4.1 快速地对两个或多个排序的数据框执行合并 144 5.4.2 合并多个表中数据的主要方法 152 5.5 重新整理和转换数据 159 5.5.1 将数据从宽表转换为窄表 159 5.5.2 将数据从窄表转换为宽表 164 5.5.3 数据坐标 169 5.6 小结 169 第Ⅱ部分 建模方法 第6 章 选择和评价模型 172 6.1 将业务问题映射为机器学习任务 173 6.1.1 分类问题 173 6.1.2 打分问题 175 6.1.3 分组:目标未知情况下的处理 176 6.1.4 从问题到方法的映射 178 6.2 模型评估 179 6.2.1 过拟合 179 6.2.2 模型性能的度量 183 6.2.3 分类模型的评价 184 6.2.4 评估打分模型 195 6.2.5 概率模型的评估 198 6.3 使用局部可解释的、与模型无关的解释技术(LIME)来解释模型预测 206 6.3.1 LIME:自动的完整性检查 208 6.3.2 LIME实现过程:一个小样本 208 6.3.3 LIME用于文本分类 216 6.3.4 对文本分类器进行训练 219 6.3.5 对分类器的预测进行解释 221 6.4 小结 227 第7 章 线性和逻辑回归 228 7.1 使用线性回归 229 7.1.1 了解线性回归 229 7.1.2 建立一个线性回归模型 235 7.1.3 预测 235 7.1.4 发现关系并抽取建议 241 7.1.5 阅读模型摘要并刻画系数质量 243 7.1.6 线性回归要点 250 7.2 使用逻辑回归 251 7.2.1 理解逻辑回归 251 7.2.2 构建逻辑回归模型 256 7.2.3 预测 257 7.2.4 从逻辑回归模型中发现关系并提取建议 262 7.2.5 解读模型摘要并刻画系数 264 7.2.6 逻辑回归的要点 272 7.3 正则化 272 7.3.1 一个准分离的例子 273 7.3.2 正则化回归方法的类型 278 7.3.3 使用glmnet程序包实现 正则化回归 280 7.4 小结 291 第8 章 **数据准备 292 8.1 vtreat程序包的作用 293 8.2 KDD和KDD Cup 2009 295 8.2.1 使用KDD Cup 2009 数据 296 8.2.2 “莽撞”做法 298 8.3 为分类操作准备基本数据 301 8.3.1 变量的分数框 303 8.3.2 正确使用处理计划 308 8.4 适用于分类的**数据准备 309 8.4.1 使用mkCrossFrame- CExperiment() 309 8.4.2 建立模型 312 8.5 为回归建模准备数据 317 8.6 掌握vtreat程序包 320 8.6.1 vtreat的各个阶段 320 8.6.2 缺失值 322 8.6.3 指示变量 323 8.6.4 影响编码 324 8.6.5 处理计划 326 8.6.6 交叉框 327 8.7 小结 332 第9 章 无监督方法 333 9.1 聚类分析 334 9.1.1 距离 335 9.1.2 数据准备 338 9.1.3 使用hclust()进行层次聚类 341 9.1.4 k-均值算法 356 9.1.5 给聚类分派新的点 363 9.1.6 聚类的要点 365 9.2 关联规则 366 9.2.1 关联规则概述 366 9.2.2 示例问题 368 9.2.3 使用arules程序包挖掘关联规则 369 9.2.4 关联规则要点 379 9.3 小结 379 第10 章 **方法探索 381 10.1 基于决策树的方法 383 10.1.1 基本决策树 384 10.1.2 使用bagging方法改进预测 387 10.1.3 使用随机森林方法进一步改进预测 390 10.1.4 梯度增强树 397 10.1.5 基于决策树的模型的要点 407 10.2 使用广义相加模型学习非单调关系 407 10.2.1 理解GAM 408 10.2.2 一维回归示例 409 10.2.3 提取非线性关系 414 10.2.4 在真实数据集上使用GAM 416 10.2.5 使用GAM实现逻辑回归 420 10.2.6 GAM要点 422 10.3 使用支持向量机解决“不可分”的问题 422 10.3.1 使用SVM解决问题 424 10.3.2 理解SVM 429 10.3.3 理解核函数 431 10.3.4 支持向量机和核方法要点 434 10.4 小结 434 第Ⅲ部分 结果交付 第11 章 文档编制和部署 438 11.1 预测热点 440 11.2 使用R markdown生成里程碑文档 441 11.2.1 R markdown是什么 441 11.2.2 knitr技术详解 444 11.2.3 使用knitr编写Buzz数据文档和生成模型 446 11.3 在运行时文档编制中使用注释和版本控制 449 11.3.1 编写有效的注释 449 11.3.2 使用版本控制记录历史 451 11.3.3 使用版本控制探索项目 457 11.3.4 使用版本控制分享工作 460 11.4 模型部署 464 11.4.1 使用Shiny部署演示 466 11.4.2 将模型部署为HTTP服务 467 11.4.3 以导出模式部署模型 470 11.4.4 本节要点 472 11.5 小结 472 第12 章 有效的结果展现 474 12.1 将结果展现给项目出资方 476 12.1.1 概述项目目标 477 12.1.2 陈述项目结果 479 12.1.3 补充细节 480 12.1.4 提出建议并讨论未来工作 482 12.1.5 针对项目出资方的演示文稿中的关键点 482 12.2 向终用户展现模型 483 12.2.1 概述项目目标 483 12.2.2 展现如何将模型应用于用户的工作流程 484 12.2.3 展现如何使用模型 486 12.2.4 终用户演示文稿中的关键点 488 12.3 向其他数据科学家展现你的工作 488 12.3.1 介绍问题 488 12.3.2 讨论相关工作 489 12.3.3 讨论你的方法 490 12.3.4 讨论结果和未来的工作 491 12.3.5 向其他数据科学家展现的要点 493 12.4 小结 493 附录A 使用R和其他工具 495 A.1 安装 495 A.1.1 安装工具 495 A.1.2 R的程序包系统 500 A.1.3 安装Git 501 A.1.4 安装RStudio 501 A.1.5 R资源 502 A.2 开始使用R语言 503 A.2.1 R语言的基本特性 505 A.2.2 R语言的主要数据类型 509 A.3 在R语言中使用数据库 515 A.3.1 使用查询生成器运行数据库查询 515 A.3.2 如何从关系角度思考数据 520 A.4 小结 522 附录B 重要的统计学概念 523 B.1 分布 524 B.1.1 正态分布 524 B.1.2 R语言中对分布的命名约定的汇总 529 B.1.3 对数正态分布 530 B.1.4 二项式分布 534 B.1.5 更多用于数据分布的R工具 541 B.2 统计理论 541 B.2.1 统计的哲学思想 541 B.2.2 A/B检验 544 B.2.3 检验的功效 548 B.2.4 专业的统计检验 550 B.3 从统计学视角观察数据的示例 552 B.3.1 采样偏差 553 B.3.2 遗漏变量偏差 556 B.4 小结 562 附录C 参考文献 563

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外