《数据馆员的Spark简明手册》顾立平马景源

城市

店铺名称

店主联系方式

店铺售价

库存

店铺得分/总交易量

发布时间

操作

新书比价

网站名称

书名

售价

优惠

操作

图书详情

出版社

科学技术文献出版社
ISBN

9787518930159
作者

顾立平马景源
页数

83
出版时间

2017年10月01日
定价

¥28.00
所属分类

内容提要

《数据馆员的Spark简明手册》旨在协助初级数据馆员们能够迅速了解Spark方面的知识、用途及整体概貌，作为进一步实践操作之前的入门基础读物。
《数据馆员的Spark简明手册》力求简单、通俗、易懂，以读者能够快速把握**为主，从而开展项目、课题、实验和研究。本手册旨在知识模块化，有了整体概述，可以方便读者与其他解决方案进行比较，在实践中遇到问题可以尽快发现需要深入钻研的部分。
《数据馆员的Spark简明手册》包括8章。第1章概述Spark的发展背景、计算框架及机器学习等。第2章描述Spark的安装与运行。第3章概述Scala编程实现的方式。第4章概述Spark编程模型和解析。第5章进入到Spark数据挖掘的应用。第6章考虑大数据实时计算的问题，进行方案比较，突出Spark的特点。第7章阐明进一步优化Spark的方式。第8章概述Spark SQL来阐明如何在Spark上使用人们比较熟悉的SQL数据库语言的方式。

文章节选

《数据馆员的Spark简明手册》：
Spark给出了不同的属性来指定不同的缓存方式：是否使用磁盘、是否使用内存、是否进行反序列化（即不进行序列化）、备份数目，依照不同的属性对缓存方式进行了定义。另外，有以下两点需要注意。
①Spark默认存储策略为MEMORY_ONLY：只缓存到内存并且以原生方式保存（反序列化）一个副本。
②MEMORY AND_DISK存储级别在内存够用时直接保存到内存中，只有当内存不足时，才会存储到磁盘中。
4.8 宽依赖和窄依赖
RDD之间的依赖关系分为宽依赖和窄依赖两类（图4-2）。对于窄��赖，子RDD的每个分区依赖于常数个父分区，它与数据规模无关。输入输出是一对一的算子，但是其中一种方式的结果RDD的分区结构不变，主要是Map、flatMap。但是如union、coalesce结果RDD的分区结构会发生变化。对于宽依赖，子RDD的每个分区都依赖于所有的父RDD分区。
对于两种依赖关系，窄依赖允许在一个集群节点上以流水线的方式计算所有父分区；而宽依赖则需要首先计算好所有父分区数据，然后在节点之间进行Shuffle。
……

第1章 Spark生态介绍
1．1 MapReduce、Storm和Spark模型比较
1．2 Spark产生背景
1．3 Spark的内存计算框架
1．4 Spark Strearning：流式计算框架
1．5 Spark SQL
1．6 Spark MLlib：机器学习
1．7 Spark GraphX和取代Bagel的理由
1．8 BlinkDB
1．9 SparkR

第2章 Spark的安装与运行
2．1 Spark的安装
2．1．1 Spark的源码编译方式
2．1．2 Spark Standalone安装
2．1．3 Spark应用程序部署工具spark-submit
2．1．4 Spark的高可用性部署
2．2 Spark的运行架构
2．2．1 基本术语
2．2．2 运行架构
2．2．3 Spark on Standalone的运行过程
2．2．4 Spark on YARN的运行过程
2．3 Spark的运行
2．3．1 Spark on Standalone
2．3．2 Spark on YARN
2．3．3 Standalone与YARN模式优缺点比较

第3章 Spark的scala编程
3．1 Scala开发环境搭建
3．2 Scala开发Spark应用程序
3．3 编程实现
3．3．1 使用Java编程
3．3．2 使用Python编程

第4章 spark的编程模型和解析
4．1 SpaEk的编程模型
4．2 RDD的特点、操作、依赖关系
4．3 Spark应用程序的配置
4．4 Spark的架构
4．5 Spark的容错机制
4．6 数据的本地性
4．7 缓存策略介绍
4．8 宽依赖和窄依赖

第5章 Spark数据挖掘
5．1 MLlib
5．2 GraphX
5．2．1 GraphX原理
5．2．2 Table Operator和Graph Operator的区别
5．2．3 Vertices、Edges和Triplets介绍
5．2．4 GraphX图构造者
5．3 SparkR
5．3．1 SparkR原理
5．3．2 如何运行SparkR

第6章 Spark Strearning
6．1 Spark Strearning与Storm的区别
6．2 Kafka的部署
6．3 Kafka与Spark Strearning的整合
6．4 Spark Strearning原理
6．4．1 Spark流式处理架构
6．4．2 DStream的特点
6．4．3 Dstream的操作和RDD的区别
6．4．4 无状态转换操作与有状态转换操作
6．4．5 优化Spark Strearning
6．5 Strearning的容错机制
6．6 Strearning在YARN模式下的注意事项

第7章 Spark优化
7．1 序列化优化——Knro
7．2 Spark参数优化
7．3 Spark任务的均匀分布策略
7．4 Partition key倾斜的解决方案
7．5 Spark任务的监控
7．6 GC的优化
7．7 Spark Streaming吞吐量优化
7．8 Spark RDD使用内存的优化策略

第8章 SQL on Spark
8．1 BDAS数据分析软件栈
8．2 Spark SQL工具
8．3 Spark SQL原理
8．4 Spark SQL编程