本书将围绕大数据技术的基本原理与实践,介绍了大数据获取、存储、分析、数据挖掘和机器学习。内容涵盖以下主题:Hadoop、Mapreduce、关联规则、大规模监督机器学习、数据流、集群、NoSQL系统(Pig、Hive),以及包括**系统、Web和**性的应用程序。 第1章**阐述了大数据驱动的商业模式、技术生态体系,大数据的类型、特点、获取技术。第2章概要介绍了大数据的软硬件架构,包括大数据技术基础与软硬件设施、大数据存储与管理技术、大数据的分布式处理技术平台等,包括MapReduce编程框架原理、Spark结构与原理、基于Storm的大规模数据流的分布式处理技术等。第3章介绍了Python编程基础,包括基本数据类型、基本控制流程、Numpy、Scipy、Pandas等。第4章介绍了大数据分析技术,包括基于MapReduce基础编程、文本大数据分析与处理技术、大数据关联分析、相似项的发现、基于大数据的**系统、基于大数据的图与网络分析、大数据聚类分析、时空大数据分析、非结构化大数据分析与处理、基于Storm的流数据分析技术等。第5章介绍了基于SparkMLlib/Mahout的大数据机