《MATLAB数据探索性分析（原书第2版）》温迪·L.马丁内兹

目录
译者序Ⅰ

第2版前言Ⅲ

第1版前言Ⅴ

**部分探索性数据分析综述

第1章绪论

1.1何为探索性数据分析
 目录 译者序Ⅰ 第2版前言Ⅲ 第1版前言Ⅴ **部分探索性数据分析综述 第1章绪论 1.1何为探索性数据分析 1.2全文概述 1.3关于符号表示法 1.4本书使用的数据集 1.4.1非结构化文本文档 1.4.2基因表达数据 1.4.3Oronsay数据集 1.4.4软件检测 1.5数据变换 1.5.1幂变换 1.5.2标准化 1.5.3数据球面化 1.6深入阅读 练习 第二部分模式发现的EDA方法 第2章降维——线性方法 2.1简介 2.2主成分分析——PCA 2.2.1基于样本协方差矩阵的PCA 2.2.2基于样本相关矩阵的PCA 2.2.3应该保留多少个维度 2.3奇异值分解——SVD 2.4非负矩阵分解 2.5因子分析 2.6Fisher线性判别 2.7本征维数 2.7.1*近邻法 2.7.2关联维数 2.7.3*大似然法 2.7.4包数估计 2.8总结与深入阅读 练习 第3章降维——非线性方法 3.1多维尺度分析——MDS 3.1.1度量MDS 3.1.2非度量MDS 3.2流形学习 3.2.1局部线性嵌入 3.2.2等距特征映射——ISOMAP 3.2.3海赛特征映射 3.3人工神经网络方法 3.3.1自组织映射 3.3.2生成式拓扑映射 3.3.3曲元分析 3.4总结与深入阅读 练习 第4章数据巡查 4.1总体巡查法 4.1.1Torus Winding法 4.1.2伪总体巡查法 4.2插值巡查法 4.3投影追踪法 4.4投影追踪索引 4.4.1Posse卡方索引 4.4.2矩索引 4.5独立成分分析 4.6总结与深入阅读 练习 第5章发现类 5.1简介 5.2层次聚类法 5.3优化方法——k均值聚类 5.4谱聚类 5.5文本聚类 5.5.1非负矩阵分解——回顾 5.5.2概率潜在语义分析 5.6聚类评估 5.6.1Rand索引 5.6.2同型相关 5.6.3上尾法 5.6.4轮廓图 5.6.5间隙统计 5.7总结与深入阅读 练习 第6章基于模型的聚类 6.1基于模型的聚类方法概述 6.2有限混合模型 6.2.1多元有限混合模型 6.2.2分量模型——协方差矩阵约束 6.3*大期望算法 6.4基于模型的层次聚合聚类 6.5基于模型的聚类 6.6基于模型聚类的密度估计和判决分析 6.6.1模式识别介绍 6.6.2贝叶斯决策理论 6.6.3基于模型聚类的概率密度估计 6.7由混合模型生成随机数据 6.8总结与深入阅读 练习 第7章平滑散点图 7.1简介 7.2loess 7.3鲁棒loess拟合 7.4loess残差分析与诊断 7.4.1残差图 7.4.2散布平滑 7.4.3loess包络——向上和向下平滑 7.5平滑样条及应用 7.5.1样条回归 7.5.2平滑样条 7.5.3均匀间隔数据的平滑样条 7.6选择平滑参数 7.7二元分布平滑 7.7.1中间平滑对 7.7.2极平滑 7.8曲线拟合工具箱 7.9总结与深入阅读 练习 第三部分EDA的图形方法 第8章聚类可视化 8.1树状图 8.2树图 8.3矩形图 8.4ReClus图 8.5数据图像 8.6总结与深入阅读 练习 第9章分布图形 9.1直方图 9.1.1一元直方图 9.1.2二元直方图 9.2箱线图 9.2.1基本箱线图 9.2.2基本箱线图的变形 9.3分位数图 9.3.1概率图 9.3.2qq图 9.3.3分位数图 9.4袋状图 9.5测距仪箱线图 9.6总结与深入阅读 练习 第10章多元可视化 10.1象形图 10.2散点图 10.2.12D和3D散点图 10.2.2散点图矩阵 10.2.3六边形分组散点图 10.3动态图 10.3.1识别数据 10.3.2关联 10.3.3笔刷 10.4协同图 10.5点阵图 10.5.1基本点阵图 10.5.2多路点阵图 10.6绘点为线 10.6.1平行坐标图 10.6.2安德鲁曲线 10.6.3安德鲁图像 10.6.4其他绘图矩阵 10.7再看数据巡查 10.7.1总体巡查 10.7.2组合巡查 10.8双标图 10.9总结与深入阅读 练习 附录A近似度量 A.1定义 A.1.1相异性 A.1.2相似性度量 A.1.3二值数据的相似性度量 A.1.4概率密度函数的相异性 A.2变换 A.3进阶阅读 附录BEDA相关软件资源 B.1MATLAB程序 B.2其他EDA程序 B.3EDA工具箱 附录C数据集的描述 附录DMATLAB工具使用要点 D.1MATLAB简介 D.2在MATLAB中获得帮助 D.3文件和工作空间管理 D.4MATLAB的标点符号 D.5算术运算符 D.6MATLAB的数据结构 D.6.1基本数据结构 D.6.2构建数组 D.6.3元胞数组 D.6.4结构体 D.7脚本文件与函数 D.8控制流 D.8.1for循环 D.8.2while循环 D.8.3条件分支语句 D.8.4开关语句 D.9基本绘图 D.10如何获取MATLAB信息 附录EMATLAB函数 E.1MATLAB E.2统计工具箱 E.3EDA工具箱 E.4EDA图形界面工具箱 参考文献 显示全部信息前言

第2版前言
在过去几年里，EDA领域的进步颇多，这本书也到了需要更新的时候了，尤其是在降维、聚类和可视化等方面，出现了很多新方法。
以下，我们列出了第2版中一些主要改进和增加的内容。
 在线性降维这章增加了很多内容。新方法是非负矩阵分解和线性判别分析，也扩充了数据集本征维数的估计方法。
 在第3章中，也描述了曲元分析这种非线性降维方法。曲元分析是作为自组织映射的一种改进方法提出的。
 在数据巡查中加入了独立成分分析的内容。 第2版前言 在过去几年里，EDA领域的进步颇多，这本书也到了需要更新的时候了，尤其是在降维、聚类和可视化等方面，出现了很多新方法。 以下，我们列出了第2版中一些主要改进和增加的内容。  在线性降维这章增加了很多内容。新方法是非负矩阵分解和线性判别分析，也扩充了数据集本征维数的估计方法。  在第3章中，也描述了曲元分析这种非线性降维方法。曲元分析是作为自组织映射的一种改进方法提出的。  在数据巡查中加入了独立成分分析的内容。  几种新的聚类方法，包括非负矩阵分解、概率潜语义分析和谱聚类。  增加了关于平滑样条以及用于均匀间隔数据的快速样条方法。  在文中增加了几个可视化方法，包括用于二元数据的测距仪箱线图、带有边际直方图的散点图、双标图和一种叫作安德鲁图像的新方法。  文中很多方法可以通过图形用户界面（GUI）访问。这个免费的EDA GUI工具箱的详细信息列在附录E中。 与第1版类似，本书内容并未聚焦于方法的理论。确切地说，本书主要集中在EDA方法的运用。因此，本书并未纠缠于方法的实现和算法细节上。相反地，通过提供实例和应用，为学生和实践者提供了用于EDA的操作方法。 MATLAB的示例代码、工具箱、数据集和大部分图像的彩色版本均可下载。下载站点来自Carnegie Mellon StatLib，如下： http://lib.stat.cmu.edu 或者是本书网站，如下： http://pisigma.info 关于安装和变更信息，请参见readme文件。 关于MATLAB产品的信息，请联系： The MathWorks, Inc. 3 Apple Hill Drive Natick, MA, 017602098 USA Tel: 5086477000 Fax: 5086477001 Email: info@mathworks.com Web: www.mathworks.com 很多研究者写出了本书中所述方法的MATLAB代码并免费提供，对于他们的宝贵帮助，表示感谢。尤其是，作者感谢Michael Berry在非负矩阵分解方面的有益讨论，感谢Ata Kaban允许使用她的PLSI代码，也对Mia Hubert与Sabine Verboven授权使用他们的bagplot函数和非常耐心地与我们通信表示感谢。 感谢这套计算机科学和数据分析丛书的编辑们收录本书，感谢CRC出版社的David Grubbs、Bob Stern和Michele Dimont的帮助和耐心。一如既往地，感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。 免责声明 (1) 随EDA工具箱提供的一些MATLAB函数由其他研究者编写，他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。特别指出，EDA工具箱在GNU协议许可下提供： http://www.gnu.org/copyleft/gpl.html (2) 本书中表达的观点来自作者，并不代表美国国防部或者其分支机构的观点。 Wendy L.Martinez,Angel R. Martinez，Jeffrey L.Solka 第1版前言 我们的**本书——《基于MATLAB的计算统计学手册》（Computational Statistics Handbook with MATLAB）［2002］，其目的之一就是展示计算统计学的一些基本概念和方法，以及如何用MATLAB实现MATLAB和Handle Graphics是MathWorks公司的注册商标。。计算统计学的一个核心部分就是探索性数据分析（exploratory data analysis），或称EDA。因此，这本书可以看作是**本书的补充，并有类似的目标——使得EDA技术为广大读者所用。 EDA属于统计学和数据分析，其思路是先探索数据，常采用描述性统计学、科学可视化、数据巡查、降维等方法。这种探索没有任何预设观点或者假设。相反，这种方法使用探索的结果来引导和展开后续的假设检验和建模等。它与数据挖掘领域紧密关联，本书讨论的很多EDA工具是知识发现和数据挖掘工具箱的一部分。 本书旨在服务于进行原始数据分析的广大读者，包括科学家、统计学家、数据挖掘者、工程师、计算机科学家、生物统计学家、社会科学家以及其他学科工作者，也希望本书可以用于大学高年级学生或者研究生课堂教学中。每章包含的练习题目使其适合作为EDA课程、数据挖掘、计算统计学、机器学习等方面的课本或者补充材料。我们鼓励读者仔细看一下练习，因为有时练习中会介绍一些新的概念。练习本质上是计算性的或者探索性的，所以往往没有**的答案。 至于本书所需的背景，假设读者有线性代数基础。比如，应该熟悉线性代数的名词、数组乘法、矩阵逆、行列式和数组转置等，也假设读者学习过概率与统计学课程。读者应该在这门课程里了解随机变量、概率分布和密度函数、基本的描述性度量和回归等。 与**本书类似，本书并未纠结于方法的理论。确切地说，本书的**在于EDA方法的运用。方法的实现是第二位的，但只要适宜，本书为学生们和实践者展示了方法实现的算法、过程和MATLAB代码。很多方法是复杂的，MATLAB的实现细节并不重要。在这些例子中，展示了如何使用函数和技巧。感兴趣的读者（或者程序员）可以查看M文件，获得更多信息。这样，喜欢使用其他编程语言的读者应该可以自行实现算法。 虽然本书不探究理论，但希望重申书中描述的方法都有其理论基础。因此，在各章*后，提供参考文献等资源，供那些想进一步了解理论信息的读者查阅。 MATLAB代码以EDA工具箱的形式随书提供。这包括函数、图形用户界面和书中使用的数据集。上述内容可以在以下网站下载： http://lib.stat.cmu.edu 关于安装和变更信息，请参见readme文件。练习中包含MATLAB命令的M文件也可以下载。 本书也作了免责声明，说明本书中的MATLAB代码并不是*有效的方案。在很多情况下，为了（代码）清晰易懂而牺牲了效率。请参看示例的M文件，感谢MathWorks公司的Tom Lane。 附录B对EDA工具箱做了非常详细的描述，也提供了可供下载的（免费的）其他站点信息。这里的一些工具箱和函数在本书中使用，另外的那些提供了参考信息。只要可能和适合，本书都会使用EDA工具箱的免费函数，使作者很容易学习示例和练习。 假设读者有MathWorks公司的统计工具箱（版本4或者更高版本）。在恰当的时候，本书会指出函数是来自MATLAB主程序包、统计工具箱或者EDA工具箱。EDA工具箱的开发主要是基于MATLAB 6.5版（版本4的统计工具箱），所以如果你有这些条件，代码就可以正常运行。然而，在本书写作时，有新版的MATLAB及其统计工具箱发布，所以也整合了这个版本提供的新功能。 感谢以下校稿人的宝贵帮助： Chris Fraley、David Johannsen、Catherine Loader、Tom Lane、David Marchette和Jeffrey Solka。他们的很多意见和建议让本书变得更好，本书的任何不足之处由作者承担责任。特别感谢Jeffrey Solka在有限混合方法编程方面的协助，感谢Richard Johnson允许使用他的数据可视化工具箱并更新函数。也感谢所有本书所涉及方法的研究者，他们编写了MATLAB代码并免费提供使用。感谢计算机科学和数据分析丛书的编辑们收录本书。非常感谢CRC出版社的Bob Stern、Rob Calver、Jessica Vakili和Andrea Demby的帮助和耐心。*后，感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。 免责声明 (1) 随EDA工具箱提供的一些MATLAB函数由其他研究者编写，他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。除非特别指出，EDA工具箱在GNU协议许可下提供： http://www.gnu.org/copyleft/gpl.html (2) 本书中表达的观点来自作者，并不代表美国国防部或者其分支机构的观点。 Wendy L. Martinez，Angel R.Martinez 显示全部信息免费在线读第5章

发现类

本章主要讲述如何从数据中发现组或者类。组或类的概念在EDA和数据挖掘领域非常重要。本章介绍两种基本方法：聚合聚类法和k均值聚类法。下一章会介绍另外一种方法——模糊聚类法，它是基于对有限混合概率密度函数进行估计的。本章还会介绍非负矩阵分解(第2章介绍过)和统计隐含语义分析是如何被用于文档集合的分类的。此外，还介绍一种全新的基于图的拉普拉斯矩阵的谱聚类方法。本章*后，对聚类效果评价的问题进行了探讨，并描述了几种有助于聚类分析的统计图。
5.1简介
聚类是对数据进行分组的过程。分组原则是使得组内数据彼此之间相似性程度较高，而组间数据的相似性程度较低。这里假定数据代表特征，人们可以利用特征来区别不同组的数据。**步是选定一种方法来表征需要聚类的物体。在各个领域中有很多种数据聚类和表征的方法，例如统计类方法、机器学习方法、数据挖掘方法以及计算机科学领域的方法。值得注意的是，不存在适合于发现多维数据中不同组［Jain,Murty和 Flynn,1999］的通用聚类方法。因此，EDA的基本原则是，用户应该尝试各种聚类方法，以便发现哪种模式出现。
聚类也常称为无监督学习。为了更好地理解聚类，可以将它与判别分析法或者有监督学习方法进行比较。在有监督学习中，获取到的观测数据本身自带类别标签。因此，可以知道数据总共分为几类，以及与每个数据点同组的成员。继而可以使用数据和类标签来构造分��器。当遇到一个新的未标记观测数据时，就可以使用构造好的分类器对其进行标记了［Hastie,Tibshirani和 Friedman,2009; Duda,Hart和 Stork,2001;Webb,2002］。

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

MATLAB数据探索性分析（原书第2版）

猜你也喜欢

新书比价

图书详情

文章节选

目录

编辑推荐语

与描述相符

消费者保障

新手上路

付款方式

个人账户