目录
译者序Ⅰ
第2版前言Ⅲ
第1版前言Ⅴ
**部分探索性数据分析综述
第1章绪论
1.1何为探索性数据分析
<br />目录<br />译者序Ⅰ<br /><br />第2版前言Ⅲ<br /><br />第1版前言Ⅴ<br /><br />**部分探索性数据分析综述<br /><br />第1章绪论<br /><br />1.1何为探索性数据分析<br /><br />1.2全文概述<br /><br />1.3关于符号表示法<br /><br />1.4本书使用的数据集<br /><br />1.4.1非结构化文本文档<br /><br />1.4.2基因表达数据<br /><br />1.4.3Oronsay数据集<br /><br />1.4.4软件检测<br /><br />1.5数据变换<br /><br />1.5.1幂变换<br /><br />1.5.2标准化<br /><br />1.5.3数据球面化<br /><br />1.6深入阅读<br /><br />练习<br /><br />第二部分模式发现的EDA方法<br /><br />第2章降维——线性方法<br /><br />2.1简介<br /><br />2.2主成分分析——PCA<br /><br />2.2.1基于样本协方差矩阵的PCA<br /><br />2.2.2基于样本相关矩阵的PCA<br /><br />2.2.3应该保留多少个维度<br /><br />2.3奇异值分解——SVD<br /><br />2.4非负矩阵分解<br /><br />2.5因子分析<br /><br />2.6Fisher线性判别<br /><br />2.7本征维数<br /><br />2.7.1*近邻法<br /><br />2.7.2关联维数<br /><br />2.7.3*大似然法<br /><br />2.7.4包数估计<br /><br />2.8总结与深入阅读<br /><br />练习<br /><br />第3章降维——非线性方法<br /><br />3.1多维尺度分析——MDS<br /><br />3.1.1度量MDS<br /><br />3.1.2非度量MDS<br /><br />3.2流形学习<br /><br />3.2.1局部线性嵌入<br /><br />3.2.2等距特征映射——ISOMAP<br /><br />3.2.3海赛特征映射<br /><br />3.3人工神经网络方法<br /><br />3.3.1自组织映射<br /><br />3.3.2生成式拓扑映射<br /><br />3.3.3曲元分析<br /><br />3.4总结与深入阅读<br /><br />练习<br /><br />第4章数据巡查<br /><br />4.1总体巡查法<br /><br />4.1.1Torus Winding法<br /><br />4.1.2伪总体巡查法<br /><br />4.2插值巡查法<br /><br />4.3投影追踪法<br /><br />4.4投影追踪索引<br /><br />4.4.1Posse卡方索引<br /><br />4.4.2矩索引<br /><br />4.5独立成分分析<br /><br />4.6总结与深入阅读<br /><br />练习<br /><br />第5章发现类<br /><br />5.1简介<br /><br />5.2层次聚类法<br /><br />5.3优化方法——k均值聚类<br /><br />5.4谱聚类<br /><br />5.5文本聚类<br /><br />5.5.1非负矩阵分解——回顾<br /><br />5.5.2概率潜在语义分析<br /><br />5.6聚类评估<br /><br />5.6.1Rand索引<br /><br />5.6.2同型相关<br /><br />5.6.3上尾法<br /><br />5.6.4轮廓图<br /><br />5.6.5间隙统计<br /><br />5.7总结与深入阅读<br /><br />练习<br /><br />第6章基于模型的聚类<br /><br />6.1基于模型的聚类方法概述<br /><br />6.2有限混合模型<br /><br />6.2.1多元有限混合模型<br /><br />6.2.2分量模型——协方差矩阵约束<br /><br />6.3*大期望算法<br /><br />6.4基于模型的层次聚合聚类<br /><br />6.5基于模型的聚类<br /><br />6.6基于模型聚类的密度估计和判决分析<br /><br />6.6.1模式识别介绍<br /><br />6.6.2贝叶斯决策理论<br /><br />6.6.3基于模型聚类的概率密度估计<br /><br />6.7由混合模型生成随机数据<br /><br />6.8总结与深入阅读<br /><br />练习<br /><br />第7章平滑散点图<br /><br />7.1简介<br /><br />7.2loess<br /><br />7.3鲁棒loess拟合<br /><br />7.4loess残差分析与诊断<br /><br />7.4.1残差图<br /><br />7.4.2散布平滑<br /><br />7.4.3loess包络——向上和向下平滑<br /><br />7.5平滑样条及应用<br /><br />7.5.1样条回归<br /><br />7.5.2平滑样条<br /><br />7.5.3均匀间隔数据的平滑样条<br /><br />7.6选择平滑参数<br /><br />7.7二元分布平滑<br /><br />7.7.1中间平滑对<br /><br />7.7.2极平滑<br /><br />7.8曲线拟合工具箱<br /><br />7.9总结与深入阅读<br /><br />练习<br /><br />第三部分EDA的图形方法<br /><br />第8章聚类可视化<br /><br />8.1树状图<br /><br />8.2树图<br /><br />8.3矩形图<br /><br />8.4ReClus图<br /><br />8.5数据图像<br /><br />8.6总结与深入阅读<br /><br />练习<br /><br />第9章分布图形<br /><br />9.1直方图<br /><br />9.1.1一元直方图<br /><br />9.1.2二元直方图<br /><br />9.2箱线图<br /><br />9.2.1基本箱线图<br /><br />9.2.2基本箱线图的变形<br /><br />9.3分位数图<br /><br />9.3.1概率图<br /><br />9.3.2qq图<br /><br />9.3.3分位数图<br /><br />9.4袋状图<br /><br />9.5测距仪箱线图<br /><br />9.6总结与深入阅读<br /><br />练习<br /><br />第10章多元可视化<br /><br />10.1象形图<br /><br />10.2散点图<br /><br />10.2.12D和3D散点图<br /><br />10.2.2散点图矩阵<br /><br />10.2.3六边形分组散点图<br /><br />10.3动态图<br /><br />10.3.1识别数据<br /><br />10.3.2关联<br /><br />10.3.3笔刷<br /><br />10.4协同图<br /><br />10.5点阵图<br /><br />10.5.1基本点阵图<br /><br />10.5.2多路点阵图<br /><br />10.6绘点为线<br /><br />10.6.1平行坐标图<br /><br />10.6.2安德鲁曲线<br /><br />10.6.3安德鲁图像<br /><br />10.6.4其他绘图矩阵<br /><br />10.7再看数据巡查<br /><br />10.7.1总体巡查<br /><br />10.7.2组合巡查<br /><br />10.8双标图<br /><br />10.9总结与深入阅读<br /><br />练习<br /><br />附录A近似度量<br /><br />A.1定义<br /><br />A.1.1相异性<br /><br />A.1.2相似性度量<br /><br />A.1.3二值数据的相似性度量<br /><br />A.1.4概率密度函数的相异性<br /><br />A.2变换<br /><br />A.3进阶阅读<br /><br />附录BEDA相关软件资源<br /><br />B.1MATLAB程序<br /><br />B.2其他EDA程序<br /><br />B.3EDA工具箱<br /><br />附录C数据集的描述<br /><br />附录DMATLAB工具使用要点<br /><br />D.1MATLAB简介<br /><br />D.2在MATLAB中获得帮助<br /><br />D.3文件和工作空间管理<br /><br />D.4MATLAB的标点符号<br /><br />D.5算术运算符<br /><br />D.6MATLAB的数据结构<br /><br />D.6.1基本数据结构<br /><br />D.6.2构建数组<br /><br />D.6.3元胞数组<br /><br />D.6.4结构体<br /><br />D.7脚本文件与函数<br /><br />D.8控制流<br /><br />D.8.1for循环<br /><br />D.8.2while循环<br /><br />D.8.3条件分支语句<br /><br />D.8.4开关语句<br /><br />D.9基本绘图<br /><br />D.10如何获取MATLAB信息<br /><br />附录EMATLAB函数<br /><br />E.1MATLAB<br /><br />E.2统计工具箱<br /><br />E.3EDA工具箱<br /><br />E.4EDA图形界面工具箱<br /><br />参考文献<br /><br /><br />显示全部信息前 言
第2版前言
在过去几年里,EDA领域的进步颇多,这本书也到了需要更新的时候了,尤其是在降维、聚类和可视化等方面,出现了很多新方法。
以下,我们列出了第2版中一些主要改进和增加的内容。
在线性降维这章增加了很多内容。新方法是非负矩阵分解和线性判别分析,也扩充了数据集本征维数的估计方法。
在第3章中,也描述了曲元分析这种非线性降维方法。曲元分析是作为自组织映射的一种改进方法提出的。
在数据巡查中加入了独立成分分析的内容。<br /><br /><br />第2版前言<br />在过去几年里,EDA领域的进步颇多,这本书也到了需要更新的时候了,尤其是在降维、聚类和可视化等方面,出现了很多新方法。<br />以下,我们列出了第2版中一些主要改进和增加的内容。<br /> 在线性降维这章增加了很多内容。新方法是非负矩阵分解和线性判别分析,也扩充了数据集本征维数的估计方法。<br /> 在第3章中,也描述了曲元分析这种非线性降维方法。曲元分析是作为自组织映射的一种改进方法提出的。<br /> 在数据巡查中加入了独立成分分析的内容。<br /> 几种新的聚类方法,包括非负矩阵分解、概率潜语义分析和谱聚类。<br /> 增加了关于平滑样条以及用于均匀间隔数据的快速样条方法。<br /> 在文中增加了几个可视化方法,包括用于二元数据的测距仪箱线图、带有边际直方图的散点图、双标图和一种叫作安德鲁图像的新方法。<br /> 文中很多方法可以通过图形用户界面(GUI)访问。这个免费的EDA GUI工具箱的详细信息列在附录E中。<br />与第1版类似,本书内容并未聚焦于方法的理论。确切地说,本书主要集中在EDA方法的运用。因此,本书并未纠缠于方法的实现和算法细节上。相反地,通过提供实例和应用,为学生和实践者提供了用于EDA的操作方法。<br />MATLAB的示例代码、工具箱、数据集和大部分图像的彩色版本均可下载。下载站点来自Carnegie Mellon StatLib,如下:<br />http://lib.stat.cmu.edu<br /><br />或者是本书网站,如下:<br />http://pisigma.info<br />关于安装和变更信息,请参见readme文件。<br />关于MATLAB产品的信息,请联系:<br />The MathWorks, Inc.<br />3 Apple Hill Drive<br />Natick, MA, 017602098 USA<br />Tel: 5086477000<br />Fax: 5086477001<br />Email: info@mathworks.com<br />Web: www.mathworks.com<br />很多研究者写出了本书中所述方法的MATLAB代码并免费提供,对于他们的宝贵帮助,表示感谢。尤其是,作者感谢Michael Berry在非负矩阵分解方面的有益讨论,感谢Ata Kaban允许使用她的PLSI代码,也对Mia Hubert与Sabine Verboven授权使用他们的bagplot函数和非常耐心地与我们通信表示感谢。<br />感谢这套计算机科学和数据分析丛书的编辑们收录本书,感谢CRC出版社的David Grubbs、Bob Stern和Michele Dimont的帮助和耐心。一如既往地,感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。<br />免责声明<br />(1) 随EDA工具箱提供的一些MATLAB函数由其他研究者编写,他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。特别指出,EDA工具箱在GNU协议许可下提供:<br />http://www.gnu.org/copyleft/gpl.html<br />(2) 本书中表达的观点来自作者,并不代表美国国防部或者其分支机构的观点。<br />Wendy L.Martinez,Angel R. Martinez,Jeffrey L.Solka<br /><br /><br /><br /><br /><br /><br /><br />第1版前言<br />我们的**本书——《基于MATLAB的计算统计学手册》(Computational Statistics Handbook with MATLAB)[2002],其目的之一就是展示计算统计学的一些基本概念和方法,以及如何用MATLAB实现MATLAB和Handle Graphics是MathWorks公司的注册商标。。计算统计学的一个核心部分就是探索性数据分析(exploratory data analysis),或称EDA。因此,这本书可以看作是**本书的补充,并有类似的目标——使得EDA技术为广大读者所用。<br />EDA属于统计学和数据分析,其思路是先探索数据,常采用描述性统计学、科学可视化、数据巡查、降维等方法。这种探索没有任何预设观点或者假设。相反,这种方法使用探索的结果来引导和展开后续的假设检验和建模等。它与数据挖掘领域紧密关联,本书讨论的很多EDA工具是知识发现和数据挖掘工具箱的一部分。<br />本书旨在服务于进行原始数据分析的广大读者,包括科学家、统计学家、数据挖掘者、工程师、计算机科学家、生物统计学家、社会科学家以及其他学科工作者,也希望本书可以用于大学高年级学生或者研究生课堂教学中。每章包含的练习题目使其适合作为EDA课程、数据挖掘、计算统计学、机器学习等方面的课本或者补充材料。我们鼓励读者仔细看一下练习,因为有时练习中会介绍一些新的概念。练习本质上是计算性的或者探索性的,所以往往没有**的答案。<br />至于本书所需的背景,假设读者有线性代数基础。比如,应该熟悉线性代数的名词、数组乘法、矩阵逆、行列式和数组转置等,也假设读者学习过概率与统计学课程。读者应该在这门课程里了解随机变量、概率分布和密度函数、基本的描述性度量和回归等。<br />与**本书类似,本书并未纠结于方法的理论。确切地说,本书的**在于EDA方法的运用。方法的实现是第二位的,但只要适宜,本书为学生们和实践者展示了方法实现的算法、过程和MATLAB代码。很多方法是复杂的,MATLAB的实现细节并不重要。在这些例子中,展示了如何使用函数和技巧。感兴趣的读者(或者程序员)可以查看M文件,获得更多信息。这样,喜欢使用其他编程语言的读者应该可以自行实现算法。<br />虽然本书不探究理论,但希望重申书中描述的方法都有其理论基础。因此,在各章*后,提供参考文献等资源,供那些想进一步了解理论信息的读者查阅。<br />MATLAB代码以EDA工具箱的形式随书提供。这包括函数、图形用户界面和书中使用的数据集。上述内容可以在以下网站下载:<br />http://lib.stat.cmu.edu<br />关于安装和变更信息,请参见readme文件。练习中包含MATLAB命令的M文件也可以下载。<br />本书也作了免责声明,说明本书中的MATLAB代码并不是*有效的方案。在很多情况下,为了(代码)清晰易懂而牺牲了效率。请参看示例的M文件,感谢MathWorks公司的Tom Lane。<br />附录B对EDA工具箱做了非常详细的描述,也提供了可供下载的(免费的)其他站点信息。这里的一些工具箱和函数在本书中使用,另外的那些提供了参考信息。只要可能和适合,本书都会使用EDA工具箱的免费函数,使作者很容易学习示例和练习。<br />假设读者有MathWorks公司的统计工具箱(版本4或者更高版本)。在恰当的时候,本书会指出函数是来自MATLAB主程序包、统计工具箱或者EDA工具箱。EDA工具箱的开发主要是基于MATLAB 6.5版(版本4的统计工具箱),所以如果你有这些条件,代码就可以正常运行。然而,在本书写作时,有新版的MATLAB及其统计工具箱发布,所以也整合了这个版本提供的新功能。<br />感谢以下校稿人的宝贵帮助: Chris Fraley、David Johannsen、Catherine Loader、Tom Lane、David Marchette和Jeffrey Solka。他们的很多意见和建议让本书变得更好,本书的任何不足之处由作者承担责任。特别感谢Jeffrey Solka在有限混合方法编程方面的协助,感谢Richard Johnson允许使用他的数据可视化工具箱并更新函数。也感谢所有本书所涉及方法的研究者,他们编写了MATLAB代码并免费提供使用。感谢计算机科学和数据分析丛书的编辑们收录本书。非常感谢CRC出版社的Bob Stern、Rob Calver、Jessica Vakili和Andrea Demby的帮助和耐心。*后,感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。<br />免责声明<br />(1) 随EDA工具箱提供的一些MATLAB函数由其他研究者编写,他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。除非特别指出,EDA工具箱在GNU协议许可下提供:<br />http://www.gnu.org/copyleft/gpl.html<br />(2) 本书中表达的观点来自作者,并不代表美国国防部或者其分支机构的观点。<br />Wendy L. Martinez,Angel R.Martinez<br /><br /><br /><br /><br />显示全部信息免费在线读第5章
发现类
本章主要讲述如何从数据中发现组或者类。组或类的概念在EDA和数据挖掘领域非常重要。本章介绍两种基本方法: 聚合聚类法和k均值聚类法。下一章会介绍另外一种方法——模糊聚类法,它是基于对有限混合概率密度函数进行估计的。本章还会介绍非负矩阵分解(第2章介绍过)和统计隐含语义分析是如何被用于文档集合的分类的。此外,还介绍一种全新的基于图的拉普拉斯矩阵的谱聚类方法。本章*后,对聚类效果评价的问题进行了探讨,并描述了几种有助于聚类分析的统计图。
5.1简介
聚类是对数据进行分组的过程。分组原则是使得组内数据彼此之间相似性程度较高,而组间数据的相似性程度较低。这里假定数据代表特征,人们可以利用特征来区别不同组的数据。**步是选定一种方法来表征需要聚类的物体。在各个领域中有很多种数据聚类和表征的方法,例如统计类方法、机器学习方法、数据挖掘方法以及计算机科学领域的方法。值得注意的是,不存在适合于发现多维数据中不同组[Jain,Murty和 Flynn,1999]的通用聚类方法。因此,EDA的基本原则是,用户应该尝试各种聚类方法,以便发现哪种模式出现。
聚类也常称为无监督学习。为了更好地理解聚类,可以将它与判别分析法或者有监督学习方法进行比较。在有监督学习中,获取到的观测数据本身自带类别标签。因此,可以知道数据总共分为几类,以及与每个数据点同组的成员。继而可以使用数据和类标签来构造分���器。当遇到一个新的未标记观测数据时,就可以使用构造好的分类器对其进行标记了[Hastie,Tibshirani和 Friedman,2009; Duda,Hart和 Stork,2001;Webb,2002]。