随着信息技术特别是网络技术的飞速发展,人们收集、存贮、传输数据的能力不断提高。数据出现了爆炸性增长,与此形成鲜明对比的是:对决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算法和数据挖掘软件平台是重要的技术基础。本书以数据挖掘*基本问题、频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的挖掘算法和分布,异质、海量数据的协同挖掘软件模型,并探讨了数据挖掘过程中的隐私保护问题。
本书首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进_步提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法OpportuneProject,对比实验表明,该算法挖掘各种规模与特性数据库的效率与可伸缩性都是*佳的。
由于其内在的计算复杂性,挖掘密集型数据的频繁模式完全集非常困难,解决办法是挖掘频繁模式的闭合集或*大集。本书提出了一种组织闭合模式集的复合型频繁模式树,支持搜索空间的**剪裁,有效地平衡了树生成与树剪裁的代价,实现了闭合模式集挖掘算