在数据集成过程中,需要解决如下几个问题:
(1)模式集成问题。即如何使来自多个数据源的数据与现实世界的实体相匹配,这涉及到实体识别问题。例如customer-id和customer-number是两个数据库中的不同用户标识,它们是否为同一实体。
(2)冗余。冗余是数据集成中经常发生的另一个问题。一个属性是冗余的,若一个属性可以从其他属性中推演出来。如:一个顾客的平均月工资属性就是冗余属性,因为它可以根据月收入属性计算出来。两个属性是否相关即是否构成冗余有相应的公式进行度量。除检测属性间的冗余外,“重复”也应该在元组级进行检测,元组即为记录。重复是指对于同一数据存在两个或多个元组。
(3)数据集成的第三个问题是数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。原因可能是表示的差异、比例尺度不同或编码的差异等,例如采用不同的长度、重量或货币单位。数据这种语义上的差异,是数据集成的巨大挑战。将多个数据源中的数据集成起来,能够减少或避免结构数据集中数据的冗余性和不一致性,这有助于提高数据挖掘的精度和速度。 随着计算机技术和信息技术的发展,企业在生产、销售等各种企业活动中产生并积累了大量的数据,信息量的增长速度呈现指数上升,在**市场、银行、电信等企业表现得更为突出,数据的容量已达到了TB级甚至PB级。这些海量数据中隐藏着大量具有潜在价值的信息,传统获取和分析知识的方法已远远不能满足企业获取这些信息的需要。“数据丰富,知识贫乏”的矛盾进一步加剧。如何从数据中发现有价值的知识或信息,就成为企业一项非常艰巨的任务。人们迫切需要一种能够从海量数据中提取知识和信息的技术,以便能够智能地、自动地把信息和数据转换成知识。这样,数据挖掘技术就应运而生了。
我国数据挖掘技术研究开始于20世纪90年代,经过十几年的发展,这一领域目前正处于蓬勃发展时期。课题组开始酝酿和申报此课题时,关于数据挖掘的中文资料,无论是图书还是期刊都比较少;关于企业数据挖掘应用的资料更是少之又少。但短短两三年的时间,数据挖掘技术在我国得到了迅速的发展,同时在计算机界、信息管理界得到广泛的重视和研究,多种**科研基金如**自然科学基金、863计划、“九五”计划等都对数据挖掘项目进行了资助,取得了许多研究成果。
企业数据应用的目的性很强,这就决定了基于数据仓库进行数据挖掘成为企业数据挖掘应用的主流。但由于数据仓库、数据挖掘技术都是数据处理及分析领域出现的新技术,大部分人都把目光投向了基于这两项技术基础上的基础理论的研究,特别是具体技术、算法的实现,而忽略了对数据挖掘理论与实践相结合的研究,使得这方面的书籍和论文很少,而且研究者大多集中在高校,研究成果很多是对国外成果的介绍、引进、补充、改进或翻译。许多企业、机构已经认识到数据挖掘的先进性和必要性,希望构建自己的数据挖掘系统,少数大型企业已经开始这方面的实施工作,如海尔集团和小天鹅集团等企业已经利用数据挖掘技术进行客户关系管理,并取得了较好的效益。但是,绝大部分企业还缺少构建一个完整的数据挖掘系统的理论和实践指导体系。因此,本书内容不注重数据挖掘概念、技术、算法的具体研究和介绍,而足希望能够在一个更高的层次上,为企业高层管理者及相关人员在企业数据挖掘系统的构建方面,提供一个完整的理论和实践体系,为推动数据挖掘在企业的应用做些贡献。