第1章 绪论
1.1 什么是机器学习
随着计算机技术的发展,我们现在已经拥有存储和处理海量数据以及通过计算机网络从远程站点访问数据的能力。目前大多数的数据存取设备都是数字设备,记录的数据也很可靠。以一家连锁超市为例,它拥有遍布全国各地的数百家分店,并且在为数百万顾客提供数千种商品的零售服务。销售点的终端设备记录每笔交易的详细资料,包括日期、顾客识别码、购买商品和数量、消费总额等。这是典型的每日几个一字节的数据。只有分析这些数据,并且将它转换为可以利用的信息时,这些存储的数据才能变得有用,例如做预测。
我们不能确切地知道哪些人比较倾向于购买哪种特定的商品,也不知道应该向喜欢读海明威作品的人**哪位作者。如果我们知道,我们就不需要任何数据分析;我们只管供货并记录下编码就可以了。但是,正因为我们不知道,所以才只能收集数据,并期望从数据中提取这些问题或相似问题的答案。
我们确信存在某种过程,可以解释我们所观测到的数据。尽管我们不清楚数据产生过程(例如顾客行为)的细节,但是,我们知道数据产生不是完全随机的。人们并不是去超市随机购买商品。当人们买啤酒时,也会买薯片;夏天买冰淇淋,而冬天则为Gltthwein买香料。数据中存在确定的模式。
……