您好,欢迎光临有路网!
Web数据挖掘(第2版)
QQ咨询:
有路璐璐:

Web数据挖掘(第2版)

  • 作者:(美) 刘兵 俞勇
  • 出版社:清华大学出版社
  • ISBN:9787302298700
  • 出版日期:2013年01月01日
  • 页数:434
  • 定价:¥59.50
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    内容提要
    过去几十年里,Web的迅速发展使其成为世界上规模*大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。
    《世界**计算机教材精选:Web数据挖掘(第2版)》旨在阐述Web数据挖掘的概念及其核心算法,使读者获得相对完整的关于Web数据挖掘的算法和技术知识。本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:**部分包括第2章到第5章,介绍数据挖掘的基础,第二部分包括第6章到第12章,介绍Web相关的挖掘任务。从本书自第1版出版之后,很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展,主要的改动在第11章和第12章中,这两章已经被重新撰写并做了重要的扩展。
    《世界**计算机教材精选:Web数据挖掘(第2版)》不仅可作为本科生的教科书,也是在Web数据挖掘和相关领域研读博士学位的研究生的重要参考用书,同时对Web挖掘研究人员和实践人员获
    文章节选
    方法1定义会话为用户**搜索到事务日志中记录的*后一次搜索这一段时间。用户的IP地址以及浏览器cookie被用来确定**查询和后续查询,来估计会话长度。会话长度定义为用户**查询的时间点到该用户和搜索引擎的*后一次交互的时间点的时段。IP地址或者Cookie的一次改变总会开启一个新会话。
    方法2使用用户IP地址和浏览器Cookie来决定**查询和后续查询。但是,这里使用了一个相邻交互间*大长度为30分钟的规则来决定会话的边界。30分钟的时段是根据工业界对会话的标准来选择的(OneClick.com和Nielsen Netranking),其很大程度上基于Catledge和Pitkow对于浏览器活动的研究。该研究称一般Web会话平均长度是25.5分钟[24]。
    方法3在使用IP地址和浏览器Cookie来决定**查询和后续查询的基础上,使用了上下文方法来识别会话。上下文描述的会话是基于用户查询内容的改变而不是一个基于时间的截断来决定会话的边界。根据IP地址、Cookie、查询内容、反馈特征和查询长度,每一个查询被分到一个非交的组里。分类是[56]:
    ·辅助:当前查询是由用于选择了搜索结果顶部的特有选项,称为您是否要找?查询。
    ·内容改变:当前查询是同义的但是关联着另一个内容集合。
    ·泛化:当前查询是和之前的查询属于同一个主题(当前查询和之前的查询在内容上有重叠)但是针对更加广泛的信息。
    ·新查询:当前查询属于一个新的主题(和之前的查询没有重叠)。
    ·修改:当前查询和用户之前的查询属于同一个主题(当前查询和之前的查询在内容上有重叠),并且它们长度一致。
    ·具体化:当前查询和用户之前的查询属于同一个主题(当前查询和之前的查询在内容上有重叠),但是针对更加具体的信息。这时往往新的查询更长(查询词更多)。
    在文献[56]实证研究表明方法3(IP地址、Cookie和查询内容)给出了*好的会话识别效果,为尽量准确的搜索上下文识别创造了条件。
    ……
    目录
    第1章 概述
    1.1 什么是万维网
    1.2 万维网和互联网的历史简述
    1.3 Web数据挖掘
    1.3.1 什么是数据挖掘
    1.3.2 什么是Web数据挖掘
    1.4 各章概要
    1.5 如何阅读本书
    文献评注
    参考文献
    第1部分 数据挖掘基础
    第2章 关联规则和序列模式
    2.1 关联规则的基本概念
    2.2 Apriori算法
    2.2.1 频繁项目集生成
    2.2.2 关联规则生成
    2.3 关联规则挖掘的数据格式
    2.4 多*小支持度的关联规则挖掘
    2.4.1 扩展模型
    2.4.2 挖掘算法
    2.4.3 规则生成
    2.5 分类关联规则挖掘
    2.5.1 问题描述
    2.5.2 挖掘算法
    2.5.3 多*小支持度分类关联规则挖掘
    2.6 序列模式的基本概念
    2.7 基于GSP挖掘序列模式
    2.7.1 GSP算法
    2.7.2 多*小支持度挖掘
    2.8 基于PrefixSpan算法的序列模式挖掘
    2.8.1 PrefixSpan算法
    2.8.2 多*小支持度挖掘
    2.9 从序列模式中产生规则
    2.9.1 序列规则
    2.9.2 标签序列规则
    2.9.3 分类序列规则
    文献评注
    参考文献
    第3章 监督学习
    3.1 基本概念
    3.2 决策树归纳
    3.2.1 学习算法
    3.2.2 混杂度函数
    3.2.3 处理连续属性
    3.2.4 其他一些问题
    3.3 评估分类器
    3.3.1 评估方法
    3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)
    3.3.3 受试者工作特征曲线
    3.3.4 提升曲线
    3.4 规则归纳
    3.4.1 顺序化覆盖
    3.4.2 规则学习:Learn-One-Rule函数
    3.4.3 讨论
    3.5 基于关联规则的分类
    3.5.1 使用类关联规则进行分类
    3.5.2 使用类关联规则作为分类属性
    3.5.3 使用古典的关联规则分类
    3.6 朴素贝叶斯分类
    3.7 朴素贝叶斯文本分类
    3.7.1 概率框架
    3.7.2 朴素贝叶斯模型
    3.7.3 讨论
    3.8 支持向量机
    3.8.1 线性支持向量机:可分的情况
    3.8.2 线性支持向量机:数据不可分的情况
    3.8.3 非线性支持向量机:核方法总结
    3.9 A、近邻学习
    3.10 分类器的集成
    3.10.1 Bagging
    3.10.2 Boosting
    文献评注
    参考文献
    第4章 无监督学习
    4.1 基本概念
    4.2 A-均值聚类
    4.2.1 A-均值算法
    4.2.2 A-均值算法的硬盘版本
    4.2.3 优势和劣势
    4.3 聚类的表示
    4.3.1 聚类的一般表示方法
    4.3.2 任意形状的聚类
    4.4 层次聚类
    4.4.1 单连结方法
    4.4.2 全连结方法
    4.4.3 平均连结方法
    4.4.4 优势和劣势
    4.5 距离函数
    4.5.1 数字属性
    4.5.2 布尔属性和名词性属性
    4.5.3 文本文档
    4.6 数据标准化
    4.7 混合属性的处理
    4.8 采用哪种聚类算法
    4.9 聚类的评估
    4.10 发现数据区域和数据空洞
    文献评注
    参考文献
    第5章 部分监督学习
    5.1 从已标注数据和无标注数据中学习
    5.1.1 使用朴素贝叶斯分类器的EM算法
    5.1.2 Co-naining
    5.1.3 自学习
    5.1.4 直推式支持向量机
    5.1.5 基于图的方法
    5.1.6 讨论
    5.2 从正例和无标注数据中学习
    5.2.1 PU学习的应用
    5.2.2 理论基础
    5.2.3 建立分类器:两步方法
    5.2.4 建立分类器:偏置SVM
    5.2.5 建立分类器:概率估计
    5.2.6 讨论
    ……
    第2部分 Web挖掘

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外