您好,欢迎光临有路网!
网络数据采集技术:Java网络爬虫实战
QQ咨询:
有路璐璐:

网络数据采集技术:Java网络爬虫实战

  • 作者:钱洋
  • 出版社:电子工业出版社
  • ISBN:9787121376078
  • 出版日期:2020年01月01日
  • 页数:380
  • 定价:¥79.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    • 出版社
    • ISBN
      9787121376078
    • 作者
    • 页数
      380
    • 出版时间
      2020年01月01日
    • 定价
      ¥79.00
    • 所属分类
    内容提要
    本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的大学生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
    目录
    目录 第1 章 网络爬虫概述与原理 ............................................................................ 1 1.1 网络爬虫简介 ............................................................................................. 1 1.2 网络爬虫分类 ............................................................................................. 2 1.3 网络爬虫流程 ............................................................................................. 4 1.4 网络爬虫的采集策略 ................................................................................. 5 1.5 学习网络爬虫的建议 ................................................................................. 5 1.6 本章小结 ..................................................................................................... 6 第2 章 网络爬虫涉及的Java 基础知识 ........................................................... 7 2.1 开发环境的搭建 ......................................................................................... 7 2.1.1 JDK 的安装及环境变量配置 .......................................................... 7 2.1.2 Eclipse 的下载 .................................................................................. 9 2.2 基本数据类型 ........................................................................................... 10 2.3 数组 ........................................................................................................... 11 2.4 条件判断与循环 ....................................................................................... 12 2.5 集合 ........................................................................................................... 15 2.5.1 List 和Set 集合 .............................................................................. 15 2.5.2 Map 集合 ........................................................................................ 16 2.5.3 Queue 集合 ..................................................................................... 17 2.6 对象与类 ................................................................................................... 19 2.7 String 类 ..................................................................................................... 21 2.8 日期和时间处理 ....................................................................................... 23 2.9 正则表达式 ............................................................................................... 26 2.10 Maven 工程的创建 ................................................................................. 29 2.11 log4j 的使用 ............................................................................................ 33 2.12 本章小结 ................................................................................................. 40 第3 章 HTTP 协议基础与网络抓包 ............................................................... 41 3.1 HTTP 协议简介 ........................................................................................ 41 3.2 URL ........................................................................................................... 42 3.3 报文 ........................................................................................................... 44 3.4 HTTP 请求方法 ........................................................................................ 46 3.5 HTTP 状态码 ............................................................................................ 46 3.5.1 状态码2XX .................................................................................... 47 3.5.2 状态码3XX .................................................................................... 47 3.5.3 状态码4XX .................................................................................... 48 3.5.4 状态码5XX .................................................................................... 48 3.6 HTTP 信息头 ............................................................................................ 48 3.6.1 通用头 ............................................................................................ 49 3.6.2 请求头 ............................................................................................ 52 3.6.3 响应头 ............................................................................................ 55 3.6.4 实体头 ............................................................................................ 56 3.7 HTTP 响应正文 ........................................................................................ 57 3.7.1 HTML ............................................................................................. 58 3.7.2 XML ............................................................................................... 60 3.7.3 JSON ............................................................................................... 61 3.8 网络抓包 ................................................................................................... 64 3.8.1 简介 ................................................................................................ 64 3.8.2 使用情境 ........................................................................................ 65 3.8.3 浏览器实现网络抓包 ..................................................................... 65 3.8.4 其他网络抓包工具** ................................................................. 70 3.9 本章小结 ................................................................................................... 70 第4 章 网页内容获取 .................................................................................... 71 4.1 Jsoup 的使用 ............................................................................................. 71 4.1.1 jar 包的下载 ................................................................................... 71 4.1.2 请求URL ....................................................................................... 72 4.1.3 设置头信息 .................................................................................... 75 4.1.4 提交请求参数 ................................................................................ 78 4.1.5 超时设置 ........................................................................................ 80 4.1.6 代理服务器的使用 ......................................................................... 81 4.1.7 响应转输出流(图片、PDF 等的下载)..................................... 83 4.1.8 HTTPS 请求认证 ........................................................................... 85 4.1.9 大文件内容获取问题 ..................................................................... 89 4.2 HttpClient 的使用 ...................................................................................... 91 4.2.1 jar 包的下载 ................................................................................... 91 4.2.2 请求URL ....................................................................................... 92 4.2.3 EntityUtils 类 .................................................................................. 97 4.2.4 设置头信息 .................................................................................... 98 4.2.5 POST 提交表单 ............................................................................ 100 4.2.6 超时设置 ...................................................................................... 103 4.2.7 代理服务器的使用 ....................................................................... 105 4.2.8 文件下载 ...................................................................................... 106 4.2.9 HTTPS 请求认证 ......................................................................... 108 4.2.10 请求重试 .................................................

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外