您所在的位置:图书> 图书详情
分享到:

数据采集与预处理

本书配有由作者精心制作的教学课件、源码等资源,相关资源可在资源中心免费下载。
  • 作 者:周勇 杨倩 廖宁 余秋莲
  • 策划编辑:李惠萍
  • 书代号:665800
  • I S B N:978-7-5606-6356-2
  • 出版日期:2022-02
  • 印刷日期:2022-02
  • 业务分类:本科;
  • 图书库存:加载中...
  • 纸书价格:- 元 原价:42.00
  • 在线阅读:-
  • 电子书:-

购书款满88元包邮(包邮地区仅限内地,新疆、西藏除外)

内容简介
前言
目录
编辑推荐
相关资源
    

随着国家大数据相关政策、规划的密集出台,大数据、人工智能商业落地速度加快,其在各个领域的应用也越来越广泛,其中面向企业服务、金融、医疗健康、电子政务、电子商务等细分领域的大数据应用展现出巨大的潜力。

大数据是需要新处理模式才能适应的海量、高增长率和多样化的信息资产,被誉为“未来的新石油”,以至于数据的获取、存储、搜索、共享、分析以及可视化呈现都成为当前重要的研究课题。

本书重点讲述数据采集与预处理的相关内容,并以真实案例介绍不同数据源的采集方式及基本的数据预处理方法。全书共10章。其中,第1章为概述,第2~5章介绍静态网页数据爬取,第6章介绍动态网页数据爬取,第7、8章介绍爬虫(Scrapy)框架应用,第9章介绍数据预处理,第10章给出了一个综合项目实训。

本书可作为高校数据科学与大数据技术专业相关课程的教材或教学参考书,也可作为人工智能、大数据领域从业者的自学参考书。

为什么要编写本书?

“得数据者得天下”,大数据在当今已经是公认的“数据资产”,它极大地影响了人们的生活。大数据企业也在不断创新发展新的业务、新的运营模式,如收集数据的第三方数据服务公司(贵州的贵阳大数据交易所、北京的数据堂、北京大数据交易服务平台、武汉的华中大数据交易所等)、存储数据的数据平台(阿里云、百度网盘、腾讯云等)、处理数据的数据分析公司(艾瑞咨询、IDC、国家统计局、易观国际、赛迪顾问股份有限公司等)。但数据究竟从哪里来、怎么获取,至今都是一个值得研究的课题。

作者从事了十几年的软件开发工作。近几年越来越多的软件公司转型为大数据公司,从常规的软件系统开发转为大数据系统开发,作者在这个过程中深刻地感受到了数据获取的不易及数据规范的必要性。特别是随着网络爬虫技术的兴起,越来越多的人认识到互联网数据的价值,各种爬虫技术、爬虫手段层出不穷,网站的反爬机制也不断更新。如何能在不违背道德伦理、法律法规的前提下获取更多的有效数据,如何能在不断更新的爬虫与反爬机制中认识数据、了解当前所处的数字时代,是作者编写本书的主要目的。

本书的特点是什么?

本书以实践为主,分别以不同的业务场景展示数据采集技术的应用,最终通过一个完整的项目实现从数据源到获取目标数据并进行简单分析的过程。整体来看,本书的特点如下:

(1) 案例驱动。数据采集工作是一个综合性要求较高的工作,需要对数据源(网站、数据库等)有较深的认识,对采集工具/手段(Python相关的数据处理库函数、框架、其他软件等)较为熟悉,对软件开发(特别是网站开发)的业务流程有一定的了解。本书根据业务的复杂度,分别从静态网页、动态网页、爬虫框架、数据预处理入手,精心打造多个典型案例,使读者能快速地对网站开发技术与爬虫技术之间的“互动”有更深入的了解。

(2) 案例镜像。本书有较多的数据采集案例,如从豆瓣图书、豆瓣电影、51JOB、新浪微博爬取数据等。这些常见、常用的资源网站通常会不断更新其网站结构、调整其数据源路径等。目前市面上出版的与数据爬取相关的书籍通常是以作者写作时的网站结构为案例进行编写的,读者拿到出版的书籍后,会发现很多爬虫程序已经无法运行了,这严重影响读者的阅读和实践体验。同时,被爬取的网站长期被作为“试验”对象,极可能会影响到网站自身的正常运行。本书将常用的网站直接做成“镜像”,即模仿常用网站的结构、部分数据,单独开发出一套可供读者实践的站点,保证读者在阅读本书及跟随本书实践时能实现所有功能。

(3) 习题巩固。本书每章都配有习题。建议读者学完每一章后,根据题目回顾每个小节的内容,进行思考并给出自己的答案,以加强对本章基础问题的理解,巩固所学内容以及每一个案例项目。希望读者按照书中的步骤亲自动手进行实践,以便能举一反三、学以致用。

本书写了些什么?

本书力求通过层层递进的案例展示数据采集与预处理过程中的关键知识、关键技术及主要实现步骤。在案例的选择上,从静态网页获取、动态网页获取到爬虫框架的应用,分别以QQ表情包图片爬取、中国大学排名爬取、豆瓣图书信息爬取、新浪博客数据爬取、贝壳网房源信息爬取为例,基于Python的常用库(如urllib、Requests)和常用框架(Scrapy)实现数据采集。在知识内容的选择上,本书除了Python编程语法外,还根据项目需求增加了与计算机网络相关的HTTP协议、HTML标签、JavaScript、JSON、MySQL等知识内容,读者在阅读时可以快速构建一个知识框架。同时,本书专门用一章描述了数据预处理的基本原理和方法,用一个综合性项目实现从数据采集到数据预处理,再到数据存储的完整流程,为后期数据分析、数据可视化等应用打下良好的基础。

通过本书能学到什么?

(1) 常用数据爬取技术:静态网页可用的Python库函数(如Requests、urllib、Pandas),动态网页可用的Python库函数(如Selenium)、爬虫框架(如Scrapy)。

(2) 常用的数据存储方式:CSV文本文件、Python文本文件、数据库文件的存储。

(3) 常用的数据预处理方法:Pandas数据清洗、Pandas数据整理。

(4) 完整的数据获取流程:从数据采集到数据存储,再到数据预处理,最后到简单的数据可视化的完整流程。

(5) 了解相关的计算机基础知识:HTTP协议、HTML基本语法、JavaScript基础结构、JSON数据格式、MySQL数据库数据存取等。

本书的适用方向是什么?

本书可作为高校数据科学与大数据技术专业相关课程的教材或教学参考书,也可作为人工智能、大数据领域从业者的自学参考书。

? 本书编写分工

本书案例部分与重庆中链融科技有限公司合作编写,中链融科技有限公司提供了部分案例初稿。本书由周勇、杨倩、廖宁、余秋莲负责编写,周勇、杨倩负责统稿,陈欣负责审核。其中,杨倩负责第1、3、4章的编写,余秋莲负责第2章的编写,周勇负责第5、6、7、8、10章的编写,廖宁负责第9章的编写。

作 者

2021年11月

  • 【课件教案】《数据采集与预处理》(周勇)课程源码.zipPC下载
  • 【课件教案】《数据采集与预处理》(周勇)作者提供课件.zipPC下载

看过本商品的还看了

浏览历史

版权所有(C) 西安电子科技大学出版社 Copyrights @ 2015 陕ICP备15015893号