玩转Python网络爬虫
编辑推荐
本书站在初学者的角度,从原理到实践,深入、系统地阐述了使用Python 3开发网络爬虫的核心技术,全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。
基础篇
主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。
网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析。
数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识。
数据清洗主要介绍字符串操作、正则表达式和Beautiful Soup的使用。
数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。
实战篇
深入讲解了分布式爬虫、爬虫软件的开发与应用、12306抢票程序和微博爬取,所举实例均来自于编者的开发实践,可帮助读者快速提升技能,开发自己的实际项目。
爬虫框架篇
主要讲述Scrapy的原理和特性,通过爬取QQ音乐实例,介绍Scrapy在网络爬虫中的应用技巧。本部分内容可使读者深入地了解Scrapy的使用,并举一反三,编写出复杂的网络爬虫程序。
本书既介绍编写网络爬虫的各种技术,又注重以网络爬虫和网站分析的思想为出发点,培养读者编写网络爬虫的逻辑思维,使读者能够针对不同的网站制定出不同的爬虫方案;此外,还介绍了反爬虫机制和相应的解决方案,是读者入职爬虫工程师的很好实践。
本书所有程序代码均在Python 3.5环境下测试通过,读者可从网络上下载本书所有实例源代码。
内容简介
本书站在初学者的角度,从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网络做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和Beautiful Soup的使用;数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件开发与应用、12306抢票程序和微博爬取,所举示例均来自于开发实践,可帮助读者快速提升技能,开发实际项目。框架篇主要讲述Scrapy的基础知识,并通过爬取QQ音乐为实例,让读者深层次了解Scrapy的使用。
本书内容丰富,注重实战,适用于从零开始学习网络爬虫的初学者,或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。
作者简介
黄永祥,信息管理与信息系统专业学士,曾从事过系统开发和自动化开发,精通B/S和C/S自动化测试技术,多年网络爬虫开发经验,对反爬虫机制有独到的见解,精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司,担任Python开发工程师,目前就职于广东数据集成有限公司。热爱分享和新技术的探索,在CSDN上发表多篇Python技术文章。