解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫
编辑推荐
本书结合案例讲解各知识点,帮助读者掌握Python网络爬虫的核心技术。
内容简介
网络爬虫是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本,它可以代替人力进行信息采集,能够自动采集并高效地利用互联网中的数据,在市场的应用需求中占据着重要的位置。
本书以Windows为主要平台,系统全面地讲解了Python网络爬虫的相关知识。主要内容包括:初识爬虫、爬虫的实现原理和技术、网页请求原理、爬取网页数据、数据解析、并发下载、图像识别与文字处理、存储爬虫数据、初识爬虫框架Scrapy、Scrapy终端与核心组件、自动爬取网页的爬虫 CrawSpider、Scrapy-Redis分布式爬虫。
本书适合作为高等院校计算机相关专业程序设计课程教材,也可作为Python网络爬虫的培训教材,以及广大编程开发者的爬虫入门级教材。
作者简介
黑马程序员:江苏传智播客教育科技股份有限公司(简称传智播客)是一家专门致力于高素质软件开发人才培养的高科技公司。传智播客致力于为企业优选一流的人才的培训理念,经过多年的教学探索及战略布局,已向着综合型职业教育集团发展。目前,传智播客旗下已涵盖传智播客IT教育培训、黑马程序员训练营及博学谷三大子品牌。“黑马程序员”是传智播客旗下高端IT教育品牌。