虫术——Python绝技
编辑推荐
适读人群 :本书适合后端的Python开发者以及对爬虫技术感兴趣的读者。 本书基于Python这门灵活且简洁的语言,结合作者在网络数据爬取和大数据方面的实际工程经验,使得本书更具实用性。本书旨在让更多数据工作者或编程爱好者在大数据时代从海量的信息中通过掌握“虫术”来获取对自已或企业有价值的信息。
内容简介
爬虫初步 提供学习虫术的技术线路图,介绍爬虫基本的实现方法与实际运用。 Scrapy基础 以Scrapy架构为核心,详解Scrapy架构和各个模块的作用。 Scrapy工程管理与部署 详解Scrapyd的安装配置,介绍scrapyd-client和scrapyd-deploy的使用方法。 中阶虫术 分析Scrapy的蜘蛛内部实现,运用Selenium和Splash处理棘手的JavaScript网页,详解如何处理采集后的数据。 高阶虫术 聚焦于爬虫系统的性能,讲解如何能让爬虫变得更加隐蔽,如何让爬虫能看懂图片并训练它们使之变得更加聪明。讲解虫术的“大招”(分布式爬虫)来应对大规模的数据采集工作与数据存储的工作。
作者简介
近二十年软件开发、项目管理、团队建设和管理经验。致力于互联网技术应用与大数据应用方面的研究与开发工作。曾任多家软件公司的高级软件工程师、项目经理、首席架构师和技术总监等职务。 现任广州市增增智能科技有限公司CEO,从事视觉智能、语音智能及IoT等技术的产品研发与企业经营方面的工作。