《虫术Python绝技》_梁睿坤

aixure · 发表于 2023-1-21 23:11:45

内容简介[url=]编辑[/url][url=] 播报[/url]
本书以大数据应用方面常用的语言Python为基础，从网络爬虫的实现原理入手，逐步引领读者进入网络爬虫的世界。在各类爬虫框架中，将Scrapy作为轴心，从多个维度揭开爬虫技术的面纱。例如，爬取规则的制定技巧，设计高速爬虫，如何让爬虫更“聪明”地获取数据，将海量数据进行分布式存储的技术，设计具有高隐匿性的爬虫，大规模、高并发的分布式爬虫技术。 [1]

图书目录[url=]编辑[/url][url=] 播报[/url]
第1章　爬虫初步
1.1　爬虫与大数据
1.1.1　大数据架构
1.1.2　爬虫的作用与地位
1.1.3　Python与爬虫
1.1.4　Python的网络爬虫框架
1.1.5　虫术技术路线图
1.2　实例：简单的爬虫
1.3　内容分析进阶
1.3.1　选择器
1.3.2　深入BeautifulSoup
1.3.3　元素的搜寻
1.3.4　乱码与中文编码
1.4　新闻供稿的爬取实例
1.5　小结
第2章　Scrapy基础知识
2.1　Scrapy架构
2.2　Scrapy快速入手
2.3　数据模型Item
2.4　蜘蛛—Spiders
2.5　管道—Item Pipeline
2.6　Scrapy的运行与配置
2.7　新闻供稿爬虫的Scrapy实现
2.8　小结
第3章　Scrapy的工程管理
3.1　Scrapyd
3.2　scrapyd-client及部署
3.3　搭建爬虫服务器
第4章　中阶虫术
4.1　蜘蛛的演化
4.1.1　蜘蛛的本质—深入Spider
4.1.2　通用蜘蛛
4.1.3　蜘蛛中间件
4.2　爬虫系统的测试与调试
4.2.1　开发期调试
4.2.2　蜘蛛的测试
4.2.3　蜘蛛的运行期调试
4.2.4　调试内存溢出
4.3　处理HTTP请求
4.3.1　HTTP请求
4.3.2　Scrapy的Request对象
4.3.3　表单处理
4.3.4　下载器中间件
4.4　处理HTTP响应
4.4.1　HTTP响应
4.4.2　Scrapy的响应对象
4.4.3　深入选择器
4.4.4　非结构化数据的提取
4.4.5　黑夜中的眼睛
4.5　处理JavaScript
4.5.1　示例：电商产品爬虫
4.5.2　Selenium和PhantomJS
4.5.3　Scrapy与Splash
4.6　数据存储与后处理
4.6.1　图片的下载与存储
4.6.2　示例：产品图片采集
4.6.3　导出到数据文件
4.6.4　导出到数据库
4.6.5　示例：基于阿里云的存储后端
第5章　高阶虫术
5.1　增量式爬网
5.1.1　推演路由
5.1.2　时机的重要性
5.1.3　去重处理
5.1.4　布隆过滤器
5.1.5　基于Redis的布隆过滤器
5.2　突破封印
5.2.1　封禁浅析
5.2.2　客户端仿真
5.2.3　化身万千—蜘蛛世界的易容术
5.2.4　反跟踪
5.2.5　绕开蜜罐
5.3　虫海
5.3.1　分布式爬虫架构
5.3.2　认识scrapy-redis
5.3.3　示例：分布式电商爬虫
5.4　可视化爬虫
5.4.1　示例：某点评网爬虫
5.4.2　解读Portia爬虫代码
5.4.3　数据项加载器—Item Loaders
5.4.4　最后的工作

更多资源请咨询课小二

客服QQ

大厂学院重磅上线-大厂学院SVIP十门合集

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《虫术Python绝技》_梁睿坤

温馨提示：

相关帖子

金职位_Web前端架构师【完结】

金职位_Java架构师-技术专家

[完结]大前端2022版

金职位_Go开发工程师[完结]

mksz469-Go+Python双语言混合开发【完结】

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

更多资源请咨询课小二

客服QQ

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师 移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《虫术Python绝技》_梁睿坤

温馨提示：

相关帖子

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

金职位_移动端架构师移动架构师