• Spider
  • 1. 爬虫原理与数据抓取
    • 1.1. (了解)通用爬虫和聚焦爬虫
    • 1.2. (复习)HTTP/HTTPS的请求与响应
    • 1.3. str和bytes的区别
    • 1.4. Requests简单使用
    • 1.5. Requests深入
    • 1.6. HTTP/HTTPS抓包工具-Fiddler
    • 1.7. 参考阅读:urllib模块的基本使用
    • 1.8. 参考阅读:urllib:GET请求和POST请求
    • 1.9. 参考阅读:urllib:Handler处理器和自定义Opener
    • 1.10. 参考阅读:编码故事
  • 2. 非结构化数据与结构化数据提取
    • 2.1. 正则表达式re模块
    • 2.2. 案例:使用正则表达式的爬虫
    • 2.3. XPath与lxml类库
    • 2.4. 案例:使用XPath的爬虫
    • 2.5. JSON模块与JsonPath
    • 2.6. 糗事百科案例
    • 2.7. 多线程爬虫案例
    • 2.8. 参考阅读:BeautifulSoup4 解析器
    • 2.9. 参考阅读:案例:使用bs4的爬虫
  • 3. 动态HTML处理和机器图像识别
    • 3.1. 动态HTML介绍
    • 3.2. Selenium与PhantomJS
    • 3.3. 案例一:网站模拟登录
    • 3.4. 案例二:动态页面模拟点击
    • 3.5. 机器视觉与Tesseract介绍
    • 3.6. 处理一些格式规范的文字
    • 3.7. 尝试对验证码进行机器识别处理
    • 3.8. 参考阅读:执行JavaScript语句
    • 3.9. 参考阅读:训练Tesseract
  • 4. Scrapy框架
    • 4.1. 配置安装
    • 4.2. 入门案例
    • 4.3. Scrapy Shell
    • 4.4. Item Pipeline
    • 4.5. Spider
    • 4.6. CrawlSpider
    • 4.7. Request/Response
    • 4.8. Downloader Middlewares
    • 4.9. Settings
  • 5. Scrapy实战项目
    • 5.1. (案例一)手机App抓包爬虫
    • 5.2. (案例二)阳光热线问政平台爬虫
    • 5.3. (案例三)新浪网分类资讯爬虫
    • 5.4. (案例四)Cosplay图片下载器爬虫
    • 5.5. (案例五)将数据保存在MongoDB中
    • 5.6. (案例六)三种scrapy模拟登陆策略
    • 5.7. 附:通过Fiddler进行手机抓包方法
  • 6. scrapy-redis分布式组件
    • 6.1. 源码分析参考:Connection
    • 6.2. 源码分析参考:Dupefilter
    • 6.3. 源码分析参考:Picklecompat
    • 6.4. 源码分析参考:Pipelines
    • 6.5. 源码分析参考:Queue
    • 6.6. 源码分析参考:Scheduler
    • 6.7. 源码分析参考:Spider
  • 7. scrapy-redis实战
    • 7.1. 源码自带项目说明
    • 7.2. 有缘网分布式爬虫项目1
    • 7.3. 有缘网分布式爬虫项目2
    • 7.4. 处理Redis里的数据
    • 7.5. 尝试改写新浪网分类资讯爬虫1
    • 7.6. 尝试改写新浪网分类资讯爬虫2
    • 7.7. IT桔子分布式项目1
    • 7.8. IT桔子分布式项目2
  • Published with GitBook

可选择的IDE和编辑器