实现项目
创建项目
|
|
创建爬虫
|
|
我们对网页进行分析获取需要的内容
此时,我们执行 scrapy crawl cankao1 --nolog
来查看不带执行信息的输入内容
创建item
创建 item
就比较简单了,主要是用来存放保存信息的
创建 pipeline , 存储数据
数据保存到文件
|
|
配置
写好的 pipelines 需要配置激活
数据保存到mongo
|
|
配置
写好的 pipelines 需要配置激活
下载文件(自定义文件名)
|
|
配置
写好的 pipelines 需要配置激活
|
|
配置
写好的 pipelines 需要配置激活
创建中间件
下载中间件实现 随机 USER_AGENT
|
|
配置
下载中间件实现 随机代理
|
|
配置同上
创建 cankao2 爬虫,并验证中间件,实现cookie管理
|
|
如果cookie不能使用,请查看配置
其他
debug 模式启动(调试) || 多爬虫启动
调试需要通过IDE的debug模式启动
由于通过终端直接执行爬虫命令无法调试,我们需要将执行爬虫的命令写在一个文件中然后执行
创建文件 cankao3.py
, 内容如下
调试方法2
在项目根目录下新建 main.py 文件,用于调试
配置
日志文件名和处理等级
|
|
下面给出如何使用 WARNING 级别来记录信息的例子:
延时下载
|
|
终端分析xpath是否正确
win系统无法使用,mac正常
|
|
获取配置
获取项目配置信息,如果没设置返回的是默认的配置信息
|
|
项目地址 github
增量式爬虫(去重)
用到了查一下,比较简单。这里记录一下防止忘记
《python爬虫开发与项目实践 P372》