基于scrapy的redis安装和配置方法

在定向爬虫的制作过程中,使用分布式爬取技术可以显著提高爬取效率。而 Redis 配合 Scrapy 是实现分布式爬取的基础。

Redis 是一个高性能的 Key-Value 数据库,它把数据保存在内存里。因此可以有非常快的数据读写速度。

一、安装连接包

安装python连接包:scrapy-redis

pip install scrapy-redis

二、redis服务安装配置

推荐版本:stable 3.0.2,具体安装教程看下面文章,更多redis教程可以站内搜索!

三、开启redis服务

redis-server redis.conf
图片[1] - 基于scrapy的redis安装和配置方法 - 三酷猫笔记

同样的可以使用redis-cli命令,进行客户端操作,比如:清除缓存

redis-cli flushdb   # 清除缓存

四、scrapy中使用redis

1.settings.py配置redis

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = None # 一般情况可以省去
REDIS_HOST = '127.0.0.1' # 也可以根据情况改成 localhost
REDIS_PORT = 6379
图片[2] - 基于scrapy的redis安装和配置方法 - 三酷猫笔记

2.在scrapy中使用scrapy-redis

图片[3] - 基于scrapy的redis安装和配置方法 - 三酷猫笔记
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享