Python爬虫:传递scrapy参数的几种方式


运行环境 Runtime environment

1
2
3
4
操作系统: Windos10  
IDE: pycharm 2021.3.1 x64
语言: python v3.9.1
框架: Scrapy v2.4.1

scrapy 爬虫文件中

重写init初始化方法,使用super继承原init方法

添加参数传递jobid=None, *args, **kwargs。

1
2
3
def __init__(self, jobid=None, *args, **kwargs):
# print(jobid)
super(yourSpider, self).__init__(*args, **kwargs)

execute 方法启动 传参

execute([“scrapy”, “crawl”, “taobao_spider”, “-a”, “jobid=taobao_craw_20210512”])

scrapyd 方法传参

在启动的请求中,带上参数

project=your_project&spider=your_spider&jobid=xxxx

示例:

project=scrapy&spider=taobao_spider&jobid=taobao_craw_20210512

总结

重点是使用super方法重写爬虫类的init方法。

之后就好办了。