小技能GET:Ubuntu安装部署IPProxy代理池
项目需要,在此部署一个代理IP池,在github上寻找到一个名为IPProxy项目
运行环境 Runtime environment
1 | 操作系统 : Ubuntu18.04LTS |
背景
项目的数据需要爬虫的支持,爬虫需要则需要IP代理池,来提高采集速度。由于爬取对象多少都会对同IP的请求量做出限制。
于是就在在github上寻找到一个名为IPProxy项目,这是一个代理池。
但是看起来也有一年不更新了..加上一些自己项目的需要,会对这个代理池进行特化的重构。
fork要是提交过去,也不知道领不领情就是了..2333
下载IPProxy
IPProxy点击此处,到有关页面下载或者运行(前提本机已经安装git工具)如下命令:
在这里为了方便我的做法是,使用Pycharm。VCS>Checkout from Version Control>Git:
将克隆地址“https://github.com/qiyeboy/IPProxyPool.git”复制进去确定也行。
环境配置
该项目中的readme.md说明文件中这样提到:
1 | 1.安装sqlite数据库(一般系统内置): |
其实也不用上面说的这么麻烦就是啦…我给出我的快速部署方案。
将项目中的requirements.txt文件的内容改为:
1 | chardet==2.3.0 |
你可以根据自己的需要选择是否创建虚拟环境。
这里以Ubuntu18.04为例,在requirements.txt的目录中,打开终端的命令窗口,并运行如下命令:
sudo apt-get install -y python3-dev build-essential libssl-dev libffi-dev libffi-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
pip install -r requirements.txt
安装所需要的依赖包,并依照requirements.txt完成pip list的安装。
运行使用
这一步都很简答了,其实项目说明书解释得很清楚。
将项目目录clone到当前文件夹
$ git clone
切换工程目录
1 | $ cd IPProxyPool |
运行脚本
1 | python IPProxy.py |
成功运行后,打印信息
1 | IPProxyPool----->>>>>>>>beginning |
总结
更多用法参考原项目说明IPProxy。