Ubuntu16.04安装爬虫框架scrapy

321231255 · 发表于 2016-11-17 08:38:17

scrapy框架需要在Python 2.7，lxml,OpenSSL,pip程序或库的基础之上创建。
因此，首先，先检查下是否包含上述四个程序或库

1
2
3
4
5

kuku@worker1:~$ python
Python 2.7.12 (default, Jul 1 2016, 15:12:24)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>

可以看到Ubuntu16.04已经预置了python 2.7
接着查看是否还有lxml

1
2
3
4
5
6
7

>>> import lxml
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: No module named lxml
>>>
>>> import OpenSSL
>>>

发现没有lxml，有OpenSSL,于是先安装lxml

1	kuku@worker1:~$ sudo apt-get install python-lxml

重新进入

1
2
3
4
5
6

kuku@worker1:~$ python
Python 2.7.12 (default, Jul 1 2016, 15:12:24)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml
>>>

没有报错。为保证后续正确安装，需依次执行

1	kuku@worker1:~$ sudo apt-get install python-dev

1	kuku@worker1:~$ sudo apt-get install libevent-dev

1	kuku@worker1:~$ sudo apt-get install python-pip

1	kuku@worker1:~$ sudo pip install --upgrade pip

最后执行

1	kuku@worker1:~$ pip install Scrapy

即可完成Scrapy的安装，查看下scrapy相关命令

1	kuku@worker1:~$ scrapy

然后可以创建一个新的项目

1
2
3
4
5
6
7
8
9

kuku@worker1:~$ scrapy startproject newproject
New Scrapy project 'newproject', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/project', created in:
/home/kuku/newproject

You can start your first spider with:
cd newproject
scrapy genspider example example.com
kuku@worker1:~$
kuku@worker1:~$ sudo apt install tree

使用tree看下newproject文件目录

1	kuku@worker1:~$ tree newproject/

接下来可以根据自己需要对里面文件进行相应的编辑，以满足自己需求。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Ubuntu16.04安装爬虫框架scrapy

浏览过的版块

扫码加入运维网微信交流群