Scrapy是一个使用Python实现的,为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。只需要定制开发几个模块就可以轻松实现一个爬虫,用来抓取网页内容以及各种图片,非常方便。Scrapy使用了Twisted异步网络框架来处理网络通信,可以加快下载速度,并且包含各种中间件接口,可以灵活完成各种需求。
使用前需要先安装Scrapy。
1、在Windows上安装Scrapy
Scrapy在Windows上一安装步骤比较复杂,由于Scrapy依赖的包比较使用,而有的包会有非Python依赖环境,因此在Windows上使用pip安装Scrapy会大概率出错,直接未入门就放弃。Scrapy依赖的包有:
lxml:一种高效的XML和HTML解析器,
PARSEL:一个HTML / XML数据提取库,基于上面的lxml,
w3lib:一种处理URL和网页编码多功能辅助
twisted,:一个异步网络框架
cryptography and pyOpenSSL,处理各种网络级安全需求
使用pip安装,可以执行以下脚本:
pip install scrapy
但是这样,需要手工解决包依赖问题,为避免未入门就放弃,建议还是使用Anaconda来解决包依赖的问题,安装后直接执行:
conda install -c conda-forge scrapy
注:
Anaconda官网:https://www.anaconda.com/
云盘下载链接: https://pan.baidu.com/s/10RYxKzn5Q9WgLCW8cF-pxw 提取码: k8s5
安装完成后,cmd中执行命令检查是否安装成功:
C:\scrapy version
Scrapy 1.6.0
2、在Ubuntu上安装Scrapy
在Ubuntu上安装Scrapy过程非常简单,只需要执行pip命令即可:
pip install scrapy
相关链接
Scrapy官方文档:https://doc.scrapy.org/en/latest/