《Python3爬虫、数据清洗和可视化实战》
零一 韩要宾 黄园园 著
第五章 Scrapy爬虫
5.1 Scrapy简介Scrapy是为了抓取网页数据、提取结构化数据而编写的应用框架。该框架是封装的,包含request、下载器、解析器、twisted等。对于网络内容的爬取,速度非常快。
5.3 案例:用Scrapy抓取股票行情爬取过程分为5步:
创建爬虫项目; 定义一个item容器; 定义setting文件进行基本爬虫设置; 编写爬虫逻辑; 代码调试。 1,创建爬虫项目;Scrapy startproject stockstar 1
Scrapy startproject是固定命令,在命令行中(cmd)用来创建一个名为stockstar的爬虫项目(这样创建会包含很多项目文件。方便操作)
2,定义一个item容器;#item.py import scrapy from scrapy. loader import ItemLoader from scrapy.loader .processors import TakeFirst class StockstarItemLoader (ItemLoader) : #自定义itemloader,用于存储爬虫所抓取的字段内容 default_ output processor=TakeFirst() class StockstarItem(scrapy.Item):# 建立相应的字段# definethefieldsforyouritemhere like :# name = scrapy .Field()code =scrapy.Field() #股票代码abbr = scrapy.Field() #股票简称last_trade = scrapy.Field() #最新价chg_ratio = scrapy.Field() #涨跌幅chg_amt = scrapy.Field() #涨跌额chg_ratio_5min = scrapy.Field()#5分钟涨幅volumn = scrapy.Field() #成交量turn_over = scrapy.Field() #成交额
123456789101112131415161718192021 3,定义setting文件进行基本爬虫设置;from scrapy. exporters import JsonLinesItemExporter 1