Python scrapy框架爬取瓜子二手車資訊資料
阿新 • • 發佈:2019-05-09
專案實施依賴:
python,scrapy ,fiddler
scrapy安裝依賴的包:
可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載 pywin32,lxml,Twisted,scrapy然後pip安裝
專案實施開始:
1、建立scrapy專案:cmd中cd到需建立的檔案目錄下
scrapy startproject guaziView Code
2、建立爬蟲:cd到建立好的專案下
1 scrapy genspider gz guazi.comView Code
3、分析目標網址:
第一次我直接用的谷歌瀏覽器的抓包分析,取得UA和Cookies請求,返回的html資料完全缺失,分析可能是攜帶的Cookies
有問題,然後就用fiddler抓包才,得到Cookies與谷歌上得到Cookies多了UA,時間等引數,
4、將UA,Cookies新增到下載中間中去:
1 class Guzi1DownloaderMiddleware(object): 2 def process_request(self, request, spider): 3 # 需要對得到的cookies處理成字典型別 4 request.cookies={} 5 request.headers["User-Agent"]=""View Code
5、在settings中將DOWNLOADER_MIDDLEWARES開啟
6、在spiders目錄下找到gz.py開始編寫爬蟲邏輯處理
1 import scrapy 2 import time 3 4 class GzSpider(scrapy.Spider): 5 name = 'gz' 6 allowed_domains = ['guazi.com'] 7 start_urls = ['https://www.guazi.com/cd/buy/0'] 8 9 def parse(self, response): 10 # 得到頁面上所有車輛的url 11 url_list = response.xpath('//ul[@class="carlist clearfix js-top"]//li/a/@href').extract() 12 url_list = [response.urljoin(url) for url in url_list] 13 url_list = [url.replace("cq", "cd") for url in url_list] 14 for url in url_list: 15 yield scrapy.Request(url=url, callback=self.parse1, dont_filter=True) 16 17 # 獲取下一頁的url 18 next_url = response.urljoin(response.xpath('//span[text()="下一頁"]/../@href').extract_first()) 19 if next_url: 20 yield scrapy.Request(url=next_url, callback=self.parse, dont_filter=True) 21 time.sleep(2) 22 23 def parse1(self, response): 24 # 判斷是否有資料 25 if response.xpath('//h2/text()').extract_first(): 26 print(response.xpath('//h2/text()').extract_first().strip()) 27 item = {} 28 item["車型"] = response.xpath('//h2/text()').extract_first().strip() 29 item["選車型別"] = response.xpath('//h2/span/text()').extract_first() 30 item["價格/萬"] = response.xpath('//div[@class="pricebox js-disprice"]/span[1]/text()').extract_first().strip() 31 item["新車價格"] = response.xpath('//div[@class="pricebox js-disprice"]/span[2]/text()').extract_first().strip() 32 item["上牌時間"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[1]/div/text()').extract_first().strip() 33 item["公里數"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[2]/div/text()').extract_first().strip() 34 item["排量"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[3]/div/text()').extract_first().strip() 35 item["變速箱"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[4]/div/text()').extract_first().strip() 36 item["配置資訊"] = response.xpath('//span[@class="type-gray"]//text()').extract() 37 item["網址"] = response.url 38 yield item
7、啟動爬蟲並儲存為csv檔案
scrapy crawl gz -o guanzi.csvView Code
8、最後得到了想要的二手車資訊,貼上部分截圖
&n