1. 程式人生 > 其它 >scrapy獲取58同城資料

scrapy獲取58同城資料

1、建立scrapy專案

> scrapy startproject scrapy_58tc

檔案路徑scrapy_58tc\scrapy_58tc

2、找到訪問介面

4、建立爬蟲檔案

scrapy_58tc\scrapy_58tc\spiders> scrapy genspider tchttps://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=jianzhi_B

檔案路徑scrapy_58tc\scrapy_58tc\spiders\spiders

提示遵守robots協議

註釋spider目錄下的settings中的遵守robots協議

ty.py

import scrapy

class TcSpider(scrapy.Spider):
    name = 'tc'
    allowed_domains = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']
    start_urls = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']

    def parse(self, response):
        # 字串
        # content = response.text
# 二進位制資料 # content = response.body # print('===========================') # print(content)      # 獲取列表中的第一元素 span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0] print('=======================')
     #獲取Seletor物件的data屬性值
print(span.extract())
print(span)

執行爬蟲檔案

scrapy_58tc\scrapy_58tc\spiders> scrapy crawl tc

print(span.extract())