scrapy獲取58同城資料
阿新 • • 發佈:2021-11-13
1、建立scrapy專案
> scrapy startproject scrapy_58tc
檔案路徑scrapy_58tc\scrapy_58tc
2、找到訪問介面
4、建立爬蟲檔案
scrapy_58tc\scrapy_58tc\spiders> scrapy genspider tchttps://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=jianzhi_B
檔案路徑scrapy_58tc\scrapy_58tc\spiders\spiders
提示遵守robots協議
註釋spider目錄下的settings中的遵守robots協議
ty.py
import scrapy class TcSpider(scrapy.Spider): name = 'tc' allowed_domains = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91'] start_urls = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91'] def parse(self, response): # 字串 # content = response.text# 二進位制資料 # content = response.body # print('===========================') # print(content) # 獲取列表中的第一元素 span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0] print('=======================')
#獲取Seletor物件的data屬性值 print(span.extract())
print(span)
執行爬蟲檔案
scrapy_58tc\scrapy_58tc\spiders> scrapy crawl tc
print(span.extract())