使用爬蟲scrapy庫爬取58同城出租房的聯絡方式地址

阿新 • • 發佈：2018-11-14

一 .建立一個爬蟲工程

　　scrapy startproject tongcheng

　　#建立一隻爬蟲

　　scrapy genspider zufang 域名（xa.58.com/zufang/）

二.配置setting檔案

　　ROBOTSTXT_OBEY = Ture 改為 Fales

　　#列印日誌的檔案

　　LOC_FILE = "zufang.txt"

　　RETRY_ENABLED= True

　　RETAY_TIMES= 0

　　#設定爬取時間

　　DOWNLOAD_DELAY= 3

　　一。#開始定義資料結構

　　　　　　import scrapy


　　　　class CeshiItem(scrapy.Item):
   　　 　　name = scrapy.Field()
    　　　　# 經紀人電話
    　　　　phone = scrapy.Field()
    　　　　# 所在小區
    　　　　address = scrapy.Field()
    　　　　# 房子價格
    　　　　price = scrapy.Field()
　　寫爬蟲檔案

　　import scrapy
　　from ceshi.items import CeshiItem

　　class TongchengSpider(scrapy.Spider): 

    　　name = 'tongcheng'
    　　allowed_domains = ['xa.58.com/zufang']
    　　start_urls = ['https://xa.58.com/zufang/']
    　　#獲取每一頁的url
    　　def start_requests(self):
　　　　　　　　#從第一頁開始爬取到第17頁
        　　for i in range(1,70):
           　　 url = 'https://xa.58.com/zufang/pn{}/'
            　　fururl = url.format(i)
            　　yield scrapy.Request(fururl,callback=self.parse) 

    　　def parse(self, response):
        　　#拼接詳情頁面的url
        　　#print(response.url)
　　　　　　　#因為直接抓包抓取出來的url格式不一樣被處理過。如下

　　　　　　　　#拼接url需要<li logr 裡面的_36065********這段數字拼接
        　　logrs = response.xpath('//li[@logr]/@logr').extract()
        　　list1 = []
        　　for logr in logrs:
　　　　　　　　　　#得到的logr中間有空的list會出錯 #列表的超出索引處理異常
            　　try:
               　　 num = logr.split('_')[3]
                　　list1.append(num)
            　　except:
                　　pass
        　　for i in list1:
            　　url='https://xa.58.com/zufang/{}x.shtml'
            　　fulurl= url.format(i)
　　　　　　　　　　#
            　　yield scrapy.Request(fulurl,callback=self.url_parse, dont_filter=True)

    　　def url_parse(self, response):
        　　# print(response.url)

        　　item = CeshiItem()
        　　#聯絡人名字
        　　item['name'] = response.xpath('//p[@class="agent-name f16 pr"]/a/text()').extract_first().strip('(經紀人)')
        　　#聯絡人電話
        　　item['phone'] = response.xpath('//div[@class="house-chat-phone"]/span/text()').extract_first()
        　　#所在小區
        　　item['address']=response.xpath('//ul[@class="f14"]/li[4]/span/a/text()').extract_first()
        　　#所屬區域
        　　item['area'] = response.xpath('//ul[@class="f14"]/li[5]/span/a/text()').extract_first()

        　　yield item

　　配置管道

　　　　ITEM_PIPELINES = {
   　　　　　　'ceshi.pipelines.CeshiPipeline': 300,
　　　　　　}

　　　　import json

　　　　class CeshiPipeline(object):
    　　　　def open_spider(self,spider):
        　　　　self.fp=open('chuzu.txt','w',encoding='utf8')
    　　　　def process_item(self, item, spider):
        　　　　t = dict(item)
       　　　　 string = json.dumps(t,ensure_ascii=False)
        　　　　self.fp.write(string+'\n')
        　　　　self.fp.flush()
        　　　　return item
    　　　　def close_spider(self,spider):
        　　　　self.fp.close()

　　　#配置ua和ip
#配置ip

class RandomDownloaderMiddleware(object):
    def __init__(self):
        self.ippools_list=[
            '120.92.74.237:3128',
            '120.92.74.189:3128',
            '119.27.177.169:000',
            '218.60.8.99:3129',
            '203.86.26.9:312'
        ]


    def process_request(self, request, spider):
        self.ip = random.choice(self.ippools_list)
        # print('#' * 50)
        # print('當前使用的ip---%s' % self.ip)
        # print('#' * 50)
        request.meta['proxy'] ='http://'+ self.ip
        request.meta['download_timeout'] = 5
    def process_exception(self,request,exception,spider):

        # print('*'*50)
        # print(exception)
        # print('*'*50)
        self.ippools_list.remove(self.ip)
        return request

　　#配置ua

class CeshiDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.
    def __init__(self):
        self.ua_list=[
            'User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60',
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'
        ]

    def process_request(self, request, spider):
        ua=random.choice(self.ua_list)
        # print('*'*50)
        # print('當前使用的ua---%s'% ua)
        # print('*'*50)
        request.headers.setdefault('User-Agent',ua)

使用爬蟲scrapy庫爬取58同城出租房的聯絡方式地址

一 .建立一個爬蟲工程　　scrapy startproject tongcheng 　　#建立一隻爬蟲　　scrapy genspider zufang 域名（xa.58.com/zufang/）二.配置setting檔案

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

scrapy爬取58同城二手房問題與對策

failure 初始 sin 失敗 handler a10 name lba rom 測試環境： win10，單機爬取，scrapy1.5.0，python3.6.4，mongodb，Robo 3T 其他準備：代理池：測試環境就沒有用搭建的flask抓代理，因為我找

Python爬取58同城招聘資訊

微信搜尋關注“程式設計師旅途”公眾號，檢視更多環境要求： (1)python3環境 (2)requests模組：是一個很實用的Python HTTP客戶端庫，安裝指令pip install requests (3)BeautifulSoup模組：提供一些簡單的、pyth

爬取58同城的二手房資訊

給定任意一個58同城的詳情二手房資訊．會遞迴爬取房源下的推薦資訊，直到被封（使用代理ip即可避免） github地址：https://github.com/zhucaidong/house_anqin

python：爬取58同城全部二手商品資訊（轉轉網）

python_58ershou python+beautifulsoup多執行緒爬取58同城二手全部商品資訊，並在jupyter上將資料視覺化專案主程式在58_index中：建立mango資料庫表 #連線MongoDB資料庫 client

Python爬蟲(二)——對開封市58同城出租房數據進行分析

boxplot bsp des das png fig 分析 set 技術出租房面積(area) 　　　　　　　　　出租房價格(price) 　　　　　　

Python爬蟲(三)——開封市58同城出租房決策樹構建

off parent decision second string pre IE for 爬蟲決策樹框架： 1 # coding=utf-8 2 import matplotlib.pyplot as plt 3 4 decisionNode = d

成都58同城快速租房的爬蟲，nodeJS爬蟲

保存自定義租房子 conf flex 找到安裝 req 獲得我個人還是非常奉行 talk is cheap, show me your code 這個理念的。只希望能夠幫助到真正需要的人，幫你快速找到物美價廉的房子。我也是租房子的時候，希望快速找到自己覺得不錯又

爬蟲---------scrapy------瀏覽器爬取（）

# -*- coding: utf-8 -*- import scrapy # from scrapy.linkextractors import LinkExtractor # from scrapy.spiders import CrawlSpider, Rule from Zhilia

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

啟動檔案main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取檔案 # -*- coding: ut

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

提升Scrapy框架爬取數據效率的五種方式

增加快速少量數據設置 coo ror 超時時間產生取數 1、增加並發線程開啟數量　　settings配置文件中，修改CONCURRENT_REQUESTS = 100,默認為32，可適當增加； 2、降低日誌級別　　運行scrapy時會產生大量日誌占用CP

scrapy爬蟲之crawlspide爬取豆瓣近一週同城活動

簡介本文主要介紹crawlspider爬取豆瓣近一週同城活動。要點：item／itemloader利用input_processor/output_processor對爬取的資料進行過濾。實現為了演示資料過濾，我們只爬取到第二頁的資料。一、定

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

mage 通過 -c style settings 一個 arc lec less １．配置信息 # 設置mongo參數 MONGO_URI = ‘localhost‘ MONGO_DB = ‘taobao‘ #　設置搜索關鍵字 KEYWORDS=[‘小米手機‘,‘華為

爬蟲框架Scrapy入門——爬取acg12某頁面

ima 需要 random 代碼定義 ons tps 框架 resp 1.安裝1.1自行安裝python3環境1.2ide使用pycharm1.3安裝scrapy框架2.入門案例2.1新建項目工程2.2配置settings文件2.3新建爬蟲app新建app將start_u

一起學爬蟲——使用xpath庫爬取貓眼電影國內票房榜

之前分享了一篇使用requests庫爬取豆瓣電影250的文章，今天繼續分享使用xpath爬取貓眼電影熱播口碑榜 XPATH語法 XPATH(XML Path Language)是一門用於從XML檔案中查詢資訊的語言。通用適用於從HTML檔案中查詢資料。工欲善其事必先利其器，我們首先來了解XPATH常用的語法

Python爬蟲實戰--58同城二手商品爬蟲

嗚嗚~~本來說今天就把程式碼上傳上來，可惜了，還是有點差錯，今天估計趕不上啦！明天加油吧！今天我們一起來好好分析一下，看看我們該如何去爬去58二手商品。這裡我們分成四步來完成本次任務~ 目標站點分析目標URL：http://bj.58.com/sale.shtml 第一步：主頁分析

使用爬蟲scrapy庫爬取58同城出租房的聯絡方式地址

相關推薦