python 爬取了租房資料

阿新 • • 發佈：2018-11-16

爬取連結：https://sh.lianjia.com/zufang/

程式碼如下:

import requests
# 用於解析html資料的框架
from bs4 import BeautifulSoup
# 用於操作excel的框架
from xlwt import *
import json

# 建立一個工作
book = Workbook(encoding='utf-8');
# 向表格中增加一個sheet表，sheet1為表格名稱 允許單元格覆蓋
sheet = book.add_sheet('sheet1', cell_overwrite_ok=True)
# 設定樣式
style = XFStyle();
pattern = Pattern();
pattern.pattern = Pattern.SOLID_PATTERN;
pattern.pattern_fore_colour="0x00";
style.pattern = pattern;
# 設定列標題
sheet.write(0, 0, "標題")
sheet.write(0, 1, "地址")
sheet.write(0, 2, "價格")
sheet.write(0, 3, "建築年代")
sheet.write(0, 4, "滿年限")
sheet.write(0, 5, "離地鐵")

# 設定列寬度
sheet.col(0).width = 0x0d00 + 200*50
sheet.col(1).width = 0x0d00 + 20*50
sheet.col(2).width = 0x0d00 + 10*50
sheet.col(3).width = 0x0d00 + 120*50
sheet.col(4).width = 0x0d00 + 1*50
sheet.col(5).width = 0x0d00 + 50*50

# 指定爬蟲所需的上海各個區域名稱
citys = ['pudong', 'minhang', 'baoshan', 'xuhui', 'putuo', 'yangpu', 'changning', 'songjiang',
         'jiading', 'huangpu', 'jinan', 'zhabei', 'hongkou', 'qingpu', 'fengxian', 'jinshan', 'chongming',
         'shanghaizhoubian']

def getHtml(city):
    url = 'http://sh.lianjia.com/ershoufang/%s/' % city
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    request = requests.get(url=url, headers=headers)
    # 獲取原始碼內容比request.text好，對編碼方式優化好
    respons = request.content
    # 使用bs4模組，對響應的連結原始碼進行html解析，後面是python內嵌的直譯器，也可以安裝使用lxml解析器
    soup = BeautifulSoup(respons, 'html.parser')
    # 獲取類名為c-pagination的div標籤，是一個列表
    pageDiv = soup.select('div .page-box')[0]
    pageData =dict(pageDiv.contents[0].attrs)['page-data'];
    pageDataObj =json.loads(pageData);
    totalPage =pageDataObj['totalPage']
    curPage =pageDataObj['curPage'];
    print(pageData);
    # 如果標籤a標籤數大於1，說明多頁，取出最後的一個頁碼，也就是總頁數
    for i in range(totalPage):
        pageIndex=i+1;
        print(city+"=========================================第 " + str(pageIndex) + " 頁")
        print("\n")
        saveData(city, url, pageIndex);

# 呼叫方法解析每頁資料，並且儲存到表格中
def saveData(city, url, pageIndex):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    urlStr ='%spg%s' % (url, pageIndex);
    print(urlStr);
    html = requests.get(urlStr, headers=headers).content;
    soup = BeautifulSoup(html, 'lxml')
    liList = soup.findAll("li", {"class": "clear LOGCLICKDATA"})
    print(len(liList));
    index=0;
    for info in liList:
        title =info.find("div",class_="title").find("a").text;
        address =info.find("div",class_="address").find("a").text
        flood = info.find("div", class_="flood").text
        subway = info.find("div", class_="tag").findAll("span", {"class", "subway"});
        subway_col="";
        if len(subway) > 0:
            subway_col = subway[0].text;

        taxfree = info.find("div", class_="tag").findAll("span", {"class", "taxfree"});
        taxfree_col="";
        if len(taxfree) > 0:
            taxfree_col = taxfree[0].text;
            
        priceInfo =info.find("div",class_="priceInfo").find("div",class_="totalPrice").text;
        print(flood);
        global row
        sheet.write(row, 0, title)
        sheet.write(row, 1, address)
        sheet.write(row, 2, priceInfo)
        sheet.write(row, 3, flood)
        sheet.write(row, 4,taxfree_col)
        sheet.write(row, 5,subway_col)
        row+=1;
        index=row;

# 判斷當前執行的指令碼是否是該指令碼，如果是則執行
# 如果有檔案xxx繼承該檔案或匯入該檔案，那麼執行xxx指令碼的時候，這段程式碼將不會執行
if __name__ == '__main__':
    # getHtml('jinshan')
    row=1
    for i in citys:
        getHtml(i)
    # 最後執行完了儲存表格，引數為要儲存的路徑和檔名，如果不寫路徑則默然當前路徑
    book.save('lianjia-shanghai.xls')

如下圖：

思路是：

先爬取每個區域的 url 和名稱，跟主 url 拼接成一個完整的 url，迴圈 url 列表，依次爬取每個區域的租房資訊。
在爬每個區域的租房資訊時，找到最大的頁碼，遍歷頁碼，依次爬取每一頁的二手房資訊。

post 程式碼之前，先簡單講一下這裡用到的幾個爬蟲 Python 包：

requests：是用來請求對鏈家網進行訪問的包。
lxml：解析網頁，用 Xpath 表示式與正則表示式一起來獲取網頁資訊，相比 bs4 速度更快。

程式碼如下：

import requests 
import time 
import re 
from lxml import etree 
 
# 獲取某市區域的所有連結 
def get_areas(url): 
    print('start grabing areas') 
    headers = { 
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'} 
    resposne = requests.get(url, headers=headers) 
    content = etree.HTML(resposne.text) 
    areas = content.xpath("//dd[@data-index = '0']//div[@class='option-list']/a/text()") 
    areas_link = content.xpath("//dd[@data-index = '0']//div[@class='option-list']/a/@href") 
    for i in range(1,len(areas)): 
        area = areas[i] 
        area_link = areas_link[i] 
        link = 'https://bj.lianjia.com' + area_link 
        print("開始抓取頁面") 
        get_pages(area, link) 
 
#通過獲取某一區域的頁數，來拼接某一頁的連結 
def get_pages(area,area_link): 
    headers = { 
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'} 
    resposne = requests.get(area_link, headers=headers) 
    pages =  int(re.findall("page-data=\'{\"totalPage\":(\d+),\"curPage\"", resposne.text)[0]) 
    print("這個區域有" + str(pages) + "頁") 
    for page in range(1,pages+1): 
        url = 'https://bj.lianjia.com/zufang/dongcheng/pg' + str(page) 
        print("開始抓取" + str(page) +"的資訊") 
        get_house_info(area,url) 
 
#獲取某一區域某一頁的詳細房租資訊 
def get_house_info(area, url): 
    headers = { 
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'} 
    time.sleep(2) 
    try: 
        resposne = requests.get(url, headers=headers) 
        content = etree.HTML(resposne.text) 
        info=[] 
        for i in range(30): 
            title = content.xpath("//div[@class='where']/a/span/text()")[i] 
            room_type = content.xpath("//div[@class='where']/span[1]/span/text()")[i] 
            square = re.findall("(\d+)",content.xpath("//div[@class='where']/span[2]/text()")[i])[0] 
            position = content.xpath("//div[@class='where']/span[3]/text()")[i].replace(" ", "") 
            try: 
                detail_place = re.findall("([\u4E00-\u9FA5]+)租房", content.xpath("//div[@class='other']/div/a/text()")[i])[0] 
            except Exception as e: 
                detail_place = "" 
            floor =re.findall("([\u4E00-\u9FA5]+)\(", content.xpath("//div[@class='other']/div/text()[1]")[i])[0] 
            total_floor = re.findall("(\d+)",content.xpath("//div[@class='other']/div/text()[1]")[i])[0] 
            try: 
                house_year = re.findall("(\d+)",content.xpath("//div[@class='other']/div/text()[2]")[i])[0] 
            except Exception as e: 
                house_year = "" 
            price = content.xpath("//div[@class='col-3']/div/span/text()")[i] 
            with open('鏈家北京租房.txt','a',encoding='utf-8') as f: 
                f.write(area + ',' + title + ',' + room_type + ',' + square + ',' +position+ 
','+ detail_place+','+floor+','+total_floor+','+price+','+house_year+'\n') 
 
            print('writing work has done!continue the next page') 
 
    except Exception as e: 
        print( 'ooops! connecting error, retrying.....') 
        time.sleep(20) 
        return get_house_info(area, url) 
 
 
def main(): 
    print('start!') 
    url = 'https://bj.lianjia.com/zufang' 
    get_areas(url) 
 
 
if __name__ == '__main__': 
    main()

由於每個樓盤戶型差別較大，區域位置比較分散，每個樓盤具體情況還需具體分析

程式碼：

    #北京路段_房屋均價分佈圖 
     
    detail_place = df.groupby(['detail_place']) 
    house_com = detail_place['price'].agg(['mean','count']) 
    house_com.reset_index(inplace=True) 
    detail_place_main = house_com.sort_values('count',ascending=False)[0:20] 
     
    attr = detail_place_main['detail_place'] 
    v1 = detail_place_main['count'] 
    v2 = detail_place_main['mean'] 
     
    line = Line("北京主要路段房租均價") 
    line.add("路段",attr,v2,is_stack=True,xaxis_rotate=30,yaxix_min=4.2, 
        mark_point=['min','max'],xaxis_interval=0,line_color='lightblue', 
        line_width=4,mark_point_textcolor='black',mark_point_color='lightblue', 
        is_splitline_show=False) 
     
    bar = Bar("北京主要路段房屋數量") 
    bar.add("路段",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2, 
        xaxis_interval=0,is_splitline_show=False) 
     
    overlap = Overlap() 
    overlap.add(bar) 
    overlap.add(line,yaxis_index=1,is_add_yaxis=True) 
    overlap.render('北京路段_房屋均價分佈圖.html')

面積&租金分佈呈階梯性

#房源價格區間分佈圖 
price_info = df[['area', 'price']] 
 
#對價格分割槽 
bins = [0,1000,1500,2000,2500,3000,4000,5000,6000,8000,10000] 
level = ['0-1000','1000-1500', '1500-2000', '2000-3000', '3000-4000', '4000-5000', '5000-6000', '6000-8000', '8000-1000','10000以上'] 
price_stage = pd.cut(price_info['price'], bins = bins,labels = level).value_counts().sort_index() 
 
attr = price_stage.index 
v1 = price_stage.values 
 
bar = Bar("價格區間&房源數量分佈") 
bar.add("",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2, 
    xaxis_interval=0,is_splitline_show=False) 
 
overlap = Overlap() 
overlap.add(bar) 
overlap.render('價格區間&房源數量分佈.html')

#房屋面積分佈 
bins =[0,30,60,90,120,150,200,300,400,700] 
level = ['0-30', '30-60', '60-90', '90-120', '120-150', '150-200', '200-300','300-400','400+'] 
df['square_level'] = pd.cut(df['square'],bins = bins,labels = level) 
 
df_digit= df[['area', 'room_type', 'square', 'position', 'total_floor', 'floor', 'house_year', 'price', 'square_level']] 
s = df_digit['square_level'].value_counts() 
 
attr = s.index 
v1 = s.values 
 
pie = Pie("房屋面積分佈",title_pos='center') 
 
pie.add( 
    "", 
    attr, 
    v1, 
    radius=[40, 75], 
    label_text_color=None, 
    is_label_show=True, 
    legend_orient="vertical", 
    legend_pos="left", 
) 
 
overlap = Overlap() 
overlap.add(pie) 
overlap.render('房屋面積分佈.html') 
 
#房屋面積&價位分佈 
bins =[0,30,60,90,120,150,200,300,400,700] 
level = ['0-30', '30-60', '60-90', '90-120', '120-150', '150-200', '200-300','300-400','400+'] 
df['square_level'] = pd.cut(df['square'],bins = bins,labels = level) 
 
df_digit= df[['area', 'room_type', 'square', 'position', 'total_floor', 'floor', 'house_year', 'price', 'square_level']] 
 
square = df_digit[['square_level','price']] 
prices = square.groupby('square_level').mean().reset_index() 
amount = square.groupby('square_level').count().reset_index() 
 
attr = prices['square_level'] 
v1 = prices['price'] 
 
pie = Bar("房屋面積&價位分佈布") 
pie.add("", attr, v1, is_label_show=True) 
pie.render() 
bar = Bar("房屋面積&價位分佈") 
bar.add("",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2, 
    xaxis_interval=0,is_splitline_show=False) 
 
overlap = Overlap() 
overlap.add(bar) 
overlap.render('房屋面積&價位分佈.html')

摘錄:爬取了上萬條租房資料，你還要不要北漂

python 爬取了租房資料

爬取連結：https://sh.lianjia.com/zufang/ 程式碼如下: import requests # 用於解析html資料的框架 from bs4 import BeautifulSoup # 用於操作excel的框架 from xlwt import

通過Python爬取了B站兩千萬用戶資料！險些出事！最好不要商用！

1 前言前兩天閒來無事，花了四五天的時間從B站（bilibili.com）抓取了其 2000萬全部使用者。 2 使用者情況 B站是一個ACG動漫文化很濃厚的場所，與A站（AcFun）共同撐起了中國動漫的一片天。所以使用者嘛…… 不說了，簡單看看我隨便

python爬取北京租房信息

python 爬蟲租房助手發現官網的篩選方式不能滿足自己的需求，所以爬取相關網站制作出現在的東西來效果預覽-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blan

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

利用Python爬取了1600個崗位！原來一個程式設計師的年薪可以這麼高！

Python學了這麼久，相信很多小夥伴都想知道錢途如何，全國各大城市招聘Python的崗位有多少，都招哪些職位，年薪如何等等，我爬取了拉勾近1600個Python相關的職位，我們用資料說話！進群：548377875 即可獲取數十套PDF哦！ &nb

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

Python 爬取 B 站資料分析，宋智孝李光洙誰最受中國粉絲喜愛

作者 | 左伊雅責編 | 胡巍巍《Running Man》是韓國SBS電視臺在《星期天真好》單元

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

從前輩的哪裡用python爬取了日本的愛情電影，打包帶走趕緊跑

小編知道前輩一直的很節省，但是小編不知道前輩看電影裡面的人物也怎麼節省，都沒有錢去買衣服穿，連叫聲的那麼悽慘你，那真的是可憐呀！所以小編決定要做好事不留名的方法，把前輩電影裡面的演員穿上衣服。所以第一步就是怎麼從前輩哪裡爬取到電影，再偷偷的換了。哈哈哈我佛慈悲。Tokyo真的有那麼hot？

Python 爬取 Yahoo! Finance 資料問題總結

在《Python for Data Analysis》的第五章 Pandas 入門中，有一段分析 Yahoo! Fiannce 的股票價格和成交量的程式碼，此程式碼年代已久，如果照寫，根本不能正確執行，本篇文章總結了我遇到的幾個問題，以及解決辦法。 import

利用Python爬取朋友圈資料，爬到你開始懷疑人生

人生最難的事是自我認知，用Python爬取朋友圈資料，讓我們重新審視自己，審視我們周圍的圈子。文：朱元祿（@資料分析－jacky）哲學的兩大問題：1、我是誰？2、我們從哪裡來？本文 jacky試圖用Python，資料化、聚類化我們的人格標籤，試圖回答"我是誰?

Python爬取天氣預報資料，並存入到本地EXCEL中

近期忙裡偷閒，搞了幾天python爬蟲，基本可以實現常規網路資料的爬取，比如糗事百科、豆瓣影評、NBA資料、股票資料、天氣預報等的爬取，整體過程其實比較簡單，有一些HTML+CSS+DOM樹等知識就很easy，我就以天氣預報資料的爬取為例，整理出來。需求：採

小心Python爬取了你的微信隱私！用Python分析了數千個微信暱稱後，發現了這些祕密！

01 Let's get it 1. 基本資訊獲取訪問英文取名的使用者基本信介面，獲取英文取名使用者微信名（NickName）、訪問次數（Count）、總資料集（ResponseData），並將微信名存入檔案。 # 獲取所有使用

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

Python爬取Json格式資料並讀寫（改中文編碼）

Python Json檔案讀寫經過測試發現，req.json()返回的型別是dict（字典型別）如果有興趣的話，可以再加一個正則表示式來篩選出url的關鍵名字，用關鍵名來做檔名。

用Python爬取了考研吧1000條帖子，原來他們都在討論這些！

寫在前面考研在即，想多瞭解考研er的想法，就是去找學長學姐或者去網上搜索，貼吧就是一個好地方。而藉助強大的工具可以快速從網路魚龍混雜的資訊中得到有價值的資訊。雖然網上有很多爬取百度貼吧的教程和例子，但是貼吧規則更新快，目的不一樣，爬取的內容也不一樣，所以就有了這個工具。目的爬取1000條帖子→判斷是

用Python爬取了三大相親軟體評論區，結果...

> 小三：怎麼了小二？一副愁眉苦臉的樣子。 ![](https://img2020.cnblogs.com/blog/1497257/202012/1497257-20201207193234263-1305287858.jpg) > 小二：唉！這不是快過年了嗎，家裡又催相親了 ... ![](http

python爬取股票最新資料並用excel繪製樹狀圖

大家好，最近大A的白馬股們簡直跌媽不認，作為重倉了抱團白馬股基金的養雞少年，每日那是一個以淚洗面啊。不過從金融界最近一個交易日的大盤雲圖來看，其實很多中小股還是紅色滴，綠的都是白馬股們。以下截圖來自金融界網站-大盤雲圖：那麼，今天我們試著用python爬取最近交易日的股

Python爬取數萬條北京租房資料，從6個維度揭穿房租瘋漲的祕密！！！

導讀：昨天還幻想海邊別墅的年輕人，今天可能開始對房租絕望了。 8月初，有網友在“水木論壇”發帖控訴長租公寓加價搶房引起關注。據說，一名業主打算出租自己位於天通苑的三居室，預期租金7500元/月，結果被二方中介互相擡價，

如何使用Python爬取資料？看完這篇文章你就懂了！

前段時間小編髮了一篇有關於Python資料型別的文章，由於只是介紹了資料型別，我覺得遠遠不夠，所以呢我現在寫一篇用Python爬取資料的文章來補充。首先我會介紹如何使用scrapy抓取二手房資料，然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料，感興趣的朋友可

python 爬取了租房資料

相關推薦