用Python告訴你深圳房租有多高,做程式設計師真的買得起嘛
概述
前言
統計結果
爬蟲技術分析
爬蟲程式碼實現
爬蟲分析實現
後記
前言
最近各大一二線城市的房租都有上漲,究竟整體上漲到什麼程度呢?我們也不得而知,於是乎 zone 為了一探究竟,便用 Python 爬取了房某下的深圳的租房資料,以下是本次的樣本資料:
樣本資料
除去【不限】的資料(因為可能會與後面重疊),總資料量為 16971 ,其中後半部分地區資料量偏少,是由於該區房源確實不足。因此,此次調查也並非非常準確,權且當個娛樂專案,供大家觀賞。
統計結果
我們且先看統計結果,然後再看技術分析。
深圳房源分佈:(按區劃分)
其中福田與南山的房源分佈是最多的。但這兩塊地的房租可是不菲啊。
房源分佈
房租單價:(每月每平方米單價 -- 平均數)
即是 1 平方米 1 個月的價格。方塊越大,代表價格越高。
房租單價:平方米/月
可以看出福田與南山是獨佔鰲頭,分別是 114.874 與 113.483 ,是其他地區的幾倍。如果租個福田 20 平方的房間:
114.874 x 20 = 2297.48
再來個兩百的水電、物業:
2297.48 + 200 = 2497.48
我們節儉一點來算的話,每天早餐 10 塊,中午 25 塊,晚飯 25 塊:
2497.48 + 50 x 30 = 3997.48
是的,僅僅是活下來就需要 3997.48 塊。
隔斷時間下個館子,每個月買些衣服,交通費,談個女朋友,與女朋友出去逛街,妥妥滴加個 3500
3997.48 + 3500 = 7497.48
給爸媽一人一千:
7497.48 + 2000 = 9497.48
月薪一萬妥妥滴,變成了月光族。
房租單價:(每日每平方米單價 -- 平均數)
即是 1 平方米 1 天的價格。
租房單價:平方米/日
以前在鄉下沒有寸土寸金的感覺,那麼可以到北上廣深體驗一下,福田區每平方米每天需要 3.829 元。[捂臉]
戶型
戶型主要以 3 室 2 廳與 2 室 2 廳為主。與小夥伴抱團租房是最好的選擇了,不然與不認識的人一起合租,可能會發生一系列讓你不舒服的事情。字型越大,代表戶型數量越多。
戶型
租房面積統計
其中 30 - 90 平方米的租房佔大多數,如今之計,也只能是幾個小夥伴一起租房,抱團取暖了。
租房面積統計
租房描述詞雲
這是爬取的租房描述,其中字型越大,標識出現的次數越多。其中【精裝修】佔據了很大的部分,說明長租公寓也佔領了很大一部分市場。
租房描述
爬蟲思路
先爬取房某下深圳各個板塊的資料,然後存進 MongoDB 資料庫,最後再進行資料分析。
各個板塊
資料庫部分資料:
/* 1 */{"_id": ObjectId("5b827d5e8a4c184e63fb1325"),"traffic":"距沙井電子城公交站約567米。",//交通描述 "address":"寶安-沙井-名豪麗城",//地址 "price":3100,//價格 "area":110,//面積 "direction":"朝南\r\n ",//朝向 "title":"沙井 名豪麗城精裝三房 傢俬齊拎包住 高層朝南隨時看房",//標題 "rooms":"3室2廳",//戶型 "region":"寶安"//地區 }
爬蟲技術分析
請求庫:requests
HTML 解析:BeautifulSoup
詞雲:wordcloud
資料視覺化:pyecharts
資料庫:MongoDB
資料庫連線:pymongo
爬蟲程式碼實現
首先右鍵網頁,檢視頁面原始碼,找出我們要爬取得部分。
原始碼
程式碼實現,由於篇幅原因只展示主要程式碼:(獲取一個頁面的資料)
def getOnePageData(self, pageUrl, reginon="不限"): rent = self.getCollection(self.region) self.session.headers.update({'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})res= self.session.get( pageUrl ) soup = BeautifulSoup(res.text,"html.parser") divs = soup.find_all("dd", attrs={"class":"info rel"}) # 獲取需要爬取得 divfordiv in divs:ps= div.find_all("p")try: # 捕獲異常,因為頁面中有些資料沒有被填寫完整,或者被插入了一條廣告,則會沒有相應的標籤,所以會報錯forindex,pin enumerate(ps): # 從原始碼中可以看出,每一條p標籤都有我們想要的資訊,故在此遍歷p標籤, text =p.text.strip()print(text) # 輸出看看是否為我們想要的資訊print("===================================") # 爬取並存進 MongoDB 資料庫 roomMsg =ps[1].text.split("|") # rentMsg 這樣處理是因為有些資訊未填寫完整,導致物件報空 area = roomMsg[2].strip()[:len(roomMsg[2]) -2] rentMsg = self.getRentMsg(ps[0].text.strip(), roomMsg[1].strip(),int(float(area)),int(ps[len(ps) -1].text.strip()[:len(ps[len(ps) -1].text.strip()) -3]),ps[2].text.strip(),ps[3].text.strip(),ps[2].text.strip()[:2], roomMsg[3], ) rent.insert(rentMsg) except:continue
資料分析實現
資料分析:
# 求一個區的房租單價(平方米/元) defgetAvgPrice(self, region):areaPinYin = self.getPinyin(region=region) collection = self.zfdb[areaPinYin] totalPrice = collection.aggregate([{'$group': {'_id':'$region','total_price': {'$sum':'$price'}}}]) totalArea = collection.aggregate([{'$group': {'_id':'$region','total_area': {'$sum':'$area'}}}]) totalPrice2 = list(totalPrice)[0]["total_price"] totalArea2 = list(totalArea)[0]["total_area"]returntotalPrice2 / totalArea2# 獲取各個區 每個月一平方米需要多少錢 defgetTotalAvgPrice(self):totalAvgPriceList = [] totalAvgPriceDirList = []forindex, regioninenumerate(self.getAreaList()): avgPrice = self.getAvgPrice(region) totalAvgPriceList.append(round(avgPrice,3)) totalAvgPriceDirList.append({"value": round(avgPrice,3),"name": region +" "+ str(round(avgPrice,3))})returntotalAvgPriceDirList# 獲取各個區 每一天一平方米需要多少錢 defgetTotalAvgPricePerDay(self):totalAvgPriceList = []forindex, regioninenumerate(self.getAreaList()): avgPrice = self.getAvgPrice(region) totalAvgPriceList.append(round(avgPrice /30,3))return(self.getAreaList(), totalAvgPriceList)# 獲取各區統計樣本數量 defgetAnalycisNum(self):analycisList = []forindex, regioninenumerate(self.getAreaList()): collection = self.zfdb[self.pinyinDir[region]] print(region) totalNum = collection.aggregate([{'$group': {'_id':'','total_num': {'$sum':1}}}]) totalNum2 = list(totalNum)[0]["total_num"] analycisList.append(totalNum2)return(self.getAreaList(), analycisList)# 獲取各個區的房源比重 defgetAreaWeight(self):result = self.zfdb.rent.aggregate([{'$group': {'_id':'$region','weight': {'$sum':1}}}]) areaName = [] areaWeight = []foriteminresult:ifitem["_id"]inself.getAreaList(): areaWeight.append(item["weight"]) areaName.append(item["_id"]) print(item["_id"]) print(item["weight"])# print(type(item)) return(areaName, areaWeight)# 獲取 title 資料,用於構建詞雲 defgetTitle(self):collection = self.zfdb["rent"] queryArgs = {} projectionFields = {'_id':False,'title':True}# 用字典指定需要的欄位 searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000) content =''forresultinsearchRes: print(result["title"]) content += result["title"]returncontent# 獲取戶型資料(例如:3 室 2 廳) defgetRooms(self):results = self.zfdb.rent.aggregate([{'$group': {'_id':'$rooms','weight': {'$sum':1}}}]) roomList = [] weightList = []forresultinresults: roomList.append(result["_id"]) weightList.append(result["weight"])# print(list(result)) return(roomList, weightList)# 獲取租房面積 defgetAcreage(self):results0_30 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':0,'$lte':30}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results30_60 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':30,'$lte':60}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results60_90 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':60,'$lte':90}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results90_120 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':90,'$lte':120}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results120_200 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':120,'$lte':200}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results200_300 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':200,'$lte':300}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results300_400 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':300,'$lte':400}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results400_10000 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt':300,'$lte':10000}}}, {'$group': {'_id':'','count': {'$sum':1}}} ]) results0_30_ = list(results0_30)[0]["count"] results30_60_ = list(results30_60)[0]["count"] results60_90_ = list(results60_90)[0]["count"] results90_120_ = list(results90_120)[0]["count"] results120_200_ = list(results120_200)[0]["count"] results200_300_ = list(results200_300)[0]["count"] results300_400_ = list(results300_400)[0]["count"] results400_10000_ = list(results400_10000)[0]["count"] attr = ["0-30平方米","30-60平方米","60-90平方米","90-120平方米","120-200平方米","200-300平方米","300-400平方米","400+平方米"] value = [ results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_ ]return(attr, value)
資料展示:
# 展示餅圖 defshowPie(self, title, attr, value):frompyechartsimportPie pie = Pie(title) pie.add("aa", attr, value, is_label_show=True) pie.render()# 展示矩形樹圖 defshowTreeMap(self, title, data):frompyechartsimportTreeMap data = data treemap = TreeMap(title, width=1200, height=600) treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19) treemap.render()# 展示條形圖 defshowLine(self, title, attr, value):frompyechartsimportBar bar = Bar(title) bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,# xaxis_interval=0, xaxis_label_textsize=9, legend_text_size=18, label_text_color=["#000"]) bar.render()# 展示詞雲 defshowWorkCloud(self, content, image_filename, font_filename, out_filename):d = path.dirname(__name__)# content = open(path.join(d, filename), 'rb').read() # 基於TF-IDF演算法的關鍵字抽取, topK返回頻率最高的幾項, 預設值為20, withWeight # 為是否返回關鍵字的權重 tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False) text =" ".join(tags)# 需要顯示的背景圖片 img = imread(path.join(d, image_filename))# 指定中文字型, 不然會亂碼的 wc = WordCloud(font_path=font_filename, background_color='black',# 詞雲形狀, mask=img,# 允許最大詞彙 max_words=400,# 最大號字型,如果不指定則為影象高度 max_font_size=100,# 畫布寬度和高度,如果設定了msak則不會生效 # width=600, # height=400, margin=2,# 詞語水平擺放的頻率,預設為0.9.即豎直襬放的頻率為0.1 prefer_horizontal=0.9) wc.generate(text) img_color = ImageColorGenerator(img) plt.imshow(wc.recolor(color_func=img_color)) plt.axis("off") plt.show() wc.to_file(path.join(d, out_filename))# 展示 pyecharts 的詞雲 defshowPyechartsWordCloud(self, attr, value):frompyechartsimportWordCloud wordcloud = WordCloud(width=1300, height=620) wordcloud.add("", attr, value, word_size_range=[20,100]) wordcloud.render()
後記
最近還真是挺多事情發生的,房租的暴漲,其實是資本力量進駐了租房市場。自如、蛋殼這些長租公寓,相互擡高房租價格,而且讓客戶籤第三方貸款協議,前期發展可能需要一點錢,但是到後期壟斷市場之後,只要住房剛需在,就不會賺不回錢。最後,應對外界條件的變動,我們還是應該提升自己的硬實力,這樣才能提升自己的生存能力。