1. 程式人生 > >北京二手房房價資料集分析

北京二手房房價資料集分析

本次分析的資料集來源為鏈家2017年房源資訊。
在資料分析的過程中,我們也可以先去理解資料,再提出問題,在探索資料的過程當中,我們往往會發現很多有趣的事情~
1.提出問題
北京二手房的房價跟哪些因素有關呢?
2.讀取資料,理解資料
匯入資料分析相關工具包
%matplotlib 為魔法函式,之後的資料視覺化過程中,有了它我們就不需要每次都使用plt.show()來顯示圖表了。
在這裡插入圖片描述

用pandas中的read_csv()方法讀取格式為CSV的資料集,並用Head()方法預設檢視前5行。
在這裡插入圖片描述
資料型別分析:

1.數值型:Floor,Price,Size,Year

2.字串型別:Direction,District,Layout,Region,Renovation,Elevato

檢視資料型別以及是否存在缺失值
在這裡插入圖片描述
在這裡插入圖片描述

Elevator 有缺失值

我們可以根據樓層高度判斷是否有電梯,然後進行缺失值的填補。
在這裡插入圖片描述
檢視資料是否有異常值
在這裡插入圖片描述
從這裡我們發現,房屋樓層最高層竟然有57層,價格中最大值有6000萬,而房屋大小中最小的只有2平,這是不符合住房常理的,這就是我們當前發現的異常值,要找到它們並且移除它們。
3.資料處理
建立副本,新增房屋均價新特徵,並以分析方便的方式重新擺放各列
在這裡插入圖片描述
4.特徵分析
分析各區與房價之間的關係:
我們首先按區分類(groupby()方法),各區的住房數量(count()方法),然後再計算按區分類各區的房屋每平均價(mean()方法)。
在這裡插入圖片描述
資料視覺化
在這裡插入圖片描述


在這裡插入圖片描述
在這裡插入圖片描述
觀察資料:
1.海淀區、朝陽區、豐臺區、昌平區的房源較多,平谷、懷柔、密雲房源較少,說明接近市中心的區房源較多,離市中心較遠的區房源較少,也符合常理;
2.西城區、東城區、海淀、朝陽的房價較高,評估、懷柔、密雲房價較低,這與房屋越接近市中心,房價越高。

分析房屋大小與房價之間的關係:
我們通過密度圖和散點圖來分析房屋(Size)特徵
在這裡插入圖片描述
發現問題:
問題1:長尾分佈,有很多面積超出正常範圍的資料;
問題2:大部分資料符合實際情況,價格隨著面積的增大而增大,有異常資料,面積小,價格高。

找出異常點:
我們查詢房屋面積小於10或者大於1000的資料
在這裡插入圖片描述

在這裡插入圖片描述
別墅跟商用房都不是我們要考慮的,所要移除這部分資料。
在這裡插入圖片描述


將異常點移除之後,我們觀察到,房屋的價格隨著房屋面積的增長而增長,呈正相關。

分析房屋佈局的數量
在這裡插入圖片描述
這裡我們觀察發現,房屋佈局為2室1廳的房屋數量最多。

分析房屋價格與裝修型別的關係:
在這裡插入圖片描述
資料視覺化
在這裡插入圖片描述
觀察資料:

1.精裝修和簡裝修房屋數量最多;

2.毛坯房的均價卻最高。

分析有無電梯與房價之間的關係:
檢視資料是否有錯位的現象
在這裡插入圖片描述
資料視覺化
在這裡插入圖片描述
在這裡插入圖片描述
觀察資料:

1.有電梯的房屋數量較多;

2.有電梯的房屋均價較高。

分析房屋總體因素隨時間的變化
在這裡插入圖片描述
這是一個多維圖,點的位置分佈表示隨著時間的增長房屋價格的變化;
點的數量表示隨著時間的增長房屋數量的變化;
點的顏色深淺表示房屋的裝修等級;
點的大小表示是否有電梯。
在這裡插入圖片描述
觀察結果:

(1)整個二手房價格趨勢隨著時間增長,尤其在2000年之後大幅增長;

(2)1980年之前電梯房非常少,毛坯房較多;

(3)1980-2000年之間,簡裝房屋較多,出現電梯房;

(4)2000年之後電梯房較多,精裝房屋較多

分析房屋價格與樓層之間的關係:
在這裡插入圖片描述
資料視覺化
在這裡插入圖片描述
觀察資料:

可以看到,6層二手房數量最多,但是單獨的樓層特徵沒有什麼意義,因為每個小區住房的總樓層數都不一樣,我們需要知道樓層的相對意義。

另外,樓層與文化也有很重要聯絡,比如中國文化七上八下,七層可能受歡迎,房價也貴,而一般也不會有4層或18層。當然,正常情況下中間樓層是比較受歡迎的,價格也高,底層和頂層受歡迎度較低,價格也相對較低。

所以樓層是一個非常複雜的特徵,對房價影響也比較大。