資料之路- 中國五城市PM2.5資料解讀
PM2.5大家一定都不會陌生,特別是在北京生活的小夥伴們。PM2.5是指大氣顆粒物(PM),其直徑小於或等於2.5微米。在環境科學中,特指懸浮在空氣中的固體顆粒或液滴,是空氣汙染的主要來源之一。
本文旨在探尋中國五大城市的PM2.5指數的資料情況及變化趨勢,發現一些潛在規律並試圖找到和PM2.5相關的一些天氣因素。
資料整理和清洗
文中採用的資料集下載自Kaggle,基礎資料如下:
先使用python對資料集進行了整理,將五張資料表合併為一張表,並刪除暫不分析的資料,然後進行資料清洗,剔除其中為NA的資料。
合併後資料格式如下:
其中 PM_US_Post表示PM2.5的數值,時間精確到小時,使用 year、month、day、hour共同描述,即每一天有24條記錄, 還有一些欄位是專業資料我們會在後面介紹
使用python做了基礎資料整理後,我們再使用Tableau進行視覺化分析展示
我們先來看一下2010年至2015年,這五大城市的PM2.5指數的大體趨勢情況:
上圖可見,截至2015年,五大城市中,以北京PM2.5指數值最高,廣州的PM2.5的指數值最低。
北京、上海、廣州、成都自2013年以來PM2.5指數值都持續有所下降,唯獨瀋陽2013年PM2.5指數升高,目前已經排名第二位。
總體來說PM2.5的指數有所下降,環境問題得到了改善。
上圖可見,在取樣資料基本均勻的情況下,五城市在不同季節呈現出了明顯的差異。
在夏季各地的空氣質量都是比較不錯的,表現最差的北京在夏季PM2.5的平均值也能達到50, 而到了冬季,各地的汙染指數都遠大於夏季,北京的PM2.5均值達到了120。
我們在來看看具體到每月的情況:
PM2.5的分級標準為:
- 優 35微克(ug)/每立方
- 良 35~75微克(ug)/每立方
- 輕度汙染 75~115微克(ug)/每立方
- 中度汙染 115~150微克(ug)/每立方
- 重度汙染 150~250微克(ug)/每立方
- 嚴重汙染 250及以上微克(ug)/每立方
上圖可見,擁有最多優質天氣的城市是廣州,6月份中收穫了29個優質天氣,全年優質天氣最多的月份在九月。而擁有最多嚴重汙染的城市是北京,在12月有8天達到了嚴重汙染。12月也是全年中空氣質量最差的一個月。
既然這樣,我們就試著分析一下,北京的空氣質量這麼差到底與哪些因素有關。
我們先看一下北京全年的PM2.5指數及相關幾個係數的走勢圖:
這裡我們先了解幾個指標係數:
- DEWP: 露點
- TEMP: 溫度
- PRES:氣壓
- cbwd: 組合風向
- Iws: 累積風速
- HUMI:溼度
- precipitation:降水
依據上圖我們簡單可以看出,PM2.5的走勢跟露點、溼度變化的走勢是比較吻合的,而和累計風速則成反向變動。所以我們看在夏季,雖然露點和溼度的曲線變化比較大,但因為風力平穩持續,所以PM2.5曲線平穩。到了冬季大部分日子風力比較弱,PM2.5曲線同露點和溼度曲線變化就非常貼近了。
我們選取1月份PM2.5數值最大的一天,來看看當天的資料變化情況:
上圖可見13時為全天PM指數最高時段,同時露點和溼度也是峰值,而此時風力相對較小。而風力最大時段是在上午8時,此時PM指數全天最小。
PM2.5確實是個很大的課題,專業程度又比較高,基於目前的欄位資訊就先分析到這裡了,期待後續有了更多的知識和技術積累,能分析出更多有意義的觀點了。
ps:CSDN嵌入的Tableau的圖表無法互動,點選圖表下方 互動超連結 可檢視動圖