拓端tecdat|R語言空氣汙染資料的地理空間視覺化和分析:顆粒物2.5(PM2.5)和空氣質量指數(AQI)
原文連結:http://tecdat.cn/?p=23800
原文出處:拓端資料部落公眾號
介紹
由於空氣汙染對公眾健康的不利影響,人們一直非常關注。世界各國的環境部門都通過各種方法(例如地面觀測網路)來監測和評估空氣汙染問題。全球的地面站及時測量了許多空氣汙染物,例如臭氧、一氧化碳、顆粒物。EPA(環境保護署)提供了空氣汙染資料,本文選擇了顆粒物2.5(PM2.5)和空氣質量指數(AQI)這兩個關鍵變數,以視覺化和分析空氣汙染的趨勢和模式。PM2.5代表直徑小於2.5微米的顆粒物濃度,AQI是綜合考慮所有主要汙染物的空氣汙染狀況的整體指標。具體來說,此工作的資料來源列出如下:
- 監測人員每天的PM 2.5濃度水平和AQI指數資料;
- 縣一級的AQI年度摘要。
資料預處理
每日站點資料包含每個地面站與PM2.5相關的各種屬性。有關站資訊,汙染物的關鍵變數通過以下程式碼從原始資料中過濾掉。重新命名過濾後的資料框的列名,以方便以下分析。
- #匯入資料
- aqi <- read_csv("aqi.csv")
daily<- read_csv("daily.csv")
- names(data) <- c( "date",
- "pm25", "aqi", "long", "lat")
統計摘要
對點級PM2.5濃度和縣級AQI指數的基本統計描述可以幫助更好地理解這兩個變數。在這裡,直方圖和箱形圖用於視覺化PM2.5濃度和AQI的分佈特徵。每日AQI指數可衡量空氣汙染的嚴重程度,可用於根據AQI的值將天數分為不同的類別。就空氣汙染水平而言,通常可以將天氣分為四類,包括良好,中度,不健康和危險。
本報告中使用的縣級AQI資料包括四個類別變數,代表每個類別的天數。下面的程式碼直觀地顯示了四個類別變數的分佈。根據直方圖,大多數縣在整年總體空氣質量良好,這可以通過``良好''分佈的偏斜來表示,``不健康''和``危險''的0天左右的分佈間隔非常窄。此外,``良好''和``中等''的分佈顯示出相反的偏斜,這表明空氣質量中等的日子在全年並不典型,因為``中等''的分佈集中在50天以下,而``良好''的分佈在250天以上。
- ## 縣域內aqi的直方圖
- vi <-
- aqi %>%
- select(`好', `中等', `不健康', `危險') %>%
- ggplot(data = vi )
縣級資料代表空氣汙染的平均水平。來自地面站的PM2.5和AQI的點級測量描述了空氣汙染的詳細情況和當地情況。站級的PM2.5和AQI的分佈如下所示。兩種分佈都顯示出正偏度,AQI聚集在50附近,而PM2.5低於25。在這一年中,很少出現兩個變數都具有高值的站點。
- ## ##AQI和PM2.5的直方圖
- pmaqi %>%
- ggplot(data) +
- geom_histogram(aes(x = value), bins = 35) +
- ggplot(data) +
- geom_boxplot(aes(x =class, y = value))
時間變化
每日資料記錄了2018年監測站點每天的觀測時間序列,可用於探索PM2.5和AQI的趨勢。首先,針對每種資料對每種狀態下站點的測量值求平均。選擇了七個州的時間序列以顯示其一年中的變化,如下所示。從該圖可以看出,南部和西部各州在年初就經歷了嚴重的空氣汙染問題。趨勢曲線的高峰表明,下半年的空氣質量均較差。
- ##按州和日排列
- vis <-
- select(state, date, pm25, aqi) %>%
- group_by(state, date) %>%
- summarise(pm25 = mean(pm25), aqi = mean(aqi)) %>%
- ggplot(data = vis)
為了顯示總體變化,每天彙總來自所有監視的測量值。一年中的總體變化繪製如下。我們可以看到,AQI和PM2.5的變化趨勢顯示出相似的模式,而夏季和冬季的空氣汙染更為嚴重。
- ##按天數計算
- select(date, pm25, aqi) %>%
- group_by(date) %>%
- summarise( mean(pm25), mean(aqi)) %>%
- ggplot(data = vis) +
空間分佈
彙總了針對不同州的縣級AQI指數,以探索每個州的空氣質量的空間變化。下圖通過漸變顏色繪製了變數良好天氣的不同平均值。該地圖顯示了各州空氣質量良好的日子。從地圖上可以看出,北部和東部地區的空氣條件比其他州更好。
- ##按州彙總aqi(區域水平)。
- vis <-
- aqi %>%
- group_by(State) %>%
- ggplot() +
- geom_polygon(aes(x = long, y = lat, group = group, fill = good)
下面還繪製了不健康天數變數的平均值,這證實了以前的觀察結果,即東部各州的空氣條件較好。
- ggplot() +
- geom_polygon(aes(x = long, y = lat, group , fill ),
- scale_fill_distiller
每個站點的站點級別測量值彙總為年平均值。下圖顯示了美國年平均PM2.5濃度的空間分佈。綠色點表示較低的PM2.5濃度。西部的測站測得的PM2.5濃度較高。
- ## 資料的彙總
- ###用於pm2.5
- pmaqi %>%
- summarise(pm25 = mean(pm25), aqi = mean(aqi), long = mean(long), lat = mean(lat)) %>%
- ggplot() +
- geom_polygon(aes(x = long, y = lat, group = group)
AQI可以提供更全面的空氣狀況度量。站點上的點級AQI對映如下。由於AQI考慮了許多典型汙染物,因此與PM2.5的模式相比,AQI的分佈顯示出不同的模式。
- ###aqi指數
- vi<- vi[class == "aqi", ]
- ggplot(vi) +
- geom_polygon(aes(x = long, y = lat, group = group)
結論
本報告利用了空氣汙染資料和R的視覺化,從時空維度探討了空氣汙染的分佈和格局。從資料中可以識別出PM2.5和AQI的時空變化。夏季和冬季均遇到空氣汙染問題。西部和南部的州比北部和東部的州更容易遭受空氣汙染問題。
最受歡迎的見解
7.R語言動態視覺化:製作歷史全球平均溫度的累積動態折線圖動畫gif視訊圖
▍關注我們 【大資料部落】第三方資料服務提供商,提供全面的統計分析與資料探勘諮詢服務,為客戶定製個性化的資料解決方案與行業報告等。 ▍諮詢連結:http://y0.cn/teradat ▍聯絡郵箱:[email protected]