1. 程式人生 > 其它 >22/3/15

22/3/15

Korattur Lake技術報告

資料描述

地理位置資訊

Korattur 是欽奈的西部郊區,北部與 Madhananguppam 接壤,東部與 Kolathur 接壤,西部與 Pattaravakkam/Ambattur 接壤,南部與 Padi 接壤。該地區擁有廣闊的 Korattur 湖,如今其面積可能在 600-990 英畝之間變化。這可以很容易地被命名為城市西部最大的湖泊之一,但實際上卻被忽視了,更糟糕的是,嚴重受害。正式地,它屬於公共工程部的 Kosasthalaiyar 部門和蒂魯瓦盧爾行政區的限制。連線該湖與其他水體的運河是該地區曾經盛行的農業實踐的遺蹟。有兩條主要運河 - 一條從 Ambattur 湖引出,吸收多餘的水併為 Korattur 湖(位於南部)供水;另一個跑到 Retteri 湖,從 Korattur 湖(位於北部)排出多餘的水。第一條運河現已封堵,顯然是為了防止工業廢水進入湖中,並在季風中機械地破壞以防止鄰近地區發生洪水。城市規劃可以很好地放在我們在進化過程中失去的特徵列表中,這些運河就是證明!而且我們也是可憐的利用者,因為在今天的後農業時代,我們還沒有將這些贈予充分利用。除了這兩條主要運河,

選擇的研究區域是位於欽奈-阿拉科南鐵路線以北的 Korattur 湖。它是城市西部最大的湖泊之一。它是由三個湖泊組成的鏈,包括 Ambattur 湖、Madhavaram 湖和 Korattur 湖 。

水質引數的具體含義

Korattur 湖是欽奈市最大的湖泊之一。它佔地 990 英畝,位於欽奈北部。大約 18 年來,它一直是飲用水的主要來源。我們工作的資料集是從 Korattur 湖收集的。該資料集由連續 10 年以上(2010 年至 2019 年)的水資料組成。該資料集由兩個5,000 條記錄的表格組成,根據水質不同分類方法劃分

從收集的水樣中測量水質引數,如 pH 值、總溶解鹽、濁度、磷酸鹽、硝酸鹽、鐵、化學需氧量、氯化物和鈉


各個水質引數的數值範圍區間

可以將不同水質引數的具體範圍進行柱狀圖的展示,觀察異常值,看數值是否符合正太分佈,是否是一個連續的特徵

資料分為二類(好和壞水樣)和多類(優秀、好、平均、壞和差水樣

WOI水質指標的分類:

根基公式,計算出相應發WOI的值按照等級進行水質的劃分

導致水質惡化的一些汙染物是重金屬,如鉛、鉻、鎘和汞、殺蟲劑、藥物化合物、個人護理產品、芳香胺等新興汙染物,這些汙染物對人體健康有害,因為它們有毒並可能致癌.

技術說明

資料處理辦法

相關性分析:我們進行了相關性分析以提取引數之間的可能關係。可以使用最常用和最有效Pearson 相關

歸一化處理:特別是水質引數,使其在0~100範圍內擬合,便於指標計算

標準縮放:對資料進行縮放,其中值以具有單位標準偏差的平均值為中心

Synthetic Minority Oversampling Technique (SMOTE):對不同種類的記錄分佈不均勻,採過取樣技術進行處理過取樣的公式和解釋

模型

目前看到較多的是,採用機器學習的方法進行水質的預測分析,深度學習模型用於預測水質的準確性、精度和執行時間。具體的演算法模型有Artificial neural network(ANN)、Recurrent neural network(RNN)、Long short term memory(LSTM)還有很多混合模型如ANN-NAR 、CNN-LSTM 、Bi-LSTM

Automating water quality analysis using ML and auto ML techniques

(該篇論文采用的技術和實驗結果,採用Korattur Lake資料集)

Water quality analysis in a lake using deep learning methodology: prediction and validation

(該篇論文采用的技術和實驗結果,採用Korattur Lake資料集)

Water quality assessment of a river using deep learning Bi-LSTM methodology: forecasting and validation

(該篇論文采用的技術和實驗結果,未採用Korattur Lake資料集)

Efficient Water Quality Prediction Using Supervised Machine Learning(尋找最簡單的元素之間的聯絡分析)

進行相關性分析之後,根據關聯性,進行多引數的分析,有四引數和三引數

評價指標

迴歸指標::

準確率,錯誤率,召回率,F1-score,ROC曲線, AUC等指標,

主要的思路

1、對多個特徵進行關聯性分析,分析特性與水質結果WQI的內在聯絡,最後通過實驗加以驗證。改進水質測定的繁瑣性和高額成本,只需要簡單的測定幾個相關的資料,就能確定水質的基礎級別

2、單純的改進演算法,達到更高的預測精準度,更少的時間花費(目前看到的水質分析模型都是些比較經典的模型,初步打算是加入某些新演算法模型的演算法部件,應為水質引數是純數值的引數,具有廣泛是適用性)