電力竊漏電使用者自動識別(SPSS Modeler)
據統計,全國每年因竊電造成的損失都在200億元左右;被查獲的竊電案件不足總竊電案件的30%。而傳統的用電檢查及反偷查漏工作主要依靠突擊檢查的手段來打擊竊電行為;存在先天性的缺陷和不足。
現有的電力計量自動化系統能夠採集到各相電流、電壓、功率因數等用電負荷資料以及用電異常等終端報警資訊。異常告警資訊和現場稽查來查找出竊漏電使用者,並錄入系統。若能通過這些資料資訊提取出竊漏電使用者的關鍵特徵,構建竊漏電使用者的識別模型,就能自動檢查判斷使用者是否存在竊漏電行為。
我們使用2009年1月1日到2014年12月31日所有竊漏電使用者和正常使用者的用電量、告警及線損資料,以及該使用者是否竊漏電的標誌,共291條記錄,資料詳見“建模資料.csv”。其 中:
電量趨勢下降指標:統計日期前後五天內,當天用電量低於前一天用電量的天數。
線損指標:統計日期後五天線損率的平均值和前五天線損率的平均值,若前者比後者的增長率超過了1%,則指標為1,否則為0。
告警類指標:與竊漏電相關的所有告警次數總和。
目標:構建竊漏電使用者識別模型,能夠應用竊漏電使用者識別模型實現使用者診斷。
具體要求:
1、 進行資料稽核,檢視資料基本情況,繪製各變數分佈圖;
2、 資料預處理階段完成資料型別轉換、異常值查詢與處理、資料變換(將線損指標記錄值內的1轉換為“上升”,0轉換為“下降”);
3、 模型構建過程需要首先將資料分為測試資料和訓練資料,可構建決策樹模型、神經網路模型或其他分類預測模型;
4、 構建模型後完成模型評估,詳細分析預測結果,並對結果加以解釋;
5、 使用模型對新使用者資料“診斷資料.csv”進行竊漏電診斷識別。
[實驗步驟]
1、進行資料稽核,檢視資料基本情況,繪製各變數分佈圖;
通過變數檔案新增資料檔案
繪製各變數分佈圖
2、 資料預處理階段完成資料型別轉換、異常值查詢與處理、資料變換(將線損指標記錄值內的1轉換為“上升”,0轉換為“下降”);
資料型別轉換:將一個型別節點加到目前的流程中,點選“讀取值”,將“線損指標”的測量設定為“分類”,其它不變。
異常值查詢與處理:在型別節點的後加入選擇節點,在選擇框的模式項選擇“丟棄”,點選選擇框的表示式構建器,建立表示式。
在選擇節點後加入資料稽核節點,質量選項,在離群值和極值一欄選擇輸入四分位距的上/下四位數範圍。
執行結果:
質量選項,對於離群值和極值,單擊操作下的具有離群值和極值的變數。在下拉選單中選擇強制,之後點選生成選項的離群值與極值節點,
將超節點連結到資料流中,如下圖所示,並重新連結資料稽核節點。
通過選擇節點的資料流就沒有空值,離群值和極值也被處理掉,
將欄位欄中的“重新分類”節點加入資料流中,雙擊重新分類節點,在”重新分類欄位“選項下拉選單中選擇線損指標,在重新分類為選擇現有欄位,點選獲取按鈕,將線損指標記錄值內的1轉換為“上升”,0轉換為“下降”。
3、 模型構建過程需要首先將資料分為測試資料和訓練資料,可構建決策樹模型、神經網路模型或其他分類預測模型;
在重新分類節點後面加入一個過濾器節點,將認為影響判定結果無關的ID刪除,
建立一個分割槽節點,將80%資料作為訓練,20%資料作為測試,
建立一個決策樹模型 一個c5.0節點與型別節點相連,選擇是否竊漏電做判定目標,其餘做輸出,
點選右上角模型,,所有變數的重要性比較接近,其中是否竊漏電的重要性比較突出,說明這這個屬性在區分使用者是否存在竊電的過程中佔有比較重要的角色。
模型結果下的模型,點選全部,可以看到以規則形式展示的決策樹模型。
4、 構建模型後完成模型評估,詳細分析預測結果,並對結果加以解釋;
將模型與輸出欄目下的分析節點連線,執行節點顯示觀測值與預測值的匹配程度如何的資訊,在節點的引數設定頁面勾選重合矩陣,
分析結果:
所有流程:
5、 使用模型對新使用者資料“診斷資料.csv”進行竊漏電診斷識別。
將新資料集直接新增到原始資料流的起始階段,並在最終的模型後加入一個表格,
執行表格: