1. 程式人生 > >量化投資_連續數據的離散化

量化投資_連續數據的離散化

穩定 單獨 類信息 本質 劃分 不可 離散 spa 實例

1  首先回答:什麽是離散數據?什麽是連續數據?

  統計學中經常會見到離散數據和連續數據或者離散變量或者連續變量,理解這兩種數據的背後含義如下:

  1) continuous variable or discrete variable ; continuous data or discrete data。

  用蘇東坡的一首詩來解釋這個問題最恰當不過了"橫看成林側成峰,遠近高低各不同,不識廬山真面目,只緣身在此山中。"這就是解釋離散型和連續型最好的解釋。

技術分享圖片

      (離散型和連續型的圖示)

  2) 離散數據和連續數據就好比我們轉換坐標,直白點兒講就是換一個角度來觀察同一個事物。比如:橫看成林,樹林都是一顆一顆單個的樹木,但是我們遊走在江上從遠處看這一片森林就成了“遠近高低各不同”的連續山峰了。好比下面的這個坐標。

  技術分享圖片

  下圖就是樹木,一個一個的數據點,這就是離散數據,就是一個一個單獨的點位,自身和左右都沒啥關系。但是我們換一個角度,把他們練成一條曲線,總體觀察他們的變化狀態,就形成了連續數據。

  自比如隨機變量中,我們也可以用這種方式來表示。

技術分享圖片 技術分享圖片

  因此,很容易理解的就是一個概念就是離散是個體關系,連續是總體狀態(當然這裏的總體狀態是觀察他們的趨向規律)。

  3) 因此:世界是連續的,但是物質是離散的。分秒是離散的,時間是連續的。離散是點,連續是線。離散是孤立的,連續是趨向的。本質上來說,所有的連續數據都是離散數據。觀察的角度不同,導致他們所反映的性質也有所不同。離散一般用P,probability概率表示,點對點的關系,連續用f,function函數表示,用函數式表示一連串離散的連續狀態。從極限和導數出發,離散是分而可能再分的事物,從積分出發,連續是這種事物連續的狀態。離散具有隨機性,連續具有規律性。離散是原子、分子、中子、質子等,連續是你看到這些元素組成的世界。

  4) 再不明白,就是一句話:換個角度看看這個世界會更美,就是離散和連續的現實含義。

2  連續數據的離散化的基本概念

  通常情況下我們的樣本或者我們研究的數據,連續這種類型的數據占大多數。觀察起來只能說是:“看上去很美”,很難從這些外表來知道組成某種特征數據的樣子,把他們進行離散化是比較有必要的。“可能你看上去的都是錯的”,這種錯不是真的錯,是不知道數據的本質是由什麽組成的。可能一連串的股票K線圖走勢,每一個數字組成連續的數據,但是不可能取勝,每一個數字背後都有其各種不同的含義,能夠挖掘出來符合某種特征含義的數據從你看到的表面現象中,這才是功力,拋開雜物,還原本質,進行抽象的分解,而不是具象、表象的看東西,這才是真正的智慧

3  基本定義:

  連續屬性離散化就是采取各種方法將連續的區間劃分為小的區間,並將這些連續的小區間與離散值關聯起來。

  連續屬性的離散化的問題本質是:決定選擇多少分割點和確定分割點的位置。

4  連續屬性離散化的目的

  在實際數據庫中存在較多的連續屬性,而現有的很多數據挖掘的算法只能處理離散型的屬性,包括很多時間序列模型的也只能處理離散屬性的數據,因此連續屬性離散化是應用這些算法的前提。此外,有效的離散化能夠減少算法的實際和空間的開銷、提高系統對樣本的聚類能力、增強系統抗數據噪音的能力以及提高算法的學習精度。

5  連續屬性離散化的好處

  * 減少給定連續特征值的個數

  * 相對連續特征更接近於知識層面的表述

  * 離散化的數據更容易理解、使用和解釋!

  * 很多不適用於連續型數據的算法得以適用

  * 可以有效地客服數據中隱藏的缺陷,式模型結果更加穩定、更加魯棒

6  離散化處理的一般過程

  1) 對連續屬性值按照某種指定的規則進行排序

  2) 初步確定連續屬性的劃分斷點

  3) 按照某種給定的判斷標準繼續分割斷點或合並斷點!

  3) 如果第三步得到判定標準的終止條件,則終止整個連續屬性離散化過程,否則繼續按照第三步執行

7  分類

  屬性離散化的方法有很多,基本上可以分為三種:

  1) 無監督離散化和有監督離散化。(supervising discrete and unsupervising discrete)

    在離散化過程中使用類信息的方法是有監督的,而不使用類信息的方法是無監督的。

  2) 全局離散化和局部離散化。

    全局離散化指使用整個樣本空間進行離散化,而局部離散化指在樣本空間的一個區域內進行離散化。

  3) 動態離散化和靜態離散化。動態離散化的方法就是建立分類模型的同時對連續屬性進行離散化,而靜態離散化方法就是在進行分類之前完成離散化處理。

8  舉例:屬性離散化的方法——無監督離散化

  等寬分箱法:將數據均勻劃分成n等份,每份的間距相等。

  等頻分箱法:把觀察點均勻分為N等份,每份包含的觀察點數相同。

  自定義法:根據研究目的,業務需求或數據分布情況進行分段。

  優點:方法簡單,易於操作

  缺點:需要人為的規定劃分區間的個數。

     等寬法對異常點比較敏感,傾向於不均勻的把實例分布到各個箱中。

     等頻法雖然避免了上述問題,卻可能將具有相同類標號的相同特征值分入不同的箱中以滿足箱中數據的固定個數的條件。

*  異常點敏感問題

  離散化前首先設定某個閾值將異常數據移除。

  方法1:

    設定閾值為90%,將數據從小到大排序,移除全部數據的最小5%和最大5%數據。

  方法2:

    設定閾值為90%。將數據從小到大排序,然後對所有數據求和,計算每個數據占總和的比例,移除最大的占比10%的數據。

9  連續屬性的離散化,重要的是特征屬性的尋找,這是最關鍵的因素,對每類離散化的標簽定義的準確與否是連續屬性離散化的關鍵。

量化投資_連續數據的離散化