時間序列聚類演算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解讀
摘要
本文提出了一個新穎的時間序列聚類演算法k-shape,該演算法的核心是迭代增強過程,可以生成同質且較好分離的聚類。該演算法採用標準的互相關距離衡量方法,基於此距離衡量方法的特性,提出了一個計算簇心的方法,在每一次迭代中都用它來更新時間序列的聚類分配。作者通過大量和具有最好距離衡量方法的劃分聚類,分層聚類,譜聚類比較的實驗證明k-shape的魯棒性。總之,k-shape是準確、高效的時間序列演算法。
1.介紹
多數時間序列分析方法,包括聚類演算法,依賴於距離衡量的選擇,當比較兩個序列的時候關鍵的問題是如何處理扭曲問題,這也是時間序列的特徵。理想情況下,基於shape的聚類演算法基於shape相似性將時間序列劃分到同一聚類中,而不是幅度和階段的不同。
由於時間序列的特殊行,更多研究的關注點是距離衡量的創新而不是聚類演算法的創新,因此,時間序列聚類演算法主要依賴於經典的聚類演算法要麼將其中的距離衡量換成適合時間序列的,要麼將時間序列轉換成合適資料從而現有的演算法可以直接使用。但是聚類演算法的選擇影響兩個方面:(i)準確度,因為每個演算法衡量同質和分離的方法不同。(ii)效率,因為方法之間的計算複雜度不同。
現有的基於shape的方法主要有兩個缺陷:(i)這些方法無法擴充套件到大資料集上,因為這些方法計算或者距離衡量耗時。(ii)現有方法的有效性侷限於特定的領域或者資料集。而且這些演算法沒有和經典的如劃分聚類等進行比較。
本文提出的k-shape方法和k-means有些相似但是有明顯的不同,k-shape方法計算簇心的方式以及距離衡量和k-means不同,k-shape在比較的時候儘量保留時間序列的形狀,因此,k-shape需要一個伸縮變換不變性的距離衡量方法。和別的聚類演算法不同,k-shape採用互相關統計方法,基於互相關的特性提出了一個新穎的計算簇心的方法。
為了證明k-shape方法的有效性,作者在48個數據集上進行了大量的實驗並且和現有的時間序列距離衡量和聚類演算法進行比較。時間結果表明:(1)自相關衡量方法比ED優越,而且和現有的限制DTW一樣具有競爭力,但是執行速度更快。(2)k-means方法由於距離衡量方法和簇心計算方法問題而導致效能變差。(3)聚類演算法的選擇和距離衡量一樣重要。(4)k-shape演算法比所有的可擴充套件方法的準確性都好,而且比不可擴充套件方法,除了一個性能相同,準確性要好。但是這些方法需要調整距離衡量方法,並且比k-shape慢。因此,k-shape是高準度而且可擴充套件的時間序列演算法。
2、初步
本部分,首先回顧時間序列中存在的扭曲問題以及距離衡量方法,然後現有的時間序列聚類方法和簇心計算方法。最後闡述關注的問題。
2.2 時間序列距離衡量
最常見的距離衡量即使ED,如下所示:
另一個就是DTW,DTW可以看成是經過非線性校準的ED的拓展,如下圖所示:
2.3 時間序列聚類演算法
基於原資料的方法需要尋找一個適合時間序列的距離衡量方法替代預設的距離衡量方法,相反,基於特徵或者基於模型的方法需要調整特徵或者模型,本文采用的是基於原資料的方法。
3、k-shape聚類演算法
3.1 時間序列相似性