1. 程式人生 > 其它 >端到端的特徵轉換示例:使用三元組損失和 CNN 進行特徵提取和轉換

端到端的特徵轉換示例:使用三元組損失和 CNN 進行特徵提取和轉換

雖然大多數的特徵策略都與領域相關,並且必須針對每個應用程式進行專門調整。但特徵工程是操縱原始資料和提取機器學習特徵的過程,探索性資料分析 (EDA) 可以使用特徵工程技術來視覺化資料並在執行機器學習任務之前更好地識別模式和異常值。這是資料科學的重要一步,可以確保特定機器學習應用程式的預期結果。

使用 EDA 和特徵工程的組合具有多種優勢:

  • 提高準確性
  • 減少訓練時間
  • 減少過擬合
  • 簡化模型

特徵工程技術

有多種特徵工程方法可以用於機器學習的各種特定應用和資料型別。這些可以包括:

  • 轉換——縮放或編碼資料以便模型更好地理解
  • 分類編碼
  • 特徵縮放
  • 特徵選擇——挑選出不必要或導致模型準確性降低的特徵
  • 特徵建立——建立從其他特徵中提取或結合的新特徵,以便對模型更有用
  • 特徵提取——通常是某種形式的降維(PCA、ICA 等)
  • 自動編碼器

在典型的機器學習專案中,資料科學家會使用特徵工程技術的組合建立複雜的管道,處理資料併為機器學習做好準備。這個過程通常是機器學習中最繁瑣和最需要技能的部分。

端到端的特徵轉換

複雜特徵工程管道的一個潛在替代方案是端到端的特徵轉換。在端到端方法中,機器學習從原始輸入資料到輸出預測的整個過程是通過一個連續的管道來學習的。端到端管道所需的配置較少,並且可以輕鬆應用於多種形式的資料。但是使用特徵工程的方法可以比端到端方法做得更好,因為它們可以針對特定任務進行更好的調整。

端到端特徵工程方法不會取代 EDA。換句話說,端到端的特徵轉換方法也是一種特徵工程,它使用機器學習模型將原始資料直接轉換為可用於提高模型準確性的資料。此過程幾乎不需要對資料進行預處理,並且可以輕鬆應用於許多領域。

在 Jean-Yves Franceschi 等人的論文“Unsupervised Scalable Representation Learning for Multivariate Time Series”。通過卷積和三元組損失學習資料的表示,並提出了一種端到端的特徵轉換方法,這種使用無監督卷積的方法簡化並應用於各種資料。

簡而言之,他們正在實現一個卷積神經網路,該網路將轉換和提取特徵,然後將其傳送到你選擇的機器學習模型執行預測。經過適當訓練,這個 CNN 將能夠為我們的模型提取重要特徵,並準確執行其給定任務。

完整文章:

https://avoid.overfit.cn/post/0c442306b8164f3c857de9769cc4dd42