1. 程式人生 > >機器學習——特徵工程之子集搜尋與評價

機器學習——特徵工程之子集搜尋與評價

一、前言

1、特徵:描述目標物件的屬性

2、特徵型別

    a) 相關特徵:對於當前學習任務有用的屬性,即與目標物件非常相關的特徵

    b) 無關特徵:對於當前學習任務無用的屬性,即與目標物件無關的特徵

    c) 冗餘特徵:其包含的資訊可通過其它特徵推演

3、特徵選擇:從給定的特徵集合中選擇出相關特徵子集的過程

4、特徵選擇的理由

    a) 緩解維數災難問題,該動機類似於特徵降維

    b) 去除不相關特徵往往會降低學習任務的難度

二、子集搜尋與評價

1、背景:從初始特徵集合中選取一個包含了所有重要資訊的特徵子集,若沒有任何領域知識作為先驗假設,那就只好遍歷所有可能子集,可能遭遇組合爆炸

2、解決方式:產生“候選子集”並對其進行評價,基於評價結果產生下一個候選子集,重複以上操作直到無法找到更好的候選子集

3、子集搜尋(貪心搜尋減少計算,尋找區域性最優而非全域性)

    a) 前向搜尋:將每個特徵看作一個候選子集,逐漸增加相關特徵的策略

    b) 後向搜尋:從完整的特徵集合開始,逐漸減少無關特徵的策略

    c) 雙向搜尋:結合前向和後向,每輪增加選定相關特徵,同時減少無關特徵

4、  子集評價:常用資訊增益評價子集,類似決策樹(可用來做特徵選擇)

5、  特徵選擇 = 子集搜尋機制 + 子集評價機制

6、  常見特徵選擇方法大致分類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)

相關推薦

機器學習——特徵工程子集搜尋評價

一、前言 1、特徵:描述目標物件的屬性 2、特徵型別     a) 相關特徵:對於當前學習任務有用的屬性,即與目標物件非常相關的特徵     b) 無關特徵:對於當前學習任務無用的屬性,即與目標物件無關的特徵     c) 冗餘特徵:其包含的資訊可通過其它特徵推演 3、特徵

機器學習特徵工程特徵抽取

1.資料集 資料集是特徵抽取的源資料。常用資料集的結構組成:特徵值+目標值。 資料中對於特徵的處理 pandas:一個數據讀取非常方便以及基本的處理格式的工具。 sklearn:對於特徵的處理提供了強大的介面。 2.資料的特徵工程 2

機器學習特徵工程特徵預處理

特徵預處理是什麼? 通過特定的統計方法(數學方法)講資料轉換成演算法要求的資料。 數值型資料: 歸一化 標準化 缺失值 類別型資料:one-hot編碼 時間型別:時間的切分 特徵選擇的意義 在對資料進行異常值、缺失值、資料轉換等處理後,我們

機器學習特徵選擇卡方檢驗互資訊

by wangben  @ beijing 特徵選擇的主要目的有兩點: 1.      減少特徵數量提高訓練速度,這點對於一些複雜模型來說尤其重要 2.      減少noisefeature以提高模型在測試集上的準確性。一些噪音特徵會導致模型出現錯誤的泛化(genera

機器學習特徵工程總結

一、前言 資料清洗: 不可信的樣本去除 缺失值極多的欄位考慮去除 補齊缺失值 資料取樣:很多情況下,正負樣本是不均衡的,大多數模型對正負樣本是敏感的(比如LR) 正樣本>>負樣本,且量都挺大:下采樣 正樣本>>負

機器學習--特徵工程1--標準化

  sklearn.preprocessing https://scikit-learn.org/stable/modules/preprocessing.html 結合sklearn來學習一下資料的預處理過程: 安裝  pip install -U scikit

機器學習--特徵工程0

之前面試遇到過好幾次特徵工程的理解,學習一下特徵工程系列知識 參考地址: https://www.cnblogs.com/peizhe123/p/7412364.html https://scikit-learn.org/stable/modules/preprocessing.html

機器學習——特徵工程和文字特徵工程提取

機器學習的資料:檔案csv 可用的資料集: scikit-learn  :資料量小,方便學習 kaggle: 大資料競賽平臺,真實資料,資料量巨大 UCI:收錄了360個數據集,覆蓋科學、生活、經濟等領域,資料量幾十萬 常用資料集資料的結構組成

機器學習+特徵工程vs深度學習—如何選擇

對於資料探勘和處理類的問題,使用一般的機器學習方法,需要提前做大量的特徵工程工作,而且特徵工程的好壞會在很大程度上決定最後效果的優劣(也就是常說的一句話:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已)。 使用深度學習的話,特徵工程就沒那麼重

BAT機器學習特徵工程工作經驗總結(一)如何解決資料不平衡問題(附python程式碼)

很多人其實非常好奇BAT裡機器學習演算法工程師平時工作內容是怎樣?其實大部分人都是在跑資料,各種map-reduce,hive SQL,資料倉庫搬磚,資料清洗、資料清洗、資料清洗,業務分析、分析case、找特徵、找特徵…而複雜的模型都是極少數的資料科學家在做。例

機器學習--特徵工程1

之前面試遇到過好幾次特徵工程的理解,學習一下特徵工程系列知識 參考地址: 1.特徵工程定義 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。最大限度地從原始資料中提取特徵以供演算法和模型使用 特徵工程主要知識點如下所示: 2.sk

機器學習 特徵工程 特徵離散化

如果想深入研究特徵離散化,請直接閱讀博文最後的英文文獻,以免浪費您的時間! 一、什麼是特徵離散化 簡單的說,就是把連續特徵分段,每一段內的原始連續特徵無差別的看成同一個新特徵 二、為什麼進行離散化 1、離散化的特徵更易於理解 2、離散化的特徵能夠提高模

【Trick】機器學習特徵工程處理(一)

前言 機器學習特徵工程處理系列部落格為博主學習相關視訊教程以及結合平時接觸到的特徵工程處理方法,總結出的一些處理技巧,本篇部落格介紹資料格式化、資料清洗、資料取樣等,我在之前有總結過一篇部落格介紹資料預處理的常用方法,對其中的部分操作有涉及,如有需要,可參考本

機器學習特徵工程

2018/3/15更新結合KAGGLE競賽經驗、演算法面試情況和jasonfreak的總結,個人總結出以下機器學習特徵處理的方法;分享給大家,希望對大家有幫助特徵使用方案:1、要實現我們目標,需要什麼資料----結合特定業務,具體情況具體分析              2、資

機器學習 特徵工程

本文聊一聊機器學習的大致過程,探討下機器學習中常見的問題。本文藉助了廣告CTR預估這條主線,大概流程及內容如圖所示: 詳細參見此博文 1.想特徵 想特徵主要靠一些經驗,這些經驗可能來源於以前做過的專案、特徵選擇、特徵構建等一些實踐或知識。大概的方向是想出

[機器學習] 特徵工程總結

目錄 1 特徵工程是什麼? 2 資料預處理   2.1 無量綱化     2.1.1 標準化     2.1.2 區間縮放法     2.1.3 標準化與歸一化的區別   2.2 對定量特徵二值化   2.3 對定性特徵啞編碼   2.4 缺失值計算   2.5 資料變換

機器學習特徵工程——給任意屬性增加任意次方的全組合

在機器學習中,我們時常會碰到需要給屬性增加欄位的情況。譬如有x、y兩個屬性,當結果傾向於線性時,我們可以很簡單的通過線性迴歸得到模型。但很多時候,線性(在數學上稱為多元一次方程),線性是擬合不了結果的。往往,我們就需要在給定的幾個屬性上,通過增加屬性來嘗試能否擬合。那麼原本只

機器學習-特徵工程-Missing value和Category encoding

好了,大家現在進入到機器學習中的一塊核心部分了,那就是特徵工程,洋文叫做Feature Engineering。實際在機器學習的應用中,真正用於演算法的結構分析和部署的工作只佔很少的一部分,相反,用於特徵工程的時間基本都佔70%以上,因為是實際的工作中,絕大部分的資料都是非標資料。因而這一塊的內容是非常重要和

機器學習-特徵工程-Feature generation 和 Feature selection

概述:上節咱們說了特徵工程是機器學習的一個核心內容。然後咱們已經學習了特徵工程中的基礎內容,分別是missing value handling和categorical data encoding的一些方法技巧。但是光會前面的一些內容,還不足以應付實際的工作中的很多情況,例如如果咱們的原始資料的feature

人工智能機器學習的不同

沒有 機器學習 決定 深度學習 支持向量 傳統 模擬 性能 處理 人工智能早已不是一個新名詞,它的發展歷史已經有幾十年。從80年代早期開始,當時計算機科學家設計出可以學習和模仿人類行為的算法。在學習方面,最重要的算法是神經網絡,但由於模型過於強大,沒有足夠的數據支持,導致不