1. 程式人生 > >【ML--05】第五課 如何做特徵工程和特徵選擇

【ML--05】第五課 如何做特徵工程和特徵選擇

一、如何做特徵工程?
1.排序特徵:基於7W原始資料,對數值特徵排序,得到1045維排序特徵
2. 離散特徵:將排序特徵區間化(等值區間化、等量區間化),比如採用等量區間化為1-10,得到1045維離散特徵
3. 計數特徵:統計每一行中,離散特徵1-10的個數,得到10維計數特徵
4. 類別特徵編碼:將93維類別特徵用one-hot編碼
5. 交叉特徵:特徵之間兩兩融合,x+y、x-y、x*y、x^2+y^2等,由於時間複雜度較高,暫時跳過

二、如何做特徵選擇?

多維特徵一方面可能會導致維數災難,另一方面很容易導致過擬合,因此需要做降維處理,常見的降維方法有奇異值分解SVD, PCA( PCA 提假設資料呈高斯分佈),t-SNE(計算複雜度很高)。

除了降維,特徵選擇的方法很多:最大資訊係數(MIC)、皮爾森相關係數(衡量變數間的線性相關性)、正則化方法(L1,L2)、基於模型的特徵排序方法。比較高效的是最後一種方法,即基於學習模型的特徵排序方法,這種方法有一個好處:模型學習的過程和特徵選擇的過程是同時進行的,因此我們採用這種方法。

基於決策樹的演算法(如 random forest,boosted tree)在模型訓練完成後可以輸出特徵的重要性,我們用 xgboost 來做特徵選擇,xgboost 是 boosted tree 的一種實現,效率和精度都很高,在各類資料探勘競賽中被廣泛使用。

這裡寫圖片描述

相關推薦

ML--05 如何特徵工程特徵選擇

一、如何做特徵工程? 1.排序特徵:基於7W原始資料,對數值特徵排序,得到1045維排序特徵 2. 離散特徵:將排序特徵區間化(等值區間化、等量區間化),比如採用等量區間化為1-10,得到1045維離散特徵 3. 計數特徵:統計每一行中,離散特徵1-10的

簡七理財筆記 對這一步,讓賬戶裡的零錢也生錢

三個錦囊 錦囊1:用貨幣基金,每天花錢賺錢兩不誤:餘額寶、微信理財通的餘額加,京東小金庫等。 建立一個日常消費銀行卡和兩個特定的貨幣基金賬戶。具體步驟: 首先在現金池裡留足你所需的,作

簡七理財筆記 善用槓桿,急需用錢時,先別找爸媽

如何處理借錢的事情? 1. 你是為好東西借錢嗎——問問未來的自己,還錢時會不會得到足夠的會報? 原則:借錢成本<帶給你的收益 1.借雞下蛋 2. 職場考證:提薪 3. 結婚自主的房子(情感上的需求也很重要)

SpringMVC筆記 處理器映射器+處理器適配器

property lec www 映射 style user err utf 只需要 第二課的例子中,在springmvc.xml中配置使用了第一種處理器映射器和處理器適配器,如下所示。 <!-- 配置第一種處理器映射器 BeanNameUrlH

leetcode 簡單題 最長公共前綴

else 函數 tco ret 包含 elf leetcode length num 編寫一個函數來查找字符串數組中的最長公共前綴。 如果不存在公共前綴,返回空字符串 ""。 示例 1: 輸入: ["flower","flow","flight"] 輸出: "fl" 示

leetcode 簡單 十九題 同構字符串

另一個 tco 保留 {} 簡單 urn code 映射 for 給定兩個字符串 s 和 t,判斷它們是否是同構的。 如果 s 中的字符可以被替換得到 t ,那麽這兩個字符串是同構的。 所有出現的字符都必須用另一個字符替換,同時保留字符的順序。兩個字符不能映射到同一個字符

計算機網路章 資料鏈路層(1)

一.資料鏈路層服務 1. 概述 (1)術語   ·主機和路由器:結點   ·連線相鄰結點的通訊通道:鏈路(有線、無線、區域網)   ·鏈路層資料分組:幀 (2)資料鏈路層主要任務:通過一條鏈路從一個結點向另一個物理鏈路直接相連的相鄰結點傳送資料報 2. 鏈路層服務 (1)組幀   ·封裝資料

計算機網路章 資料鏈路層(2)

三.多路訪問控制(MAC)協議 1. 兩類鏈路 (1)點對點鏈路:撥號接入的PPP、乙太網交換機與主機間的點對點鏈路 (2)廣播鏈路(共享介質):早期的匯流排乙太網、HFC的上行鏈路、802.11無線區域網 2. 基本概念 (1)單一共享廣播通道 (2)兩個或兩個以上結點同時傳輸,則發生衝突;結點

計算機網路章 資料鏈路層(3)

四.ARP協議 1. MAC地址(LAN地址、實體地址、乙太網地址) (1)作用:用於區域網內標識一個幀從哪個介面發出,到達哪個物理相連的其他介面 (2)固化在網絡卡的ROM中(唯一的),有時可以軟體設定 (3)表示:十六進位制、六個位元組,如1A-2F-BB-76-09-AD (4)管理:IEEE

資料庫視訊章 操作架構、索引檢視

一.建立檢視 1.語法格式 CREATE VIEW view_name(view_column_name) AS query_expression [WITH CHECK OPTION] 方法:①通過圖形化介面建立檢視 新建檢視,新增表,定義需要檢視

deeplearning.ai二門:提升深層神經網路——正則化的程式設計作業

正則化的程式設計作業,包括無正則化情況、L2正則化、Dropout的程式設計實現,程式設計中用到的相關理論和公式請參考上一篇博文。 問題描述:原問題是判斷足球運動員是否頭球,在此省略問題背景,其實就是二分類問題。有以下型別的資料,藍點為一類,紅點為一類 匯入需要的擴充套件包

deeplearning.ai二門:提升深層神經網路——權重初始化

一、初始化 合理的權重初始化可以防止梯度爆炸和消失。對於ReLu啟用函式,權重可初始化為: 也叫作“He初始化”。對於tanh啟用函式,權重初始化為: 也稱為“Xavier初始化”。也可以使用下面這個公式進行初始化: 上述公式中的l指當前處在神經網路的第幾層,l-1為

JavaFx教程部分:將資料用 XML 格式儲存

第5部分的主題 持久化資料為XML 使用JavaFX的FileChooser 使用JavaFX的選單 在使用者設定中儲存最後開啟的檔案路徑。 現在我們的地址應用程式的資料只儲存在記憶體中。每次我們關閉應用程式,資料將丟失,因此是時候開始考慮持久化儲存資料了。 儲

100題十八題 從尾到頭輸出連結串列

一,題目         輸入一個連結串列的頭結點,從尾到頭反過來輸出每個結點的值。連結串列結點定義如下:struct ListNode {       int       m_nKey;       ListNode* m_pNext; }; 二,分析        解

演算法導論 平衡搜尋樹

         樹的結構,如果不能保持平衡,那麼其搜尋效能會大大打折扣,而本節課介紹了幾種經典的平衡樹,如AVL,2-3-4tree,紅黑樹等等,然後著重講了紅黑樹,接下來就紅黑樹的基本性質,作一些簡短的總結。    首先,紅黑樹除了具有BST的基本性質外,還額外擁有以下

Struts2框架節宣告式異常處理-處理異常的過程

如何抓到異常的? 步驟:(以之前寫的小樣例為例) 如果CategoryService中的list方法出錯(category_表不存在):public List<Category> list()throws SQLException{ Connection c

Beta階段次Scrum Meeting

ima 大小 技術分享 ade show -m 任務 meet 困難 【Beta階段】第五次Scrum Meeting 每日任務內容 今日工作任務 明日待完成任務 首頁重新設計 課程列表頁重新排版 戴榮 beta階段後測試點測試樣例編寫 beta階段後測

WPF學習十章 故事板

  正如上一章介紹,WPF動畫通過一組動畫類(Animation類)表示。使用少數幾個熟悉設定相關資訊,如開始值、結束值以及持續時間。這顯然使得它們非常適合於XAML。不是很清晰的時:如何為特定的事件和屬性關聯動畫,以及如何在正確的時間觸發動畫。   在所有宣告式動畫中都會用到如下兩個要素:   故事板。故

WPF學習十一章 動畫緩動

  線性動畫的一個缺點是,它通常讓人覺得很機械且不能夠自然。相比而言,高階的使用者介面具有模擬真實世界系統的動畫效果。例如,可能使用具有觸覺的下壓按鈕,當單擊時按鈕快速彈回,但是當沒有進行操作時它們會慢慢地停下來,建立真正移動的錯覺。或者,可能使用類似Windows作業系統的最大化和最小化效果,當視窗解決最終

WPF學習十三章 動畫型別回顧

  建立動畫面臨的第一個挑戰是為動畫選擇正確的屬性。期望的結果(例如,在視窗中移動元素)與需要使用的屬性(在這種情況下是Canvas.Left和Canvas.Top屬性)之間的關係並不總是很直觀。下面是一些指導原則:   如果希望使用動畫來使元素顯示和消失,不要使用Visibility屬性(該屬性只能在完全