1. 程式人生 > >Google---機器學習速成課程(七)- 特徵組合 (Feature Crosses)

Google---機器學習速成課程(七)- 特徵組合 (Feature Crosses)

特徵組合 (Feature Crosses)

特徵組合是指兩個或多個特徵相乘形成的合成特徵。特徵的相乘組合可以提供超出這些特徵單獨能夠提供的預測能力。

學習目標

  • 瞭解特徵組合。
  • 在 TensorFlow 中實施特徵組合。

-----------------------------------------------------

特徵組合 (Feature Crosses):對非線性規律進行編碼

    上圖中左圖是一個線性問題,因為我們可以畫一條線將兩種顏色的點分開。右圖則靠一條線做不到,所以這是個非線性性問題。

要解決非線性問題,可以建立一個特徵組合

特徵組合是指:通過將兩個或多個輸入特徵相乘來對特徵空間中的非線性規律進行編碼的合成特徵。“cross”(組合)這一術語來自 

    我們將x1,x2組合成一個名為x3的特徵組合:x3 = x1x2

    我們像處理任何其他特徵一樣來處理這個新建的x3特徵組合。線性公式變為:y = b + w1x1 + w2x2 + w3x3

    線性演算法可以算出w3的權重,雖然w3表示非線性資訊,但是我們不需言改變線性模型的訓練方式就可以確定w3的值。

特徵組合的種類

我們可以建立很多不同種類的特徵組合。例如:

  • [A X B]:將兩個特徵的值相乘形成的特徵組合。
  • [A x B x C x D x E]:將五個特徵的值相乘形成的特徵組合。
  • [A x A]:對單個特徵的值求平方形成的特徵組合。

通過採用隨機梯度下降法,可以有效地訓練線性模型。因此,在使用擴充套件的線性模型時輔以特徵組合一直都是訓練大規模資料集的有效方法。

-----------------------------------------------------

特徵組合 (Feature Crosses):組合獨熱向量

到目前為止,我們已經重點介紹瞭如何對兩個單獨的浮點特徵進行特徵組合。在實踐中,機器學習模型很少會組合連續特徵。不過,機器學習模型卻經常組合獨熱特徵向量,將獨熱特徵向量的特徵組合視為邏輯連線。例如,假設我們具有以下兩個特徵:國家/地區和語言。對每個特徵進行獨熱編碼會生成具有二元特徵的向量,這些二元特徵可解讀為 country=USA, country=France 或 language=English, language=Spanish

。然後,如果您對這些獨熱編碼進行特徵組合,則會得到可解讀為邏輯連線的二元特徵

-------------------------------------------------------

以上整理轉載在谷歌出品的機器學習速成課程點選開啟連結 侵刪!



相關推薦

Google---機器學習速成課程()- 特徵組合 (Feature Crosses)

特徵組合 (Feature Crosses)特徵組合是指兩個或多個特徵相乘形成的合成特徵。特徵的相乘組合可以提供超出這些特徵單獨能夠提供的預測能力。學習目標瞭解特徵組合。在 TensorFlow 中實施特徵組合。--------------------------------

Google---機器學習速成課程(十二)- 神經網路簡介 (Introduction to Neural Networks)

神經網路簡介 (Introduction to Neural Networks)神經網路是更復雜版本的特徵組合。實質上,神經網路會學習適合您的相應特徵組合。學習目標對神經網路有一定的瞭解,尤其是瞭解以下方面:隱藏層啟用函式---------------------------

MLCC筆記 - Google機器學習速成課程 - 筆記匯總

cati ner 基礎知識 使用 live -i 正則化 復雜 soft MLCC筆記 - Google機器學習速成課程 https://www.cnblogs.com/anliven/p/6107783.html MLCC簡介 前提條件和準備工作 完成課程的下一步 M

Google官方機器學習速成課程

TOC 前提條件和準備工作 在開始機器學習速成課程之前,請先閱讀下面的前提條件和準備工作部分,以確保您已做好完成所有單元所需的準備工作。 前提條件 機器學習速成課程並不會假定或要求您預先掌握機器學習方面的任何知識。但是,為了能夠理解課程中介紹的概念並完成練習,您最好滿足以下前

AI - Google機器學習速成課程

Google的機器學習速成課程 機器學習速成課程(MLCC,machine-learning crash-course):https://developers.google.com/machine-learning/crash-course/ 機器學習術語表:https://developers.

谷歌機器學習速成課程---降低損失 (Reducing Loss):隨機梯度下降法

計算 機器 OS 隨機梯度下降法 術語表 表示 機器學習 放心 使用 在梯度下降法中,批量指的是用於在單次叠代中計算梯度的樣本總數。到目前為止,我們一直假定批量是指整個數據集。就 Google 的規模而言,數據集通常包含數十億甚至數千億個樣本。此外,Google 數據集通常

(180923)通過正則化降低特徵組合過度 模型過於複雜---機器學習速成

問題提出及正則化的引入 正則化的提出同樣是解決模型過擬合問題,之前提出的特徵組合來訓練模型,當訓練次數足夠多時,損失會降低到非常的低,但卻會出現過擬合問題。如圖 迭代次數足夠多,模型的複雜度也越高。可見一個好的模型和損失、模型的複雜度都有關。 所以,訓練優化演

AI-030: Google機器學習教程(ML Crash Course with TensorFlow APIs)筆記6-7 - 練習TF實現線性迴歸、特徵組合及離群值分離

本文是Google機器學習教程(ML Crash Course with TensorFlow APIs)的學習筆記。教程地址: https://developers.google.com/machine-learning/crash-course/ml-intro 6. First Ste

google機器學習框架tensorflow學習筆記(

使用Tensorflow的基本步驟 第五步: 訓練模型 現在,我們可以在 linear_regressor 上呼叫 train() 來訓練模型。我們會將 my_input_fn 封裝在 lambda

Google內部培訓過1.8萬人的機器學習速成

什麼是(監督)機器學習?簡而言之,它是以下幾點: ML系統學習如何組合輸入以產生對從未見過的資料的有用預測。 我們來探討基本的機器學習術語。 標籤 一個 標籤是我們預測物品的屬性, 比如變數y在簡單線性迴歸變數。標籤可以是小麥的未來價格,圖片中顯示的動物的種類,音訊剪輯的

Google機器學習課程筆記之概念--問題構建 (Framing):機器學習主要術語

什麼是(監督式)機器學習?簡單來說,它的定義如下:機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的預測。下面我們來了解一下機器學習的基本術語。標籤在簡單線性迴歸中,標籤是我們要預測的事物,即 y 變數。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音訊剪輯的

【黎明傳數==>機器學習速成寶典】模型篇05——樸素貝葉斯【Naive Bayes】(附python代碼)

pytho res tex 機器學習 樸素貝葉斯 spa 什麽 之一 類別 目錄   先驗概率與後驗概率   什麽是樸素貝葉斯   模型的三個基本要素   構造kd樹   kd樹的最近鄰搜索   kd樹的k近鄰搜索   Python代碼(sklearn庫) 先

【Spark機器學習速成寶典】推薦引擎——協同過濾

屬性 寶典 系統 ont 宋體 logs images 機器 back 目錄   推薦模型的分類   條目2   條目3   條目4   條目5   條目6   條目7   條目8   條目9 推薦模型的分類   最為流行的兩種方法是基於內容的過濾、協

吳恩達《機器學習課程總結(7)正則化

額外 分享 哪些 TP 回歸 分享圖片 表現 例子 兩個 7.1過擬合的問題 訓練集表現良好,測試集表現差。魯棒性差。以下是兩個例子(一個是回歸問題,一個是分類問題) 解決辦法: (1)丟棄一些不能幫助我們正確預測的特征。可以使用工選擇保留哪些特征,或者使用一些模型選擇

吳恩達《機器學習課程總結(15)異常檢測

是否 5.6 問題 com 結果 平移 分享 出現問題 計算過程 15.1問題的動機 將正常的樣本繪制成圖表(假設可以),如下圖所示: 當新的測試樣本同樣繪制到圖標上,如果偏離中心越遠說明越可能不正常,使用某個可能性閾值,當低於正常可能性閾值時判斷其為異常,然後做進一步的

機器學習實戰()線性迴歸(Linear Regression)

目錄 0. 前言 1. 假設函式(Hypothesis) 2. 標準線性迴歸 2.1. 代價函式(Cost Function) 2.2. 梯度下降(Gradient Descent) 2.3. 特徵縮放(Feat

吳恩達機器學習(第章)---邏輯迴歸

一、邏輯迴歸 邏輯迴歸通俗的理解就是,對已知類別的資料進行學習之後,對新得到的資料判斷其是屬於哪一類的。 eg:對垃圾郵件和非垃圾郵件進行分類,腫瘤是惡性還是良性等等。 1.為什麼要用邏輯迴歸: 對於腫瘤的例子:  在外面不考慮最右邊的樣本的時候我們擬合的線性迴歸

機器學習筆記():K-Means

1 - 前言 之前我們學習的演算法均為監督學習演算法,而K-means是我們所學習的第一個無監督學習演算法。所以首先讓我們瞭解一下監督學習和無監督學習的區別 1.1 - 監督學習(supervised learning) 從給定的訓練資料集中學習出一個函式(模型引數),當新的資料

機器學習 (十)kaggle競賽之泰坦尼克號專案實戰-2

導航        想寫這篇部落格的由衷是做完幾個專案,有時對於圖的畫法和模型融合演算法原理理解還很膚淺,特此加深一下印象。 內容概覽 圖 pandas、matplotlib、seaborn 餅圖 直方圖

機器學習速成筆記(二): 訓練與損失

訓練模型通過有標籤樣本來學習(確定)所有的權重和偏差的理想值。 損失是對槽糕預測的懲罰,損失是一個數值,模型的預測完全正確,則損失為零,反之,模型的預測越槽糕,損失越大。 平方損失:一種常見的損失函式,線性迴歸模型就是使用該平方損失 均方誤差:每個樣本的平均平方損失,計算均方誤差,要算出