機器學習--如何將NLP應用到深度學習(3)

阿新 • • 發佈：2017-06-10

關系 http 命令構建 time 原理最簡 gcc 復雜

數據收集以後，我們下面接著要幹的事情是如何將文本轉換為神經網絡能夠識別的東西。

詞向量

作為自然語言，只有被數學化才能夠被計算機認識和計算。數學化的方法有很多，最簡單的方法是為每個詞分配一個編號，這種方法已經有多種應用，但是依然存在一個缺點：不能表示詞與詞的關系。

詞向量是這樣的一種向量[2.1, -3.31, 83.37, 93.0, -18.2, ……]，每一個詞對應一個向量，詞義相近的詞，他們的詞向量距離也會越近(歐氏距離、夾角余弦)

詞向量有一個優點，就是維度一般較低，一般是50維或100維，這樣可以避免維度災難，也更容易使用深度學習

詞向量的原理？

詞向量的訓練是一種無監督學習，也就是沒有標註數據，給我

n篇文章，我就可以訓練出詞向量。

基於三層神經網絡構建n-gram語言模型(詞向量順帶著就算出來了)的基本思路：

技術分享

最下面的w是詞，其上面的C(w)是詞向量，詞向量一層也就是神經網絡的輸入層(第一層)，這個輸入層是一個(n-1)×m的矩陣，其中n-1是詞向量數目，m是詞向量維度

第二層(隱藏層)是就是普通的神經網絡，以H為權重，以tanh為激活函數

第三層(輸出層)有|V|個節點，|V|就是詞表的大小，輸出以U為權重，以softmax作為激活函數以實現歸一化，最終就是輸出可能是某個詞的概率。

另外，神經網絡中有一個技巧就是增加一個從輸入層到輸出層的直連邊(線性變換

)，這樣可以提升模型效果，這個變換矩陣設為W

假設C(w)就是輸入的x，那麽y的計算公式就是y = b + Wx + Utanh(d+Hx)

這個模型裏面需要訓練的有這麽幾個變量：C、H、U、W。利用梯度下降法訓練之後得出的C就是生成詞向量所用的矩陣，C(w)表示的就是我們需要的詞向量

怎樣得到我們需要的詞向量？

感覺別個寫的很復雜的樣子呀，不會怎麽辦，有個簡單有效的解決方案就是google的word2vec工具，我們可以把需要訓練的樣本數據通過word2vec轉換為二進制集合。

環境準備：

1、centos7.0

2、gcc

3、python-jieba

4、locale zh_CN.UTF-8

第一步準備工作

咱們要準備一個分好詞的文本文件，用jieba分詞即可。

命名為train.txt

技術分享

接著下載word2vec工具，這個c寫的，需要編譯，我已經編譯完成，可以直接使用。編譯後：

技術分享

第二步訓練詞向量

訓練命令：

./word2vec -train train.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -thread 12 -binary 1

技術分享

訓練成功後會生成一個vectors.bin文件，這個就是訓練好的詞向量的二進制文件

第三步測試，利用詞向量尋找近義詞

技術分享

如上圖，則說明我們的詞向量訓練成功。

技術分享

機器學習--如何將NLP應用到深度學習(3)

關系 http 命令構建 time 原理最簡 gcc 復雜數據收集以後，我們下面接著要幹的事情是如何將文本轉換為神經網絡能夠識別的東西。詞向量作為自然語言，只有被數學化才能夠被計算機認識和計算。數學化的方法有很多，最簡單的方法是為每個詞分配一個編號，這種

機器學習--如何將NLP應用到深度學習

amp 3.0 eba 下載 user word2vec title jieba googl 數據收集以後，我們下面接著要幹的事情是如何將文本轉換為神經網絡能夠識別的東西。詞向量作為自然語言，只有被數學化才能夠被計算機認識和計算。數學化的方法有很多，最簡單的方法是為

02-NLP-06-深度學習與NLP簡單應用

計算統一算法可能測試信息殘差過擬合們的希望在毫不知情（很少的人類介入）的情況下實現。即端對端的實現。一、Intro 工具推薦：二、Auto-Encoder 使用自編碼器的情況：1）拿到的原始數據缺少標簽（數據降噪） 2）數據太大了，

機器學習與深度學習系列連載：第二部分深度學習（六）深度學習技巧3（Deep learning tips- Early stopping and Regularization）

深度學習技巧3（ Early stopping and Regularization）本節我們一起探討 Early stopping and Regularization，這兩個技巧不是深度學習特有的方法，是機器學習通用的方法。 1. Early stopp

『深度應用』NLP機器翻譯深度學習實戰課程·零（基礎概念）

0.前言深度學習用的有一年多了，最近開始NLP自然處理方面的研發。剛好趁著這個機會寫一系列NLP機器翻譯深度學習實戰課程。本系列課程將從原理講解與資料處理深入到如何動手實踐與應用部署，將包括以下內容：（更新ing） NLP機器翻譯深度學習實戰課程·零（基礎概念） NLP機器翻譯深

Teaching Machines to Understand Us 讓機器理解我們之二深度學習的歷史

意義 for 不同 ima basic devel media 方向模型 Deep history 深度學習的歷史 The roots of deep learning reach back further than LeCun’s time at Bell Labs.

從手淘搜索到優酷短視頻，阿裏巴巴是如何在搜索推薦領域下應用深度學習的？

電商摘要：深度學習是一個既可以處理特征、學習特征又可以實現最後的排序打分的一套整體解決方案，借助深度學習的解決方案，搜索推薦的工作方式將發生巨大的變化。想知道阿裏巴巴如何將在搜索推薦領域下應用深度學習技術的嗎？想知道手淘和優酷搜索結果的個性化又是如何實現的嗎？本文不容錯過！本節視頻地址：http://clic

機器學習&amp;深度學習視訊資料彙總

pandax視訊教程連結: https://pan.baidu.com/s/1pLqavVX 密碼: fath python入門到精通連結: https://pan.baidu.com/s/1mhVNIkC 密碼: cvp3

機器學習（三）深度學習的經典論文、程式碼、部落格文章

前言總結了Deep Learning應用相關的經典論文、程式碼、部落格文章之類，包括CNN、RCNN、DQN、RNN等，github上看到。原文地址：https://github.com/kristjankorjus/applied-deep-l

關於NLP和深度學習，準備好好看看這個github，還有這篇介紹

sting htm ttext 作者規模 model keras form The 這個github感覺很不錯，把一些比較新的實現都嘗試了： https://github.com/brightmart/text_classification fastText

深度學習與計算機視覺(PB-08)-應用深度學習最佳途徑

在Starter Bundle第10章中，我們提到了訓練一個神經網路模型所需要的四個因素，即：資料集 loss函式神經網路結構優化演算法有了這四個因素，實際上我們是可以訓練任何深度學習模型，但是，我們如何訓練得到一個最優的深度學習模型？如果效果

機器學習+特徵工程vs深度學習—如何選擇

對於資料探勘和處理類的問題，使用一般的機器學習方法，需要提前做大量的特徵工程工作，而且特徵工程的好壞會在很大程度上決定最後效果的優劣（也就是常說的一句話：資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已）。使用深度學習的話，特徵工程就沒那麼重

百度大腦發揮AI“頭雁效應” ，語音、視覺、NLP、深度學習等核心技術突破升級

11月1日，百度大腦作為2018百度世界大會的第一彈登場。近期國家層面也高度重視人工智慧的發展現狀和趨勢，認為加快發展新一代人工智慧是事關我國能否抓住新一輪科技革命和產業變革機遇的戰略問題。人工智慧技術具有溢位帶動性很強的“頭雁”效應。百度高階副總裁、AI技術平臺體系（A

機器學習與深度學習系列連載：第二部分深度學習（七）深度學習技巧4（Deep learning tips- Dropout）

深度學習技巧4（ Dropout） Dropout 在2012年imagenet 比賽中大放異彩，是當時CNN模型奪冠的功勳環節之一。那什麼是Dropout 我們先直觀的理解：練武功的時候，訓練的時候腳上綁上重物等到練成下山的時候：我們從幾個方面來解

NLP+VS︱深度學習資料集標註工具、影象語料資料庫、實驗室搜尋ing....

一、NLP標註工具 Chinese-Annotator 能不能構建一箇中文文字的標註工具，可以達到以下兩個特點：標註過程背後含有智慧演算法，將人工重複勞動降到最低；標註介面顯而易見地友好，讓標註操作儘可能簡便和符合直覺。答案是可以的。事實上很多標註工

【深度學習】不要被深度學習一葉障目不見泰山；NLP 解決方案是如何被深度學習改寫的？

雷鋒網 AI 科技評論按：正如大家討論人工智慧時經常把它和機器學習甚至深度學習近似等價，工業界和學術界的許多研究、開發人員們也往往過於關注深度學習，忽略了實際上範圍更廣的機器學習和人工智慧領域還有許多有價值的問題等待研究。近日，UC 伯克利大學電子工程與計算機學院和統計學

人工智慧之機器學習與深度學習-4 術語辨析深度學習（葉梓老師）

術語辨析——深度學習深度學習的原理 •深度學習：最初的深度學習是利用深度神經網路來解決特徵表達的一種學習過程。可大致理解為隱含層很多的一個神經網路結構。 •為了提高深層神經網路的訓練效果，人們對神經元的連線方法和啟用函式等方面做出相應的調整。深度神經網路本身並不是一個全新的概念，其實

機器學習(Machine Learning)與深度學習(Deep Learning)資料之文章、部落格

介紹:這是一篇介紹機器學習歷史的文章，介紹很全面，從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、DeepLearning.介紹:這一篇介紹如果設計和管理屬於你自己的機器學習專案的文章，裡面提供了管理模版、資料管理與實踐方法.介紹:如果你還不知道什麼是機器學習

VS Tools for AI全攻略（2）低配置虛擬機器也能玩轉深度學習，無需NC/NV系列

接著上文VS Tools for AI全攻略，我們來討論如何使用Azure資源來訓練我們的tensorflow專案。Azure雲我個人用得很多，主要是因為微軟爸爸批了150刀每月的額度，我可以愉快地玩耍。那麼針對Azure，有成套的兩個方案解決問題。方案一（比較有錢的、對速度要求高的）：使用De

機器視覺 OpenCV—python 基於深度學習的實時目標檢測

一、目標檢測原理運動目標在工廠，監控，自動駕駛中有著舉足輕重的地位。在做實時目標檢測之前，我做過OpenCV的目標檢測和運動軌跡及運動方向預判等，但這些都是基於OpenCV的，有一定的侷限性。為此，從這篇部落格開始將給大家帶來一系列的實時目標檢測，與大家一起

機器學習--如何將NLP應用到深度學習(3)

相關推薦