只有100個標記資料，如何精確分類400萬用戶評論？

阿新 • • 發佈：2018-12-08

在本文中，我們將介紹自然語言處理（NLP）在遷移學習上的最新應用趨勢，並嘗試執行一個分類任務：使用一個數據集，其內容是亞馬遜網站上的購物評價，已按正面或負面評價分類。然後在你可以按照這裡的說明，用你自己的資料重新進行實驗。

383f2c0bc478c830fe8e9fbe9abdc5bc88b5bd18

遷移學習模型的思路是這樣的：既然中間層可以用來學習影象的一般知識，我們可以將其作為一個大的特徵化工具使用。下載一個預先訓練好的模型（模型已針對ImageNet任務訓練了數週時間），刪除網路的最後一層（完全連線層），新增我們選擇的分類器，執行適合我們的任務（如果任務是對貓和狗進行分類，就選擇二元分類器），最後僅對我們的分類層進行訓練。

由於我們使用的資料可能與之前訓練過的模型資料不同，我們也可以對上面的步驟進行微調，以在相當短的時間內對所有的層進行訓練。

除了能夠更快地進行訓練之外，遷移學習也是特別有趣的，僅在最後一層進行訓練，讓我們可以僅僅使用較少的標記資料，而對整個模型進行端對端訓練則需要龐大的資料集。標記資料的成本很高，在無需大型資料集的情況下建立高質量的模型是很可取的方法。

遷移學習NLP的尷尬

目前，深度學習在自然語言處理上的應用並沒有計算機視覺領域那麼成熟。在計算機視覺領域中，我們可以想象機器能夠學習識別邊緣、圓形、正方形等，然後利用這些知識去做其他事情，但這個過程對於文字資料而言並不簡單。

原文連結

只有100個標記資料，如何精確分類400萬用戶評論？

只有100個標記資料，如何精確分類400萬用戶評論？

mysql建立儲存過程，模擬插入200萬用戶

Facebook股價下跌3%，事關影響5000萬用戶安全問題

創建100個文件，並對每個文件賦值

查詢幾個表資料，根據存在情況，插入到另一個表中

Linux運維之批量下載指定網站的100個圖片檔案，並找出大於200KB的檔案

PHP隨機生成100個英文字母，然後統計26個英文字母出現的次數

深度分析100個案例後，我總結了2018年區塊鏈技術的5大發展趨勢!

15個使用者訪問時只有兩個使用者成功，其他使用者要等10分鐘後才行（描述不來了）

習題 7.5 有10個學生，每個學生的資料包括學號、姓名、3門課的成績，從鍵盤輸入10個學生資料，要求打印出3門課的總平均成績，以及最高分的學生的資料。

相對佈局中只有兩個控制元件，一個居中View1，另外一個要在View1的左邊的方法

python（dict字典相關知識以及小例子：生成一個列表，存放100個隨機整數，找出出現次數最多的數字）

Unicode 是不是只有兩個字節，為什麽能表示超過 65536 個字符

你需要實現一個高效的緩存，它允許多個用戶讀，但只允許一個用戶寫

1個月超10萬用戶，幣氪App要做區塊鏈量化投資界的權威

Facebook再爆資料洩露，9000萬用戶受影響

20分鐘快速錄入100個Excel表格！職場大神用三個快捷鍵就搞定

線性排序3：如何根據年齡給100萬用戶資料排序？

爬取QQ空間3000萬用戶，玩玩大資料分析

測試springmvc表單提交新增資料，伺服器報400錯誤-----HTTP Status 400

只有100個標記資料，如何精確分類400萬用戶評論？

相關推薦