1. 程式人生 > >NLP到word2vec實戰班視訊截圖3---Word2vec實戰和kaggle案例分析

NLP到word2vec實戰班視訊截圖3---Word2vec實戰和kaggle案例分析

是用全量資料訓練還是採用領域內的樣本(數量足夠大的話),領域內的更有效

語料處理和模型構建

標點去不去掉要看不同場合

針對one-hot的特徵,樹模型其實不太合適

一句話中每個詞都對應一個N維的向量,這句話的向量就是各個詞向量的average。但這種方式比較粗暴,結合tfidf藉助外部的語料判斷哪些詞更重要也許效果會好些,對重要的詞賦予更重要的權重。

LSTM效果會比SVM好些

比如把電商客戶的瀏覽路徑看作是句子分詞後的sequence,送入word2vec模型中訓練一個300維(一般300維可以用了)的向量,這個效果比協同過濾的召回率高。

一個例子

這個project的地址

案例中的程式碼後續補齊