[七]機器學習之LDA

阿新 • • 發佈：2018-11-11

7.1 目標i任務

1.熟悉LDA在自然語言處理中的應用

2.掌握python-lda庫

3.測試LDA模型訓練中，不同引數的設定對結果產生的影響

7.2 實驗環境

1.python2.7、Numpy、Sklearn

2.Python-jieba：結巴分詞，用於對語料檔案進行分詞處理

3.python-lda：基於Gibbs抽樣的LDA模型的python實現。下載地址：http://pypi.python.org/pypi/lda/

4.gensim庫

7.3 實驗資料

搜狗新聞資料集，下載地址：http://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouCA/SogouCA.reduced.tar.gz

文字格式：

對資料集一需要對原始資料進行處理，生成便於處理的文字檔案。處理過程如下：

（1）資料清洗：

1.抽取語料檔案中<content>中的正文內容

2.提出空格、回車等空白字元

3.對正文文字進行分詞

4.剔除標點、日期、數字等型別的詞

5.根據停用詞表剔除停用詞

（2）生成訓練資料：生成一個每行為一個新聞語料的分詞檔案news.dat

7.4 實驗設計

本次實驗使用gensim庫中的LDA模型對資料集進行訓練

# coding:utf-8

import numpy as np
from gensim import corpora, models
import time
import sys
import argparse

reload(sys)
sys.setdefaultencoding('utf8')


def load_stopword():
    f_stop = open('./stopword.txt','r+')
    sw = [line.strip() for line in f_stop]
    f_stop.close()
    return sw


if __name__ == '__main__':
	parser = argparse.ArgumentParser(description='parse argument')
	parser.add_argument('--file',type=str,default='./news.dat')
	parser.add_argument('--a',type=float,default=0.1)
	parser.add_argument('--b',type=float,default=0.01)
	parser.add_argument('--n',type=int,default=10)
	parser.add_argument('--iter',type=int,default=500)
	args = parser.parse_args()
	filepath = args.file
	num_topics = args.n
	alpha = args.a
	eta = args.b
	chunksize = args.iter
	t_start = time.time()
	stop_words = load_stopword()
	f = open(filepath)  
	texts = [[word for word in line.strip().lower().split() if word not in stop_words] for line in f]
	print 'INFO:load data:%.3fs' % (time.time() - t_start)
	f.close()
	M = len(texts)
	print 'INFO:n_documents: %d' % M
	dictionary = corpora.Dictionary(texts)
	V = len(dictionary)
	print 'INFO:vocab_size: ', V
	corpus = [dictionary.doc2bow(text) for text in texts]
	print 'INFO:n_words: ',dictionary.num_pos
	print 'INFO:n_topics: ',num_topics
	print 'INFO:n_iter',chunksize
	corpus_tfidf = models.TfidfModel(corpus)[corpus]
	t_start = time.time()
	lda = models.LdaModel(corpus_tfidf, num_topics=num_topics, id2word=dictionary,
                            alpha=alpha, eta=eta, minimum_probability=0.001,
                            update_every = 1, chunksize = chunksize, passes=5)
	print 'INFO:LDA train:%.3fs' % (time.time() - t_start)

    # 隨機列印某10個文件的主題
	num_show_topic = 10  # 每個文件顯示前幾個主題
	print '10 topic:'
	doc_topics = lda.get_document_topics(corpus_tfidf)  # 所有文件的主題分佈
	idx = np.arange(M)
	np.random.shuffle(idx)
	idx = idx[:10]
	for i in idx:
		topic = np.array(doc_topics[i])
		print 'topic:\n', topic
		topic_distribute = np.array(topic[:, 1])
        # print topic_distribute
		topic_idx = topic_distribute.argsort()[:-num_show_topic-1:-1]
		print 'doc %d top %d words:\n' % (i, num_show_topic), topic_idx
		print topic_distribute[topic_idx]
	num_show_term = 10   # 每個主題顯示幾個詞
	print('words of each topic:')
	for topic_id in range(num_topics):
		print 'Topic#%d:\t' % topic_id
		term_distribute_all = lda.get_topic_terms(topicid=topic_id)
		term_distribute = term_distribute_all[:num_show_term]
		term_distribute = np.array(term_distribute)
		term_id = term_distribute[:, 0].astype(np.int)
		print 'words:\t ',
		for t in term_id:
			print dictionary.id2token[t] ,
		print 
        # print '\n概率：\t', term_distribute[:, 1]

7.5 實驗過程

7.5.1引數的輸入

--a	主題分佈的Dirichlet引數（預設0.1）
--b	單詞分佈的Dirichlet引數（預設0.01）
--n	生成主題數量（預設10）
--iter	迭代次數（預設500）
--file	測試資料路徑（預設當前目錄的news.dat檔案）

7.5.2實驗步驟

（1）通過pip安裝jieba

pip install jieba

（2）通過pip安裝lda

pip install lda

（3）通過pip安裝gensim

pip install gensim

(4)驗證是否安裝成功

不提示錯誤則表示安裝成功

(5)開始實驗

python ./netease_news.py

改變引數：

python ./netease_news.py --n=4 --iter=600

[七]機器學習之LDA

7.1 目標i任務 1.熟悉LDA在自然語言處理中的應用 2.掌握python-lda庫 3.測試LDA模型訓練中，不同引數的設定對結果產生的影響 7.2 實驗環境 1.python2.7、Numpy、Sklearn 2.Python-jieba：結巴分詞，用於對語料檔案進行

機器學習之LDA線性判別分析模型

機器學習之LDA線性判別分析模型 # -*- coding: utf-8 -*- """ Created on Wed Nov 21 21:03:14 2018 @author: muli """ import matplotlib.pyplot as plt im

機器學習之LDA主題模型演算法

1、知道LDA的特點和應用方向 1.1、特點知道LDA說的降維代表什麼含義：將一篇分詞後的文章降維為一個主題分佈（即如20個特徵向量主題）。根據對應的特徵向量中的相關主題概率（20個主題的概率相加為1即為主題分佈）得到對應的文件主題，屬於無監督學習（你沒有

機器學習之python學習（十七）

今天來學習python中的tuple、這個資料結果用的還是比較少的。當然了，你們也可以參考廖雪峰大神的python教學快速入門。程式碼塊 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : SundayC

機器學習之numpy和matplotlib學習（七）

今天我們來學習第三種畫子圖的方法。主要使用到的模組是matplotlib.gridspec 學習過程請參考程式碼裡面的註釋：全部程式碼如下： #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : SundayC

機器學習之主題模型（七）

摘要：　　主題模型是對文字隱含主題進行建模的方法。它克服了傳統資訊檢索中文件相似度計算方法的缺點，並且能夠在海量網際網路資料中自動尋找出文字間的語義主題。主題模型在自然語言和基於文字的搜尋上都起到非常大的作用。引言：　　兩篇文件是否相關往往不只決定於字面上的詞語重複，還取決於文字背後的語義關聯。對

【七】機器學習之路——訓練集、測試集及如何劃分

上一個部落格講了一個簡單的例子，根據手頭的房子大小和房價的資料來擬合房子大小和房價的關係曲線，當然這是一個非常簡單的一元一次方程，y=ax+b。但是最後咱們還少了一樣東西，不知道細心的同學有沒有發現，那就是咱們擬合曲線的準確度到底有多少呢？怎麼來檢測咱們擬合

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

機器學習之良/惡性乳腺癌腫瘤預測

nan n) gin sample 通過回歸 ipy read 數據集知識點：　　邏輯斯蒂回歸分類器　　訓練數據集：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-w

機器學習之 SVM VC維度、樣本數目與經驗風險最小化的關系

能力 pan dsm 過擬合引入 div 不但機器 con VC維在有限的訓練樣本情況下，當樣本數 n 固定時。此時學習機器的 VC 維越高學習機器的復雜性越高。VC 維反映了函數集的學習能力，VC 維越大則學習機器越復雜(容量越大)。

機器學習之SVM初解與淺析（一）:最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就是比較抽象，特別是對於像本人這種I

機器學習之SVM初解與淺析（一）:

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就

機器學習之PCA主成分分析

ping app 最大們的理解 style 避免 -m size 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　在用統計分析方法研究多變量的課題時，變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較

機器學習之大數據集

曲線叠代 ... 問題 alt 流數據疊加沒有 cost 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　大數據時代已經來臨，它將在眾多領域掀起變革的巨浪。機器學習對於大數據集的處理也變得越來越重要。大數據集務必會帶來恐

機器學習之梯度下降法

梯度學習模型最快參數 nbsp 函數 bsp 每一個在吳恩達的機器學習課程中，講了一個模型，如何求得一個參數令錯誤函數值的最小，這裏運用梯度下降法來求得參數。首先任意選取一個θ 令這個θ變化，怎麽變化呢，怎麽讓函數值變化的快，變化的小怎麽變化，那麽函數值怎麽才能

機器學習之numpy庫中常用的函數介紹（一）

做的 string idt 維度數據 round float 數值 array 1. mat() mat()與array的區別： mat是矩陣，數據必須是2維的，是array的子集，包含array的所有特性，所做的運算都是針對矩陣來進行的。 array是數組，數據可以是多

機器學習之學習路線

機器學習機器學習機器學習樸素貝葉斯（NBC) 決策樹K-近鄰算法回歸K-均值聚類算法Apriori算法FP-growth算法主成分分析（PCA)奇異值分析（SVD)支持向量機logistic回歸python 實現明星專家系統http://9399369.blog.51cto.com/9389369/d-22/

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

20171028機器學習之線性回歸過擬合問題的解決方案

ces 函數彈性 alpha mach rom 定性 ast cep 在函數中加入一個正則項：三種方式：一、Ridge回歸（嶺回歸）：　　優點：具有較高的準確性、魯棒性以及穩定性　　缺點：求解速度慢二、Lasso回歸：　　優點：求解速度快（原理降維計算

機器學習之邏輯回歸

反向 margin -1 mil 局部最優一個數簡單 line 滿足給定一張圖片，如何讓計算機幫助我們識別它是不是一張貓的圖片，這個問題可以看成一個簡單的分類問題。如下圖所示，平面上有兩種不同顏色（黑色，紅色）的點，我們要做到就是要找到類似與那條直線那樣的界限。當某個

[七]機器學習之LDA

相關推薦