1. 程式人生 > >菜鳥的文字挖掘學習記001 ---------KE520X--------文字挖掘簡介

菜鳥的文字挖掘學習記001 ---------KE520X--------文字挖掘簡介

本文為學習筆記,供自己複習回顧,分享,交流,如果專家們發現謬誤之處歡迎批評與修正。

----------------------------------------------------------------------------------------------------------------------------

這門課是我個人認為屬於NLP的分支,是我們的選修課,和斯坦福的manning的課一樣極為火爆,第一堂課,教師裡都坐不下了,足以證明NLP是現在一個非常熱門的話題。

關於這門課,我們的上課節奏是上午理論部分,下午實踐部分,也就是說,上午講講課,下午跑跑程式碼,我覺得對於剛入門的同學來說還是挺有用的,所以我也按照這樣分類。

----------------------------------------------------------------------------------------------------------------------------

1.什麼是文字挖掘(Text Mining)?

文字也是一種資料,所以我們先看下什麼是資料探勘。

1.資料探勘過程(Process)

資料探勘過程的總體目標是從資料集中提取資訊並且把它轉換成容易理解的結構,以便後期使用。

實際上,資料探勘的任務是對大規模資料進行自動或半自動分析以提取先前並沒發現的有用的模式,例如,發現數據成群分佈(聚類分析),不正常的資料(異常分析),依賴關係(關聯規則挖掘)等。

2.資料探勘產出(Outcome)

從商業角度來看,資料探勘是將結構化資料轉換成解決商業問題的答案。

商業背景:如果沒有商業背景,我們的資料探勘就是一次學術研究。

商業問題:如何沒有商業問題,我們的資料探勘就沒啥意義,浪費時間。

資料:       如果沒有足夠的資料,我們的資料探勘可能很簡單,但是沒有意義。

所以,在商業方面的資料探勘,這三樣缺一不可。

所以,文字資料探勘也就是將非結構化的文字資料轉換成解決商業問題的答案。

3.文字挖掘

文字資料探勘(Text Mining)是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。

文字挖掘是指從大量文字資料中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織資訊以便將來參考。

文字挖掘是將非結構化的文字資料轉換為結構化的數字資料。

如下圖,將非結構化的評論資訊轉換成多行容易處理的數字資料。

4.文字挖掘過程(Process)

文字挖掘的過程相似於又區別於資料探勘。

                                    

                                                                            文字挖掘基本流程

2.為什麼文字挖掘這麼費勁?

1.特徵提取困難性: 對於特稱的提取,我們需要很強的背景知識和資源,我們需要了解不同領域的不同業務,這是很困難的。

2.文件表示困難性:   就像上圖我們看見的一樣,文件文字需要很多特徵去表述,這很容易造成我們的資料的變數過多,不易建                                     模,而有些特徵不是那麼的直觀發現,導致我們初次表述時出現錯誤。

3.模式擬合差異性:文件一般都不相同,有些文件包含的資訊過於突出,很容易建模,這樣就導致模型擬合時出現偏差。

4.模式量級差異性:有很多文件,就會造成模式的數量巨大,這對於我們分析來說是極為困難的。

3.為什麼要文字挖掘呢?

既然文字挖掘這麼費勁,我們為啥還要文字挖掘呢,為啥不直接用結構化資料呢。

1.我們現實生活中,大部分資訊儲存並不是結構化的,而且這些資訊是有用的我們需要將其提取。

2.現在,文字正在數字化,並且容易獲取,網站,郵件,社交媒體等媒介可以提供有用的資訊。

3.分析文字並結合其他資料,這樣可以為商業決策提供更好的結果。

4.文字挖掘能幹啥?

有5個基本用例供大家參考:

1. 從非結構化文字中提取資訊。

2. 自動文字分類

3.提升預測建模或非監督學習的準確性

4.定位指定或者相關文件

5.從文字中提取指定資訊

1.從非結構化文字中提取資訊

從人類肉眼不可操作的大量文字語料庫或文件中提取答案,

a. 進行情感分析:

1.我的客戶都討論我啥呢?

2.我的目標群體關注點在哪?

3.分析調察問卷中的開放問題。

b. 進行文字流的趨勢主題研究:

1.保險索賠趨勢

2.保修申請分析

c. 進行文字總結:

1.網站文字的主題主旨

2.自動關鍵詞提取

來源於: http://www.youtube.com/watch?v=PSq7hZ0shLs

2.自動文字分類

1.為後續處理,事先定義文字文件分類類別

2.基於不同類別採取自動的行動,比如,垃圾郵件的篩選,新聞的篩選等

3.基於文字描述進行異常值檢測,比如欺詐檢測等

來源於: http://www.youtube.com/watch?v=Q5K3gyQJkC0

3.提升預測建模或非監督學習的準確性

1.使用文字挖掘提升資料探勘結果

2.將文字轉換為數字並進行資料探勘

a.基於詞頻建立資料矩陣

b.基於矩陣計算不同索引

c.合併索引,併入結構化資料進行挖掘

3.從申請處理筆記中預測騙保行為

4.使用字典控制詞彙量,減少偏差

來源於: http://www.youtube.com/watch?v=OlQpm8qTog4

4.定位指定或者相關文件

1.文件搜尋,給定指定文件,進行相似相關文件搜尋

2.建立相關文件池用於分析

3.網站搜尋

來源於:https://www.youtube.com/watch?v=evLDjHQzMRU
 

5.從文字中提取指定資訊

1.抽象層面上,答疑(Question Answering),對指定問題進行回答。

2.更基本層面,對文件與語料庫進行定位並提取實體。

3.更高階一點就是,自 動QA

4.命名實體提取就是提取一些相關資訊。

來源於: http://www.youtube.com/watch?v=d_yXV22O6n4
 

參考:
• Chris Manning & Hinrich Schutze, Foundations of Statistical Natural Language Processing, MIT Press, 1999


• NLP resources: http://nlp.stanford.edu/links/statnlp.html


• Christopher Potts (Stanford University), Sentiment Symposium Tutorial,
   http://sentiment.christopherpotts.net/index.html


• John Elder, Gary Miner, Bob Nisbet. Practical Text Mining and Statistical Analysis for non-Structured Text Data Applications,       Academic Press, 2012


• Roger Bilisoly. Practical Text Mining with PERL, John Wiley
  & Sons, 2008
 

相關推薦

文字挖掘學習001 ---------KE520X--------文字挖掘簡介

本文為學習筆記,供自己複習回顧,分享,交流,如果專家們發現謬誤之處歡迎批評與修正。 -----------------------------------------------------------------------------------------------

的mongoDB學習---(六)MongoDB 索引

val drop -m 單位 處理 數列 track 掃描 大量 MongoDB 索引 ps:大概有半個月木有更新了,因為前一階段的出差和這幾天突然來的項目。導致上網時間急劇降低,實在是sorry,以後預計會好一點。 索引通常可以極大的提高查詢的效率。假設沒有

PHP如何開始學習PHP語言

想要 了解 視頻 基礎 如果 目的 blank 基礎教程 圖片   把我自己學習PHP的經驗分享出來,既給想學習PHP的朋友提供一個思路,也算是整理一下自己的思路,好給後續的教程開個頭吧~   學習其實也是有方法的,舉個例子:在您上學期間,班裏一定有學霸,也有學渣,也有普普

先生的學習方向及訴說

部落格申明 本部落格主人是一位男士-菜鳥,部落格的目標是記錄自身所學的知識,與人相互溝通。 發的每一個博文都是自身原創,歡迎各位大佬 大牛指點 ,對哪篇博文有興趣,看完不管是大牛有指點也好,新人有問題也好 歡迎留言討論,感謝大家 大家好,我叫菜鳥先生,河北人,性別男。   沒什麼愛好,也沒什麼興趣,

學python視覺化--001

# -*- coding: utf-8 -*- #Author Mr.xu from random import choice import matplotlib.pyplot as plt import requests import csv import numpy as np def read

教程PHP學習筆記(不定期更新)

NO.1—PHP表單驗證 程式碼詳細註釋版 <!DOCTYPE HTML> <html> <head> <meta charset="utf-8"> <title>菜鳥教程(runoob.com)</title>

《TCP IP詳解卷:協議 原書第2版》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《演算法導論中文版》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《Hadoop權威指南大資料的儲存與分析第版修訂版升級版》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《Netty權威指南(第2版)》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《深入理解計算機系統(原書第三版)》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《圖解HTTP 彩色版》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《現代作業系統(第三版)中文版》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《ThinkinginJavathEdition(JAVA程式設計思想 第四版 英文版)》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《Spring in action 中文版(第4版)》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《HTMLCSS設計與構建網站》(中文版)》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《你不知道的 JavaScript(上中下卷)》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

《Kubernetes權威指南:從Docker到Kubernetes實踐全接觸》pdf附網盤下載連結+(附一個的java學習之路)

技術書閱讀方法論 一.速讀一遍(最好在1~2天內完成) 人的大腦記憶力有限,在一天內快速看完一本書會在大腦裡留下深刻印象,對於之後複習以及總結都會有特別好的作用。 對於每一章的知識,先閱讀標題,弄懂大概講的是什麼主題,再去快速看一遍,不懂也沒有關係,但是一定要在不懂的

的C#學習之旅——C#方法過載與函式過載

目錄 過載 方法過載 函式過載 總結 過載 過載,簡單說,就是函式或者方法有相同的名稱,但是引數列表不相同的情形,這樣的同名不同引數的函式或者方法之間,互相稱之為過載函式或者方法。 過載的

的C#學習之旅——委託

目錄 一、什麼是委託 二、委託概述 三、宣告委託型別 四、建立委託物件 五、給委託賦值 六、為委託新增方法 七、為委託移除方法 八、總結 一、什麼是委託 1、委託(Delegate) 是存有對某個方法的引用的一種引用型別變數,引用可在執行時被