讀《基於文件主題結構的關鍵詞抽取方法研究》有感(一)
沒錯,這是一篇讀後感。今天拜讀了劉知遠老師的博士畢業論文。
一、研究內容:
1、基於文件內部資訊,利用文件的詞聚類演算法構建文件主題,進行關鍵詞抽取。
2、基於文件外部資訊,利用隱含主題模型構建文件主題,進行關鍵詞抽取。
3、綜合利用隱含主題模型和文件結構資訊,進行關鍵詞抽取。
4、基於文件與關鍵詞主題一致性的前提,提出基於機器翻譯模型的關鍵詞抽取方法。
二、文中相關論文
1、Page Rank
http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
2、Text Rank
三、 引言中提到的web2.0
雖然之前也多有耳聞,但沒有去搜過其真正含義,今日便copy如下:
一、web1.0和web2.0的各自特點
web1.0主要特點
web1.0時代是一個群雄並起,逐鹿網路的時代,雖然各個網站採用的手段和方法不同,但第一代網際網路有諸多共同的特徵,表現在:
1、web1.0基本採用的是技術創新主導模式,資訊科技的變革和使用對於網站的新生與發展起到了關鍵性的作用。新浪的最初就是以技術平臺起家,搜狐以搜尋技術起家,騰訊以即時通訊技術起家,盛大以網路遊戲起家,在這些網站的創始階段,技術性的痕跡相當之重。
2、web1.0的盈利都基於一個共通點,即巨大的點選流量。無論是早期融資還是後期獲利,依託的都是為數眾多的使用者和點選率,以點選率為基礎上市或開展增值服務,受眾群眾的基礎,決定了盈利的水平和速度,充分地體現了網際網路的眼球經濟色彩。
3、web1.0的發展出現了向綜合門戶合流現象,早期的新浪與搜狐、網易等,繼續堅持了入口網站的道路,而騰訊、MSN、GOOGLE等網路新貴,都紛紛走向了門戶網路,尤其是對於新聞資訊,有著極大的、共同的興趣。這一情況的出現,在於入口網站本身的盈利空間更加廣闊,盈利方式更加多元化,佔據網站平臺,可以更加有效地實現增值意圖,並延伸由主營業務之外的各類服務。
4、web1.0的合流同時,還形成了主營與兼營結合的明晰產業結構。新浪以新聞+廣告為主,網易拓展遊戲,搜狐延伸門戶矩陣,各家以主營作為突破口,以兼營作為補充點,形成拳頭加肉掌的發展方式。
5、web1.0不以html為言,在1.0時代,動態網站已經廣泛應用,比如論壇等
Web 2.0主要特點
1、多人蔘與
Web1.0裡,網際網路內容是由少數編輯人員(或站長)定製的,比如搜狐;而在Web2.0裡,每個人都是內容的供稿者。Web2.0的內容更多元化:標籤tag、多媒體、線上協作等等。在Web2.0資訊獲取渠道里,RSS訂閱扮演者一個很重要的作用。我也一直推薦閱讀者以訂閱的方式閱讀可能吧的文章。
2、人是靈魂
在網際網路的新時代,資訊是由每個人貢獻出來的。各個人共同組成網際網路資訊源。Web2.0的靈魂是人。
3、可讀可寫網際網路
在Web1.0裡,網際網路是“閱讀式網際網路”,而Web2.0是“可寫可讀網際網路”。雖然每個人都參與資訊供稿,但在大範圍裡看,貢獻大部分內容的是小部分的人。
4、Web2.0的元素
Web2.0包含了我們經常使用到的服務,例如部落格、播客、維基、P2P下載、社群、分享服務等等。
5、個人看法
Web2.0實際上是對Web1.0的資訊源進行擴充套件,使其多樣化和個性化。
部落格是Web2.0裡十分重要的元素,因為它打破了入口網站的資訊壟斷,在未來裡,部落格的地位將更為重要。
二、web1.0和web2.0的主要區別
Web2.0 是相對Web1.0 的新的一類網際網路應用的統稱。Web1.0 的主要特點在於使用者通過瀏覽器獲取資訊。Web2.0 則更注重使用者的互動作用,使用者既是網站內容的瀏覽者,也是網站內容的製造者。所謂網站內容的製造者是說網際網路上的每一個使用者不再僅僅是網際網路的讀者,同時也成為網際網路的作者;不再僅僅是在網際網路上衝浪,同時也成為波浪製造者;在模式上由單純的“讀”向“寫”以及“共同建設”發展;由被動地接收網際網路資訊向主動創造網際網路資訊發展,從而更加人性化!
四、引言中提到的兩個問題
1、在傳統關鍵詞標註的方法中,以TextRank為代表的圖方法的優勢在於考慮文件中詞與詞之間的語義關係;以TFIDF為代表的統計方法則僅僅考慮詞的統計性質。但是TFIDF和TextRank等方法均沒有考慮所抽取的關鍵詞對文件主題的覆蓋度問題,導致推薦的關鍵詞往往集中在某一個大的主題中,而沒有顧及文件的其他主題。
2、在關鍵詞標註中,關鍵詞與文件的相關性是推薦關鍵詞的重要指標。傳統的方法如TFIDF僅依靠候選關鍵詞在文件中的統計性質進行排序,而TextRank雖然在一定程度上考慮了文件中詞與詞之間的關係,但仍然傾向於選擇文件中出現較為頻繁的詞作為關鍵詞。而文件的關鍵詞與文件往往存在一定的詞彙差異現象,主要表現在兩個方面:
1. 很多關鍵詞在文件中的統計特性並不顯著,也就是說文件的某些關鍵詞本身並不一定在文件中頻繁出現。
2. 在某些情況下,如文件較短的時候,一些關鍵詞甚至並不出現在文件中。