1. 程式人生 > >STITP專案筆記1

STITP專案筆記1

之前的國慶假期什麼也沒幹,感覺這樣下去不行啊。覺得以前的專案申報書看的有點暈,所以這裡把裡面的乾料提出來。

當然,這裡摘出來的都是我關注的部分。一些更具體的技術摘要我沒有

基於觀點挖掘的中國國家形象分析研究

研究目標

主要研究分析中國國家形象,利用自動化和智慧化的方法從大量的分散的資訊源中針對具體的分析目標進行主觀資訊抓取、計算及分析,從而實現對中國國家形象的主觀看法的綜合分析。

何為觀點挖掘

觀點挖掘是對描述非事實的主觀文字自動進行抽取和分析的一種方法,是多學科的綜合的研究領域,與文字挖掘、自然語言處理、概率論、統計資料分析、語料語言學、視覺化技術等均相關。新興的觀點挖掘強調利用自動化和智慧化的方法從大量分散的資訊源

中針對資訊進行觀點挖掘,可以獲得國家形象的整體和各個方面的評價,從而為決策層提供更加有價值的資訊。

觀點挖掘的任務是從自然語言文字中抽取觀點,其中一個觀點是由以下要素構的元組:1)評價者,即發表觀點的實體。2)評價物件,即被評價的實體。3)評價詞,即能夠體現評價者對評價物件的觀點的詞語。4)觀點傾向,即通過評價詞所體現的評價者對評價物件的正面或者負面的傾向。

研究內容

  1. 中國國家形象領域知識庫構建

  2. 基於規則集和領域知識庫的觀點挖掘

我們這個課題採用基於規則集的句子級觀點挖掘方法

研究內容包括:1)基於句子的依存句法關係設計觀點抽取規則集,使用依存句法分析可以處理否定、被動語態、轉折和淺語義分析等多種複雜語法現象;2)基於觀點抽取規則集和領域知識庫進行觀點元組各個要素的抽取,領域知識庫用來判斷抽取的觀點元組中的評價物件是否屬於中國國家形象領域

;3)根據抽取的觀點元組計算對於中國國家形象各個領域的觀點傾向,最後綜合各個領域的觀點得到對於中國國家形象的整體觀點。

總結到這裡,看得有點頭大。

這裡我用自己的話陳述一下。

首先,觀點挖掘是什麼,上面講的已經很清楚了。我比較有疑問的是兩點:

第一點:國家形象領域知識庫是什麼?

結合已有的綜合國力和國家形象要素的研究,總結出國家形象戰略資源所包括的主要要素並製成圖表。根據表的基本維度和次級維度,並結合中國的具體國情,可以基本確定中國國家形象領域知識庫的概念體系層次結構。又根據表中對次級維度的深層內涵的描述可以界定各個維度的範圍,從而為半自動地獲取相關領域的詞彙提供依據。

知識庫的概念來自兩個不同的領域,一個是人工智慧及其分支-知識工程領域,另一個是傳統的資料庫領域。那我們這個課題屬於哪種呢?區分這個好像並沒有多大的必要。需要注意的是,知識庫是需要不斷更新的。結合之前隊友的想法來看,可以設想最後的實現形式

是:在一臺伺服器上定期執行指令碼,執行程式碼,爬取需要爬取的資料(這裡應該是國外主流媒體網站對中國的報道版塊),然後解析(這裡先用簡單的兩個字概括下),更新知識庫,over。

這個知識庫存放“解析”出的結果,應該擁有便於查詢的特性。

然而,依然不清楚知識庫裡放的是什麼,格式是什麼(比如JSON)。

再往下看到圖1,發現知識庫只是起到過濾和輔助抽取的作用,即過濾爬取的網頁文字中與中國無關的資訊以及抽取相關評價物件。

疑問依然存在。。。

第二點:關於整個觀點抽取和計算環節的所有問題。

申報書上說的只是大體思路。