1. 程式人生 > >基於標題分類的文章主題句識別與提取方法

基於標題分類的文章主題句識別與提取方法

基於標題分類的主題句提取方法

基於標題分類的主題句提取方法可描述為: 給定一篇新聞報道, 計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。對於提示性標題,抽取新聞報道中與其最相似的句子作為主題句; 否則, 綜合利用多種特徵計算新聞報道中句子的重要性, 將得分最高的句子作為主題句。

演算法過程:


1.      構造新聞的主題詞集

(1)      對於爬取的有標籤的或關鍵詞的文章,將標籤作為主題詞集的一部分。

(2)      對文字做預處理,分句、分詞並去除停用詞,詞性過濾、詞頻過濾。

(3)      使用TF-IDF計算文章中每個詞的權重,該處主要是計算詞的權重,也可以使用其他方法如word2vec,進行主題詞提取。然後選取K個詞作為主題詞集。加上標籤共選20個詞作為每篇文章的主題詞集。

2.      標題分類

將標題分為兩類,一類是有提示性,一類是沒有提示性。計算標題與主題詞集的相似度。

(1)      對標題分詞,然後計算標題與主題詞集中詞的重合的個數。將個數作為相似度度量。僅考慮實義詞如:動詞、名詞、命名實體等。這裡設定相似度的閥值為1,即重合的個數大於等於1時該標題具有提示性,重合的個數小於1時不具有提示性。

標題具有提示性標記為1,不具有提示性標記為0。

3.      主題句特徵選取

(1)      句子的相對詞頻

先根據之前計算出的詞的權重,計算出每個句子的所有詞的權重的和A作為這個句子的相對詞頻,然後找出所有句子中具有最大相對詞頻的句子,對應的詞的權重和為B。

Score(Si)=A/B


(2)      句子位置

對於一篇文章中的第i條句子Si.


這裡l=3。需要按段分句。

(3)      句子長度

主題句傾向於取長句子。


這裡C=16。

(4)      命名實體

對句子中出現的如who/whom/when/where這裡命名實體詞做統計,出現這種詞越多的句子是主題句的可能性越大。若命名實體詞出現的次數為A,句子的長度為B。則:

Score(Si)=A/B.


(5)      句子與標題的重合度

首先找出句子跟標題重合的詞,計算重合的詞的權重和為A,然後計算標題的每個詞的權重和為B。

Score(Si)=A/B


把上面每一步計算出的結果作為句子的特徵值。

4.      主題句提取

計算每個句子的總分,每個句子的總分是各個特徵分量的線性組合。


ɑ表示標題是否具有提示性,若標題具有提示性則該值為1,否則該值為0。

Wk是(1)-(4)對應特徵的權重。Scorek為特徵計算值。

Wk的確定需要基於訓練語料訓練後得到最優組合。

5.      特徵權重引數學習

使用GIS通過迭代演算法進行特徵權重的估計。

確定(1)-(5)的權重分別為term:0.1,loc:0.5,len:0.1,ne:0.1,ht:0.2。

參考:中文新聞關鍵事件的主題句識別  北京大學學報(自然科學版), 第47 卷, 第5 期