基於標題分類的文章主題句識別與提取方法
基於標題分類的主題句提取方法
基於標題分類的主題句提取方法可描述為: 給定一篇新聞報道, 計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。對於提示性標題,抽取新聞報道中與其最相似的句子作為主題句; 否則, 綜合利用多種特徵計算新聞報道中句子的重要性, 將得分最高的句子作為主題句。
演算法過程:
1. 構造新聞的主題詞集
(1) 對於爬取的有標籤的或關鍵詞的文章,將標籤作為主題詞集的一部分。
(2) 對文字做預處理,分句、分詞並去除停用詞,詞性過濾、詞頻過濾。
(3) 使用TF-IDF計算文章中每個詞的權重,該處主要是計算詞的權重,也可以使用其他方法如word2vec,進行主題詞提取。然後選取K個詞作為主題詞集。加上標籤共選20個詞作為每篇文章的主題詞集。
2. 標題分類
將標題分為兩類,一類是有提示性,一類是沒有提示性。計算標題與主題詞集的相似度。
(1) 對標題分詞,然後計算標題與主題詞集中詞的重合的個數。將個數作為相似度度量。僅考慮實義詞如:動詞、名詞、命名實體等。這裡設定相似度的閥值為1,即重合的個數大於等於1時該標題具有提示性,重合的個數小於1時不具有提示性。
標題具有提示性標記為1,不具有提示性標記為0。
3. 主題句特徵選取
(1) 句子的相對詞頻
先根據之前計算出的詞的權重,計算出每個句子的所有詞的權重的和A作為這個句子的相對詞頻,然後找出所有句子中具有最大相對詞頻的句子,對應的詞的權重和為B。
Score(Si)=A/B
(2) 句子位置
對於一篇文章中的第i條句子Si.
這裡l=3。需要按段分句。
(3) 句子長度
主題句傾向於取長句子。
這裡C=16。
(4) 命名實體
對句子中出現的如who/whom/when/where這裡命名實體詞做統計,出現這種詞越多的句子是主題句的可能性越大。若命名實體詞出現的次數為A,句子的長度為B。則:
Score(Si)=A/B.
(5) 句子與標題的重合度
首先找出句子跟標題重合的詞,計算重合的詞的權重和為A,然後計算標題的每個詞的權重和為B。
Score(Si)=A/B
把上面每一步計算出的結果作為句子的特徵值。
4. 主題句提取
計算每個句子的總分,每個句子的總分是各個特徵分量的線性組合。
ɑ表示標題是否具有提示性,若標題具有提示性則該值為1,否則該值為0。
Wk是(1)-(4)對應特徵的權重。Scorek為特徵計算值。
Wk的確定需要基於訓練語料訓練後得到最優組合。
5. 特徵權重引數學習
使用GIS通過迭代演算法進行特徵權重的估計。
確定(1)-(5)的權重分別為term:0.1,loc:0.5,len:0.1,ne:0.1,ht:0.2。
參考:中文新聞關鍵事件的主題句識別 北京大學學報(自然科學版), 第47 卷, 第5 期