基於標題分類的文章主題句識別與提取方法

阿新 • • 發佈：2019-01-05

基於標題分類的主題句提取方法

基於標題分類的主題句提取方法可描述為: 給定一篇新聞報道, 計算標題與新聞主題詞集的相似度, 判斷標題是否具有提示性。對於提示性標題,抽取新聞報道中與其最相似的句子作為主題句; 否則, 綜合利用多種特徵計算新聞報道中句子的重要性, 將得分最高的句子作為主題句。

演算法過程：

1. 構造新聞的主題詞集

（1）對於爬取的有標籤的或關鍵詞的文章，將標籤作為主題詞集的一部分。

（2）對文字做預處理，分句、分詞並去除停用詞，詞性過濾、詞頻過濾。

（3）使用TF-IDF計算文章中每個詞的權重，該處主要是計算詞的權重，也可以使用其他方法如word2vec，進行主題詞提取。然後選取K個詞作為主題詞集。加上標籤共選20個詞作為每篇文章的主題詞集。

2. 標題分類

將標題分為兩類，一類是有提示性，一類是沒有提示性。計算標題與主題詞集的相似度。

（1）對標題分詞，然後計算標題與主題詞集中詞的重合的個數。將個數作為相似度度量。僅考慮實義詞如：動詞、名詞、命名實體等。這裡設定相似度的閥值為1，即重合的個數大於等於1時該標題具有提示性，重合的個數小於1時不具有提示性。

標題具有提示性標記為1，不具有提示性標記為0。

3. 主題句特徵選取

（1）句子的相對詞頻

先根據之前計算出的詞的權重，計算出每個句子的所有詞的權重的和A作為這個句子的相對詞頻，然後找出所有句子中具有最大相對詞頻的句子，對應的詞的權重和為B。

Score(Si)=A/B

（2）句子位置

對於一篇文章中的第i條句子Si.

這裡l=3。需要按段分句。

（3）句子長度

主題句傾向於取長句子。

這裡C=16。

（4）命名實體

對句子中出現的如who/whom/when/where這裡命名實體詞做統計，出現這種詞越多的句子是主題句的可能性越大。若命名實體詞出現的次數為A，句子的長度為B。則：

Score(Si)=A/B.

（5）句子與標題的重合度

首先找出句子跟標題重合的詞，計算重合的詞的權重和為A，然後計算標題的每個詞的權重和為B。

Score(Si)=A/B

把上面每一步計算出的結果作為句子的特徵值。

4. 主題句提取

計算每個句子的總分，每個句子的總分是各個特徵分量的線性組合。

ɑ表示標題是否具有提示性，若標題具有提示性則該值為1，否則該值為0。

Wk是（1）-（4）對應特徵的權重。Scorek為特徵計算值。

Wk的確定需要基於訓練語料訓練後得到最優組合。

5. 特徵權重引數學習

使用GIS通過迭代演算法進行特徵權重的估計。

確定（1）-（5）的權重分別為term:0.1,loc:0.5,len:0.1,ne:0.1,ht:0.2。

參考：中文新聞關鍵事件的主題句識別北京大學學報(自然科學版), 第47 卷, 第5 期

基於標題分類的文章主題句識別與提取方法

基於標題分類的文章主題句識別與提取方法

基於文字模式的主題模式識別

基於樹莓派的實時目標識別與移動目標監測系統

基於OpenCV的簡易四肢位置識別與動作識別

信息組織與提取方法

基於geotools的(兩個)SHP要素變化提取方法討論

python網絡爬蟲與信息提取——5.信息組織與提取方法

BeautifulSoup 庫 & 資訊標記與提取方法

資訊標記與提取方法（XML、JSON、YAML）

Python網路爬蟲與資訊提取-Day9-資訊標記與提取方法

第十九節、基於傳統影象處理的目標檢測與識別(詞袋模型BOW+SVM附程式碼)

【模式識別與機器學習】——3.9勢函式法：一種確定性的非線性分類方法

【目標檢測】目標檢測原理與實現(五)--基於Cascade分類器的目標檢測

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

機器視覺 OpenCV—python 基於LSTM網路的OCR文字檢測與識別

基於ROS的Most Stars開原始碼彙總（自動駕駛汽車+RGBDSLAMv2+ROS2+人識別與跟蹤等）

語音識別與分類（三分類）

wordpress主題首頁與分類頁的分頁怎樣實現？

第十八節、基於傳統影象處理的目標檢測與識別(HOG+SVM附程式碼)

表情識別（二）--基於CNN分類

基於標題分類的文章主題句識別與提取方法

相關推薦