1. 程式人生 > >一篇簡短的文字摘要綜述

一篇簡短的文字摘要綜述

摘要的定義

對海量資料內容進行提煉與總結,以簡潔、直觀的摘要來概括使用者所關注的主要內容,方便使用者快速瞭解與瀏覽海量內容。

文字摘要

這篇主要講的還是文字摘要

早期論文
Luhn. The Automatic Creation of Literature Abstracts (1958)

困難在哪
摘要撰寫是一項高度智慧,同時也很” 自由” 的任務
機器寫摘要 vs. 專家寫摘要

摘要的分類

  • 單文件摘要
  • 多文件摘要
  • 查詢相關的多文件摘要

評價指標

這裡寫圖片描述

摘要方法的分類

這裡寫圖片描述

抽取式方法的關鍵技術

這裡寫圖片描述

經典框架

這裡寫圖片描述

如何去衡量一個句子的重要性
 句子長度
 句子位置
 句子中詞語的TFIDF
 句子是否包括線索詞
 句子是否與標題相似

基於單一因素的摘要方法

這裡寫圖片描述

基於啟發式規則

基於圖排序

這裡寫圖片描述

有監督的方法

這裡寫圖片描述

這邊可以稍微總結一下句子重要性計算的一些方法,如下圖
這裡寫圖片描述

整數線性規劃問題

基於次模函式的方法

生成式文字摘要

幾類典型做法
 基於形式化語義表示
 基於短語選擇與拼湊
 基於深度學習之序列轉換模型

語義子圖

 文字=>語義圖=>子圖選擇=>摘要生成
 語義圖: 可淺如語義角色,可深如AMR

短語拼接

 文字=>多個短語=>摘要生成
 不利用複雜的語義資訊,化繁為簡
 主要步驟
 短語重要性的計算
 利用ILP方法進行短語選擇與
拼湊構造摘要語句

序列到序列