NLP 進行文字摘要的三種策略程式碼實現和對比：TextRank vs Seq2Seq vs BART

阿新 • • 發佈：2022-04-13

本文將使用 Python 實現和對比解釋 NLP中的3 種不同文字摘要策略：老式的 TextRank（使用 gensim）、著名的 Seq2Seq（使基於 tensorflow）和最前沿的 BART（使用Transformers ）。

NLP（自然語言處理）是人工智慧領域，研究計算機與人類語言之間的互動，特別是如何對計算機進行程式設計以處理和分析大量自然語言資料。最難的 NLP 任務是輸出不是單個標籤或值（如分類和迴歸），而是完整的新文字（如翻譯、摘要和對話）的任務。

文字摘要是在不改變其含義的情況下減少文件的句子和單詞數量的問題。有很多不同的技術可以從原始文字資料中提取資訊並將其用於摘要模型，總體來說它們可以分為提取式（Extractive）和抽象式（Abstractive）。提取方法選擇文字中最重要的句子（不一定理解含義），因此作為結果的摘要只是全文的一個子集。而抽象模型使用高階 NLP（即詞嵌入）來理解文字的語義並生成有意義的摘要。抽象技術很難從頭開始訓練，因為它們需要大量引數和資料，所以一般情況下都是用與訓練的嵌入進行微調。

本文比較了 TextRank（Extractive）的老派方法、流行的編碼器-解碼器神經網路 Seq2Seq（Abstractive）以及徹底改變 NLP 領域的最先進的基於注意力的 Transformers（Abstractive）。

本文將使用“CNN DailyMail”資料集，包含了數千篇由 CNN 和《每日郵報》的記者用英語撰寫的新聞文章，以及每篇文章的摘要，資料集和本文的程式碼也都會在本文末尾提供。

首先，我需要匯入以下庫：

## for data
import datasets #(1.13.3)
import pandas as pd #(0.25.1)
import numpy #(1.16.4)
## for plotting
import matplotlib.pyplot as plt #(3.1.2)
import seaborn as sns #(0.9.0)
## for preprocessing
import re
import nltk #(3.4.5)
import contractions #(0.0.18)
## for textrank
import gensim #(3.8.1)
## for evaluation
import rouge #(1.0.0)
import difflib
## for seq2seq
from tensorflow.keras import callbacks, models, layers, preprocessing as kprocessing #(2.6.0)
## for bart
import transformers #(3.0.1)

然後我使用 HuggingFace 的載入資料集：

## load the full dataset of 300k articles
dataset = datasets.load_dataset("cnn_dailymail", '3.0.0')
lst_dics = [dic for dic in dataset["train"]]
## keep the first N articles if you want to keep it lite
dtf = pd.DataFrame(lst_dics).rename(columns={"article":"text",
"highlights":"y"})[["text","y"]].head(20000)
dtf.head()

讓我們檢查一個隨機的樣本：

i = 1
print("--- Full text ---")
print(dtf["text"][i])
print("--- Summary ---")
print(dtf["y"][i])

在上圖中，我將摘要中提到的資訊手動標記為紅色。體育文章對機器來說是非常困難的，因為標題需要在有限的字元限制的情況下突出主要結果。這個例項可能是一個非常好的例子，我會將這個示例保留在測試集中以比較模型。

dtf_train = dtf.iloc[i+1:]
dtf_test = dtf.iloc[:i+1]

TextRank

TextRank (2004) 是一種基於圖的文字處理排名模型，基於 Google 的 PageRank 演算法，可在文字中找到最相關的句子。 PageRank 是 1998 年 Google 搜尋引擎使用的第一個對網頁進行排序的演算法。簡而言之，如果頁面 A 連結到頁面 B，頁面 C，頁面 B 連結到頁面 C，那麼排序將是頁面 C，頁面 B，頁面 A。

完整文章：

https://www.overfit.cn/post/ce018bb0dd574f2e982ed5e136d4af77

NLP 進行文字摘要的三種策略程式碼實現和對比：TextRank vs Seq2Seq vs BART

TextRank

NLP 進行文字摘要的三種策略程式碼實現和對比：TextRank vs Seq2Seq vs BART

Elasticsearch es三種分頁方式和對比

java從命令列獲取資料的三種方式程式碼例項

Spring建立bean物件三種方式程式碼例項

【記錄】mybatis-plus 更新欄位的三種策略解析

Java 對HashMap進行排序的三種常見方法

關於ZeroMQ 三種模式python3實現方式

MySQL三種InnoDB、MyISAM和MEMORY儲存引擎對比

三種方法快速實現佇列

搭建三種不同yum倉庫和PXE無人值守安裝系統

Java實現多執行緒的三種方式(3) ------實現Callable<V>介面

React中事件繫結this指向三種方法的實現

教你三種jQuery框架實現元素顯示及隱藏動畫方式

三分鐘零程式碼實現CAD網頁Web快速看圖和高科技效果展示

兩行css程式碼實現瀑布流：html,css最簡單的瀑布流實現方式

兩種動態代理實現和區別

python 對任意資料和曲線進行擬合併求出函式表示式的三種解決方案

詳解java程式碼中init method和destroy method的三種使用方式

Winform中通過NPOI匯出Excel的三種方式(HSSFWorkbook，XSSFWorkbook，SXSSFWorkbook)附程式碼下載

Python Switch Case三種實現方法程式碼例項

NLP 進行文字摘要的三種策略程式碼實現和對比：TextRank vs Seq2Seq vs BART

TextRank

相關推薦