無監督中文抽取式摘要

阿新 • • 發佈：2021-06-20

Github :https://github.com/dmmiller612/bert-extractive-summarizer

該git提供了一箇中文無監督抽取關鍵句的方法，主要思想就是bert做向量表示，然後利用聚類計算距離。本文提供了中文的實現方法

pip install bert-extractive-summarizer
pip install spacy==2.3.1
pip install transformers
pip install neuralcoref
python -m spacy download zh_core_web_lg #中文spacy

import spacy
import zh_core_web_lg
import neuralcoref

nlp = zh_core_web_lg.load()
neuralcoref.add_to_pipe(nlp)

# summarizer 中文模型
from summarizer import Summarizer
from summarizer.sentence_handler import SentenceHandler
from spacy.lang.zh import Chinese
from transformers import *

# Load model, model config and tokenizer via Transformers
modelName = "bert-base-chinese" 
custom_config = AutoConfig.from_pretrained(modelName)
custom_config.output_hidden_states=True
custom_tokenizer = AutoTokenizer.from_pretrained(modelName)
custom_model = AutoModel.from_pretrained(modelName, config=custom_config)

model = Summarizer(
    custom_model=custom_model, 
    custom_tokenizer=custom_tokenizer,
    sentence_handler = SentenceHandler(language=Chinese)
    )
body = "要摘要的文章"

result = model(body)
full = ''.join(result)
print(full) # 摘要出來的句子
函式引數
model(
    body: str # The string body that you want to summarize
    ratio: float # The ratio of sentences that you want for the final summary
    min_length: int # Parameter to specify to remove sentences that are less than 40 characters
    max_length: int # Parameter to specify to remove sentences greater than the max length,
    num_sentences: Number of sentences to use. Overrides ratio if supplied.
)

無監督中文抽取式摘要

Github :https://github.com/dmmiller612/bert-extractive-summarizer 該git提供了一箇中文無監督抽取關鍵句的方法，主要思想就是bert做向量表示，然後利用聚類計算距離。本文提供了中文的實現方法

【Scikit-Learn 中文文件】新異類和異常值檢測 - 無監督學習 - 使用者指南 | ApacheCN

中文文件: http://sklearn.apachecn.org/cn/stable/modules/outlier_detection.html 英文文件: http://sklearn.apachecn.org/en/stable/modules/outlier_detection.html

無監督學習 MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

用於視覺表示學習的動量對比。作者：Kaiming He 以及FAIR的一眾大佬 Summary 這篇文章主要解決的是無監督視覺表示學習問題。作者從將對比學習看做字典查詢（dictionary look-up）出發，使用佇列（queue）和

邱錫鵬神經網路與深度學習課程【十三】——無監督學習和概率圖模型1

無監督學習定義：只從無標籤的資料中學習出一些有用的模式典型的無監督學習：深度學習中只考慮前兩個問題即可

無監督深度估計、運動估計的深度學習方法（二）

技術標籤：視覺里程計depth estimation深度學習自動駕駛計算機視覺在自監督深度估計中，一般輸入2張影象（若為視訊，則輸入鄰近的兩幀影象）frame1和frame2，模型先估計相機拍攝這2張影象是的姿態變化pose，然後

無監督學習-K-means演算法

1、什麼是無監督學習一家廣告平臺需要根據相似的人口學特徵和購買習慣將美國人口分成不同的小組，以便廣告客戶可以通過有關聯的廣告接觸到他們的目標客戶。

Tensorflow2.0 無監督學習AVE

技術標籤：TensorFlow Auto Encoder的升級版 import numpy as np import tensorflow as tf from PIL import Image

【異常檢測】DAGMM：結合深度自編碼器器和GMM的端到端無監督網路（二）：程式碼實戰（PyTorch）

技術標籤：paper研讀機器學習異常檢測無監督學習程式碼部分基於PyTorch1.6.0，使用網路入侵異常檢測資料集KDDCUP99來訓練和評測，完整程式碼見：GitHub。

07無監督學習-降維PCA

PCA方法及其應用主成分分析(PCA) 主成分分析(Principal Component Analysis, PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。

08無監督學習-降維NMF

NMF方法及例項非負矩陣分解（NMF）非負矩陣分解(Non-negative Matrix Factorization，NMF)是在矩陣中所有元素均為非負數約束條件之下的矩陣分解方法。

無監督-DEEP GRAPH INFOMAX

無監督-DEEP GRAPH INFOMAX 標籤：圖神經網路、無監督動機在真實世界中，圖的標籤是較少的，而現在圖神經的高效能主要依賴於有標籤的真是資料集

無監督-TOPOTER: UNSUPERVISED LEARNING OF TOPOLOGY TRANSFORMATION EQUIVARIANT REPRESENTATIONS

無監督-TOPOTER: UNSUPERVISED LEARNING OF TOPOLOGY TRANSFORMATION EQUIVARIANT REPRESENTATIONS 標籤：無監督學習、圖神經網路

3種基於深度學習的有監督關係抽取方法

摘要：本文對幾種基於深度學習的有監督關係抽取方法進行了介紹，包括CNN關係抽取、BiLSTM關係抽取以及BERT關係抽取。

監督學習，無監督學習常用演算法集合總結，引用scikit-learn庫（監督篇）

why寫這篇blog 最近在接觸這方面的知識，但是找了許多的筆記，都感覺沒有很好的總結出來，也正好當做是邊學習，邊複習著走。大佬輕噴。參考書目《python機器學習基礎教程》

使用孤立森林進行無監督的離群檢測

孤立森林是一種無監督演算法的異常檢測，可以快速檢測資料集中的異常值。

【機器學習基礎】無監督學習（2）——降維之LLE和TSNE

在上一節介紹了一種最常見的降維方法PCA，本節介紹另一種降維方法LLE，本來打算對於其他降維演算法一併進行一個簡介，不過既然看到這裡了，就對這些演算法做一個相對詳細的學習吧。

對比學習（Contrastive Learning）綜述——無監督學習+特徵抽象，損失函式：同類儘可能近，不同類儘可能遠，思想和聚類類似

寫在前面由於最近開始在看對比學習的一些相關工作，想把學到的東西記錄一下。本文前半部分基於Ankesh Anand關於Contrastive Learning的blog中的內容，想看原文的可以移步下面連結：

監督學習無監督學習半監督學習自監督學習

機器學習中有幾個帶有“監督”二字的名詞，易混淆，寫篇部落格解釋一下下~

無監督學習 Kmeans

無監督學習自動對輸入資料進行分類或者分群優點：演算法不受監督資訊（偏見）的約束，可能考慮到新的資訊

智慧主題檢測與無監督機器學習：識別顏色教程

介紹人工智慧學習通常由兩種主要方法組成：監督學習和無監督的學習。監督學習包括使用現有的訓練集，這種訓練集由預先標記的分類資料列組成。機器學習演算法會發現資料的特徵和這一列的標籤(或輸出)之間的關聯。通

無監督中文抽取式摘要

相關推薦