關於文件檢索03

阿新 • • 發佈：2020-08-07

通過詞頻，對文章進行自動摘要(Automatic summarization)

摘要呢分為人工摘要和自動摘要。自動摘要呢，就是要找到那些包含資訊最多的句子。有些句子包含資訊多，有些句子包含資訊少，自動摘要就是要找到那些包含資訊最多的句子。

句子資訊用關鍵詞來衡量。如果包含的關鍵詞越多，就說明這個句子越重要。有一個概念呢，就是用簇cluster表示關鍵詞的聚集。所謂的簇就是包含多個關鍵詞的句子片段。

當然了，我們稱被框起來的部分是一個簇，只要管家此的距離小於門檻值，他們就被認為處於同一個簇之中，專家的建議門檻是4或5.也就是說兩個關鍵詞之間有5個以上的其他詞，就可以把兩個關鍵詞分在兩個簇。

在對每一個簇，都計算他的重要性分值

下以這個圖為例有

其中的簇一共有7個詞，其中4個是關鍵詞。因此，它的重要性分值等於 ( 4 x 4 ) / 7 = 2.3。然後，找出包含分值最高的簇的句子（比如5句），把它們合在一起，就構成了這篇文章的自動摘要。

Luhn的這種演算法後來被簡化，不再區分"簇"，只考慮句子包含的關鍵詞。下面就是一個例子（採用偽碼錶示），只考慮關鍵詞首先出現的句子。

Summarizer(originalText, maxSummarySize):

　　　　// 計算原始文字的詞頻，生成一個數組，比如[(10,'the'), (3,'language'), (8,'code')...]
　　　　wordFrequences = getWordCounts(originalText)

　　　　// 過濾掉停用詞，陣列變成[(3, 'language'), (8, 'code')...]
　　　　contentWordFrequences = filtStopWords(wordFrequences)

　　　　// 按照詞頻進行排序，陣列變成['code', 'language'...]
　　　　contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

　　　　// 將文章分成句子
　　　　sentences = getSentences(originalText)

　　　　// 選擇關鍵詞首先出現的句子
　　　　setSummarySentences = {}
　　　　foreach word in contentWordsSortbyFreq:
　　　　　　firstMatchingSentence = search(sentences, word)
　　　　　　setSummarySentences.add(firstMatchingSentence)
　　　　　　if setSummarySentences.size() = maxSummarySize:
　　　　　　　　break

　　　　// 將選中的句子按照出現順序，組成摘要
　　　　summary = ""
　　　　foreach sentence in sentences:
　　　　　　if sentence in setSummarySentences:
　　　　　　　　summary = summary + " " + sentence

　　　　return summary

虛擬碼中貌似沒有考慮句子重複的問題。

關於文件檢索03

通過詞頻，對文章進行自動摘要(Automatic summarization) 摘要呢分為人工摘要和自動摘要。自動摘要呢，就是要找到那些包含資訊最多的句子。有些句子包含資訊多，有些句子包含資訊少，自動摘要就是要找到那些包含資訊

elasticsearch文件檢索流程

這裡以es多節點叢集部署來做說明。單節點與之類似。基於es 7.1版本。叢集模式下，對於document的檢索稱為 Distribute document search。在簡單的三節點叢集中，假設一個index有兩個primary shard，每個shard有2個re

在.NET Core中使用MongoDB明細教程(2)：使用Filter語句檢索文件

在上篇文章我們介紹了一些驅動程式相關的基礎知識，以及如何將文件插入到集合中。在這篇文章中，我們將學習如何從資料庫中檢索文件。

mongo-03-查詢文件

技術標籤：005-mongo實戰mongodb 1. find 讀取文件 db.<collection>.find(<query>,<projection>)

Go語言中文文件-03函式

函式定義 Go函式特點：不需要宣告原型可變數量引數多返回值命名返回值引數

使用EasyPoi輕鬆匯入匯出Excel文件的方法示例

提到Excel的匯入匯出，大家肯定都知道alibaba開源的EasyExcel，該專案的github地址為：https://github.com/alibaba/easyexcel。

將Swagger2文件匯出為HTML或markdown等格式離線閱讀解析

網上有很多《使用swagger2構建API文件》的文章，該文件是一個線上文件，需要使用HTTP訪問。但是在我們日常使用swagger介面文件的時候，有的時候需要介面文件離線訪問，如將文件匯出為html、markdown格式。又或者我們

SpringBoot基於Swagger2構建API文件過程解析

一、新增依賴  <dependency> <groupId>io.springfox</groupId>

Android整合騰訊X5實現文件瀏覽功能

Android內部沒有控制元件來直接顯示文件，跳轉WPS或其他第三方文件App體驗性不好，使用騰訊X5核心能很好的解決的這一問題。

python讀取word文件,插入mysql資料庫的示例程式碼

表格內容如下： 1、實現批量匯入word文件，取文件標題中的數字作為編號 2、除取上面打鉤的內容需要匹配出來入庫入庫，其他內容全部直接入庫mysql

mongodb如何對文件內陣列進行過濾的方法步驟

本文介紹了mongodb如何對文件內陣列進行過濾的方法步驟，分享給大家，具體如下：

python錯誤除錯及單元文件測試過程解析

這篇文章主要介紹了python錯誤除錯及單元文件測試過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Django生成PDF文件顯示網頁上以及PDF中文顯示亂碼的解決方法

專案地址：https://github.com/PythonerKK/django-generate-pdf/tree/master 這個demo實現了通過使用者輸入自己的個人資訊生成一份簡歷pdf，來闡述如何使用Django的HttpResponse生成PDF的文件。

使用apiDoc實現python介面文件編寫

apiDoc的安裝 npm install apidoc -g 點選官方文件生成api的終端命令：apidoc -i 程式碼所在路徑-o 生成檔案的路徑

Django 自動生成api介面文件教程

最近在寫測試平臺，需要實現一個節點伺服器的api,正好在用django，準備使用djangorestframework外掛實現。

python處理document文件保留原樣式

document文件格式、線段、圖片、頁首頁尾等都不變，供大家參考，具體內容如下

pytest中文文件之編寫斷言

編寫斷言使用assert編寫斷言 pytest允許你使用python標準的assert表示式寫斷言；例如，你可以這樣做：

python 使用pdfminer3k 讀取PDF文件的例子

1、安裝 pdfminer3k 通過pip安裝: pip install pdfminer3k 下載安裝：在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載，解壓。然後cmd命令進入到當前資料夾：

Python使用python-docx讀寫word文件

python-docx庫可用於建立和編輯Microsoft Word（.docx）檔案。官方文件：連結地址備註：

JS document文件的簡單操作完整示例

本文例項講述了JS document文件的簡單操作。分享給大家供大家參考，具體如下：