如何快速生成十九大會議內容摘要

阿新 • • 發佈：2019-01-18

這兩天電視和朋友圈都是被十九大的內容刷屏的，

我呢偶爾也關心一下國家大事，

但是又沒有時間看幾個小時直播，看新聞報道又有些滯後了，

如何能第一時間領會十九大會議精神呢，不如來做一個自動摘要

攏共分三步：

1. 下載直播視訊

2. 識別出直播視訊中的文字

3. 對文字內容做摘要

我們以十九大開幕式當天習大大的報告內容為例

首先我們來到當天直播視訊的網頁，CCTV新聞專門開的一個直播地址

首先我們通過“移時回看”調到18號上午9點的位置

這個它直播的是流媒體，藉助瀏覽器，可以找到他的視訊流地址

藉助這個地址我們可以開始下載直播內容

我們的瀏覽器開始下載一個永無止境的東西，就是直播的內容，在下載目錄裡是這樣的

一個未確認的下載檔案，大小還在不斷增加，把他拷出來，憑直覺給他改個字尾，一般是flv

找個播放器播放一下，能放，沒問題，順便我們把視訊裡的音訊摳出來

有了男神做報告的音訊，下一步就是將音訊轉換為文字。語音識別發展了這麼長時間，市面上藉助語音識別的產品也不少，本以為這會是一件輕而易舉的事，沒想到並不如我所想。

首先搜了一下現成的錄音轉文字的軟體工具，有是有，目前局面是傳統人工轉寫與機器轉寫並存，人工的服務很多，機器的比如“錄音啦”之類，都價格不菲。一般的免費語音小助手之類的只支援實時錄音轉寫，而且大部分只適用短音訊，有道雲筆記算是比較好的了，但還是無法解決我的問題。

當然語音識別我們能呼叫現成服務介面，程式碼解決也是極好的。我首先想到的是科大訊飛，訊飛這幾年聲名極好，中文語音識別率應該是世界最好的了。註冊了訊飛的賬號，看了看開發文件卻是令人很失望，訊飛的介面有點保守了，且不說沒有Python包，到現在連RestAPI都不提供。是通過安卓，Java，Linux等不同平臺下載相應SDK包使用的。

除了科大訊飛，語音識別比較靠譜的還有IMB的沃森和百度的介面，看了一下沃森給的文件，也是用Java講的demo，懶得裝Java的開發工具，正好百度應用以前註冊過號，就果斷選擇百度的介面。百度的介面有Python示例也有RestAPI，呼叫很簡單，幾句話就OK了

from aip.speech import AipSpeech


reload(sys)
sys.setdefaultencoding('utf8')

APP_ID = 'xxxx'
API_KEY = 'xxxx'
SECRET_KEY = 'xxxx'

aipSpeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 讀取檔案
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 識別本地檔案
print aipSpeech.asr(get_file_content('十九大.wav'), 'pcm', 16000, {
    'lan': 'zh',
})

然後就GG了，content len too long!

百度語音識別的一個大坑就是不支援長音訊轉寫，音訊必須是60秒以內的。

也就基本只適用於手機語音助手之類的場景。

調查了一下，原來支援長語音轉寫的沒有幾家，貌似只能科大訊飛了，而且也是新上不久的服務。新使用者試用的話會送5小時音訊識別服務呼叫，他分標準版和電話版，合起來就是10個小時夠用了，很良心了。不過看看他試用完以後的購買資費表，還是覺得有點貴。

按照文件先跑他Java版SDK裡的sample，配置幾個ID，稍作修改也就可以了。

現在開幕式報告的音訊已經識別成文字了，訊飛在識別準確率方面還是靠譜的，部分內容如下：

[{"bg":"560","ed":"4400","nc":"1.0","onebest":"讓我們對他們的到來表示","si":"0","speaker":"1","wordsResultList":[{"alternativeList":[],"wc":"1.0000","wordBg":"23","wordEd":"56","wordsName":"讓","wp":"n"},{"alternativeList":[],"wc":"1.0000","wordBg":"56","wordEd":"127","wordsName":"我們","wp":"n"},{"alternativeList":[],"wc":"1.0000","wordBg":"127","wordEd":"150","wordsName":"對","wp":"n"},{"alternativeList":[],"wc":"0.9889","wordBg":"150","wordEd":"180","wordsName":"他們","wp":"n"},{"alternativeList":[],"wc":"1.0000","wordBg":"180","wordEd":"188","wordsName":"的","wp":"n"},{"alternativeList":[],"wc":"1.0000","wordBg":"188","wordEd":"287","wordsName":"到來","wp":"n"},{"alternativeList":[],"wc":"1.0000","wordBg":"287","wordEd":"379","wordsName":"表示","wp":"n"}]},{"bg":"4420","ed":"5690","nc":"1.0","onebest":"熱烈的","si":"1","speaker":"1","wordsResultList":[{"alternativeList":[],"wc":"1.0000","wordBg":"21","wordEd":"74","wordsName":"熱烈","wp":"n"},{"alternativeList":[],"wc":"0.9999","wordBg":"74","wordEd":"124","wordsName":"的","wp":"n"}]},{"bg":"5700","ed":"6700","nc":"1.0","onebest":"歡迎","si":"2","speaker":"1","wordsResultList":[{"alternativeList":[],"wc":"1.0000","wordBg":"24","wordEd":"74","wordsName":"歡迎","wp":"n"}]},{"bg":"16980","ed":"18190","nc":"1.0","onebest":"現在","si":"3","speaker":"1","wordsResultList":[{"alternativeList":[],"wc":"1.0000","wordBg":"17","wordEd":"116","wordsName":"現在","wp":"n"}]},{"bg":"18330","ed":"20690","nc":"1.0","onebest":"請習近平總書記","si":"4","speaker":"1","wordsResultList":[{"alternativeList":[],"wc":"1.0000","wordBg":"31","wordEd":"82","wordsName":"請","wp":"n"},{"alternativeList":[],"wc":"1.0000","wordBg":"82","wordEd":"142","wordsName":"習近平","wp":"n"},{"alternativeList":

這是他返回的Json，主要的識別結果在"onebest":"xxx"裡，寫一個正則提取一下，串起來就是這個樣子：

讓我們對他們的到來表示熱烈的歡迎現在請習近平總書記代表18屆中央委員會向大會作報告，同志們，我現在代表第18屆中央委員會向大會作報告。中國共產黨第19次全國代表大會是在全面建成小康社會決勝階段中國特色社會主義進入新時代，但關鍵時期召開的一次十分重要的大會，大會的主題是不忘初心，牢記使命，高舉中國特色社會主義偉大旗幟，決勝全面建成小康社會奪取新時代中國特色社會主義偉大勝利，為實現中華民族偉大復興的中國夢不懈奮鬥，不忘初心方得始終中國共產黨人的初心和使命就是為中國人民謀幸福，為中華民族謀復興這個初心和使命是激勵中國共產黨人不斷前進的根本動力。

有了報告的文字的內容，藉助開源的TextRank4ZH對文字做一些自動分析

# -*- coding:utf-8 -*-

import sys
import codecs
from textrank4zh import TextRank4Keyword, TextRank4Sentence

reload(sys)
sys.setdefaultencoding('utf8')

text = codecs.open('text.txt', 'r', 'utf-8').read()
tr4w = TextRank4Keyword()

tr4w.analyze(text=text, lower=True, window=4)

print('關鍵詞：')
for item in tr4w.get_keywords(1000, word_min_len=4):
    print item.word, item.weight

print()
print('關鍵短語：')
for phrase in tr4w.get_keyphrases(keywords_num=40, min_occur_num=4):
    print phrase

tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source='all_filters')

print()
print('摘要：')
for item in tr4s.get_key_sentences(num=5):
    print item.index, item.weight, item.sentence  # index是語句在文字中位置，weight是權重

這個包實現了TextRank演算法，我們分別對報告文字提取關鍵詞，關鍵短語和摘要句

用wordcloud生成詞雲。這裡我們是用TextRank的關鍵詞排名結果來決定詞塊大小，而不是用jieba分的詞，所以用關鍵詞權值乘上10000作為該詞在畫圖用的詞串中的出現次數，放到以空格隔開的詞串裡，再畫詞雲。

# -*- coding:utf-8 -*-

import sys
import codecs
from wordcloud import WordCloud
from scipy.misc import imread
from random import shuffle

reload(sys)
sys.setdefaultencoding('utf8')

in_file = open('keyword.txt', 'r')
key_list = []
comment_text = ''
for line in in_file.readlines():
    word = line.split()[0]
    score = float(line.split()[1])
    for i in range(int(score*10000)):
        key_list.append(word)
shuffle(key_list)
for item in key_list:
    comment_text += item

color_mask = imread("背景.png") # 讀取背景圖片
cloud = WordCloud(
        #設定字型，不指定就會出現亂碼
        font_path="msyh.ttf",
        #設定背景色
        background_color='black',
        #詞雲形狀
        mask=color_mask,
        #允許最大詞彙
        max_words=2000,
        #最大號字型
        max_font_size=100
    )
print cut_text
word_cloud = cloud.generate(cut_text) # 產生詞雲
word_cloud.to_file("十九大_cloud.jpg") #儲存圖片

程式碼中這一句

font_path="msyh.ttf"

是做字型設定，微軟雅黑等字型檔案可從Windows字型目錄中獲得。

我們看一下效果

限制一下長度，我們只關注四個字以上的關鍵詞，再看看效果

我讓程式碼找出報告中最重要的五句話，作為內容摘要，看看結果是啥

具體結果是這五句話:

30 0.00283293364503 從那時以來，我們黨團結帶領全國各族人民不懈奮鬥，推動我國經濟實力科技實力國防實力綜合國力進入世界前列，推動我國國際地位實現前所未有的提升，黨的面貌國家的面貌人民的面貌軍隊的面貌中華民族的面貌發生了前所未有的變化，中華民族正以嶄新姿態屹立於世界的東方，經過長期努力，中國特色社會主義進入了新時代，這是我國發展新的歷史方位中國特色社會主義進入新時代意味著近代以來久經磨難的中華民族迎來了從站起來富起來到強起來的偉大飛躍，迎來了實現中華民族偉大復興的光明前景，意味著科學社會主義在21世紀的中國煥發出強大生機活力，在世界上高高舉起了中國特色社會主義偉大旗幟，意味著中國特色社會主義道路理論制度文化不斷髮展，拓展了發展中國家走向現代化的途徑，給世界上那些既希望加快發展又希望保持自身獨立性的國家和民族提供了全新選擇，為解決人類問題貢獻了中國智慧和中國方案這個新時代是承前啟後，繼往開來，在新的歷史條件下繼續奪取中國特色社會主義偉大勝利的時代，是決勝全面建成小康社會，進而全面建設社會主義現代化強國的時代，是個全國各族人民團結奮鬥，不斷創造美好生活，逐步實現全體人民共同富裕的時代，是全體中華兒女戮力同心奮力實現中華民族偉大復興中國夢的時代是我們日益走近世界舞臺中央不斷為人類作出更大貢獻的時代中國特色社會主義進入新時代，

我國社會主要矛盾已經轉化為人民日益增長的美好生活需要和不平衡不充分的發展之間的矛盾

339 0.00222389331156 另外呢這個報告裡面也有很多的新的內容，你比如說一個就是對新時代的這樣一個界定，啊中國今天進入了建設中國特色社會主義的新時代，我想這個重大的判斷呢是我們未來啊制定路線方針政策的一個重要的依據，那麼同時呢也制定了新的目標，就是規劃了我們黨的第二個百年目標，那麼在2020年建成全面小康社會的基礎上，呢我們用15年的時間，到2035年我們要基本實現現代化，再用15年的時間到本世紀中葉，我們要建成富強民主文明和諧美麗的生態中國，啊所以這些新的啊包括新方略，啊呃習總書記呢還用了14個堅持來講呢我們建設中國特色社會主義的分配律

115 0.00219163202752 到那時，我國物質文明政治文明精神文明社會文明生態文明，將全面提升，實現國家治理體系和治理能力現代化成為綜合國力和國際影響力領先的國家全體人民共同富裕，基本實現我國人民將享有更加幸福安康的生活，中華民族將以更加昂揚的姿態屹立於世界民族之林同志們從建全面建成小康社會到基本實現現代化，再到全面建成社會主義現代化強國，是新時代中國特色社會主義發展的戰略安排，我們要堅韌不拔鍥而不捨，奮力譜寫社會主義現代化新徵程的壯麗篇章

334 0.00218609883778 全黨全黨全國各族人民要緊密團結在黨中央周圍，高舉中國特色社會主義偉大旗幟，銳意進取，埋頭苦幹，為實現推進現代化建設完成祖國統一維護世界和平與促進共同發展三大歷史任務，為決勝全面建成小康社會奪取新時代中國特色社會主義偉大勝利，實現中華民族偉大復興的中國夢，實現人民對美好生活的嚮往，繼續奮鬥

235 0.00215052077353 十堅持走中國特色強軍之路，全面推進國防和軍隊現代化，國防和軍隊建設正站在新的歷史起點上，面對國家安全環境的深刻變化，面對強國強軍的時代要求，必須全面貫徹新世代黨的強軍思想，貫徹新形勢下軍事戰略方針，建設強大的現在陸軍海軍空軍火箭軍和戰略支援部隊打造堅強高效的戰區聯合作戰指揮機構，構建中國特色現代作戰體系，擔當起黨和人民賦予的新時代使命任務，適應世界新軍事革命發展趨勢和國家安全需求，提高建設質量和效益，確保到2020年基本實現機械化資訊化建設取得重大進展，戰略能力有大的提升，同國家現代化程序相一致，全面推動推進軍事理論現代化軍隊組織形態現代化軍事人員現代化武器裝備現代化，力爭到2035年基本實現國防和軍隊現代化

有沒有領會到精神，還有待進一步確認。
如果寫個指令碼把這這些內容串起來，再加上去平臺上編輯傳送，就有點自動發稿機器人的感覺了哈哈。

如何快速生成十九大會議內容摘要

如何快速生成十九大會議內容摘要

查詢山西漫評②:以革新翻開厚實成效迎候十九大

砥礪奮進寫華章——廣大幹部群眾歡欣鼓舞迎接十九大vh

“燈塔-黨建線上”中《黨的十九大精神學習競賽》答題競賽的前端分析（二）

十九大報告原文

快速生成較大文本文檔的兩種方法

Expo大作戰(二十九)--expo sdk api之registerRootComponent（註冊跟組件）,ScreenOrientation(屏幕切換)，SecureStore，

python快速生成一個大檔案

Java開發筆記（二十九）大整數BigInteger

大資料（十九）：hive資料庫基本操作與表分類

十九、Spring boot中整合mybatis-generator自動生成程式碼

詳解深度學習之經典網路架構（十）：九大框架彙總

Linux如何快速生成大檔案

19-撩課大前端-面試寶典-第十九篇

自動生成材質Material（Unity3D開發之十九）

程式設計師程式設計藝術-----第二十八 ~ 二十九章-----最大連續乘積子串、字串編輯距離

29-撩課大前端-面試寶典-第二十九篇

機器學習筆記（十九）——最大熵原理和模型定義

大三上學期十九周總結

java快速生成大檔案的MD5演算法[MD5Util.java]

如何快速生成十九大會議內容摘要

相關推薦