文字相似性演算法實現（二）-分組及分句熱度統計

阿新 • • 發佈：2020-03-03

1. 場景描述

軟體老王在上一節介紹到相似性熱度統計的4個需求（文字相似性熱度統計(python版)），本次介紹分組及分組分句熱度統計（需求1和需求2）。

2. 解決方案

分組熱度統計首先根據某列進行分組，然後再對這些句進行熱度統計，主要是分組處理，分句僅僅是按照標點符號做了下拆分，在程式碼說明中可以替換下就可以了。

2.1 完整程式碼

完整程式碼，有需要的朋友可以直接拿走，不想看程式碼介紹的，可以直接拿走執行就行。

import jieba.posseg as pseg
import jieba.analyse
import xlwt  # 寫入Excel表的庫
import pandas as pd
from gensim import corpora, models, similarities
import re
#停詞函式
def StopWordsList(filepath):
    wlst = [w.strip() for w in open(filepath, 'r', encoding='utf8').readlines()]
    return wlst
def str_to_hex(s):
    return ''.join([hex(ord(c)).replace('0x', '') for c in s])
# jieba分詞
def seg_sentence(sentence, stop_words):
    stop_flag = ['x', 'c', 'u', 'd', 'p', 't', 'uj', 'f', 'r']
    sentence_seged = pseg.cut(sentence)
    outstr = []
    for word, flag in sentence_seged:
        if word not in stop_words and flag not in stop_flag:
            outstr.append(word)
    return outstr
if __name__ == '__main__':
    # 1 這些是jieba分詞的自定義詞典，軟體老王這裡新增的格式行業術語，格式就是文件，一列一個詞一行就行了，
    # 這個幾個詞典軟體老王就不上傳了，可註釋掉。
    jieba.load_userdict("g1.txt")
    jieba.load_userdict("g2.txt")
    jieba.load_userdict("g3.txt")

    # 2 停用詞，簡單理解就是這次詞不分割，這個軟體老王找的網上通用的。
    spPath = 'stop.txt'
    stop_words = StopWordsList(spPath)

    # 3 excel處理
    wbk = xlwt.Workbook(encoding='ascii')
    sheet = wbk.add_sheet("軟體老王sheet")  # sheet名稱
    sheet.write(0, 0, '軟體老王1-類別')
    sheet.write(0, 1, '軟體老王2-原因')
    sheet.write(0, 2, '軟體老王3-統計數量')
    sheet.write(0, 3, '導航-連結到明細sheet表')

    inputfile = '軟體老王-source2.xlsx'
    data = pd.read_excel(inputfile)  # 讀取資料
    grp1 = data.groupby('類別')
    rcount = 1
    for name, group in grp1:
        print(grp1)
        texts = []
        orig_txt = []
        key_list = []
        name_list = []
        sheet_list = []
        name = name.replace('\n', '').replace('/', '')
        for i in range(len(group)):
            row = group.iloc[i].values
            cell = row[1]
            if cell is None:
                continue
            if not isinstance(cell, str):
                continue
            item = cell.strip('\n\r').split('\t')
            string = item[0]
            if string is None or len(string) == 0:
                continue
            else:
                textstr = seg_sentence(string, stop_words)
                texts.append(textstr)
                orig_txt.append(string)
        # 4 相似性處理
        dictionary = corpora.Dictionary(texts)
        feature_cnt = len(dictionary.token2id.keys())
        corpus = [dictionary.doc2bow(text) for text in texts]
        tfidf = models.LsiModel(corpus)
        index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=feature_cnt)
        result_lt = []
        word_dict = {}
        count =0
        for keyword in orig_txt:
            count = count+1
            print('開始執行，第'+ str(count)+'行')
            if keyword in result_lt or keyword is None or len(keyword) == 0:
                continue
            kw_vector = dictionary.doc2bow(seg_sentence(keyword, stop_words))
            sim = index[tfidf[kw_vector]]
            result_list = []
            for i in range(len(sim)):
                if sim[i] > 0.5:
                    if orig_txt[i] in result_lt and orig_txt[i] not in result_list:
                        continue
                    result_list.append(orig_txt[i])
                    result_lt.append(orig_txt[i])
            if len(result_list) >0:
                word_dict[keyword] = len(result_list)
            if len(result_list) >= 1:
                name = name.strip('\n\r').replace('\n', '').replace('/', '').replace('，', '').replace('。', '').replace(
                    '*', '')
                name = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", name)
                sname = name[0:10] + '_' + re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", keyword[0:10])+ '_'\
                        + str(len(result_list)+ len(str_to_hex(keyword))) + str_to_hex(keyword)[-5:]
                sheet_t = wbk.add_sheet(sname)  # Excel單元格名字
                for i in range(len(result_list)):
                    sheet_t.write(i, 0, label=result_list[i])
        # 5 按照熱度排序 -軟體老王
        with open("rjlw.txt", 'w', encoding='utf-8') as wf2:  # 開啟檔案
            orderList = list(word_dict.values())
            orderList.sort(reverse=True)
            count = len(orderList)
            for i in range(count):
                for key in word_dict:
                    if word_dict[key] == orderList[i]:
                        key_list.append(key)
                        name_list.append(name)
                        word_dict[key] = 0
            wf2.truncate()
        # 6 寫入目標excel
        for i in range(len(key_list)):
            sheet.write(i+rcount, 0, label=name_list[i])
            sheet.write(i+rcount, 1, label=key_list[i])
            sheet.write(i+rcount, 2, label=orderList[i])
            if orderList[i] >= 1:
                shname = name_list[i][0:10] + '_' + re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", key_list[i][0:10]) \
                         + '_'+ str(orderList[i]+ len(str_to_hex(key_list[i])))+ str_to_hex(key_list[i])[-5:]
                link = 'HYPERLINK("#%s!A1";"%s")' % (shname, shname)
                sheet.write(i+rcount, 3, xlwt.Formula(link))
        rcount = rcount + len(key_list)
        key_list = []
        name_list = []
        orderList = []
        texts = []
        orig_txt = []
        sheet_list =[]
    wbk.save('軟體老王-target2.xls')

2.2 程式碼說明

以上的程式碼中有很明確的註釋就不再一一介紹了，重點說幾個。

（1）分組處理跟文字相似性熱度統計演算法實現（一）-整句熱度統計相似，不同的是首先按照某一列做了分組處理，然後進行相似性統計，相似性這塊一樣，其實不同的主要是excel處理這塊的內容。

（2）excle分組用的是pandas包，python中excel資料分組處理。

（3）關於需求2，分組分句，程式碼如下：

 for i in range(len(group)):
            row = group.iloc[i].values 
            cell = row[1]
            if cell is None:
                continue
            if not isinstance(cell, str):
                continue
            item = cell.strip('\n\r').split('\t') 
            string = item[0]
            #軟體老王，這裡按照標點符號對原因進行拆分，然後再進行處理。
            lt = re.split('，|。|！|？', string)
            for t in lt:
                if t is None or t.strip() == '' or len(t.strip()) == 0:
                    continue
                else:
                    textstr = seg_sentence(t, stop_words)
                    texts.append(textstr)
                    orig_txt.append(t)

2.3 效果圖

（1）軟體老王-source2.xlsx

類別	原因
軟體老王1	主機不能加電
軟體老王1	有時不能加電
軟體老王1	開機加電
軟體老王2	自檢報錯或宕機
軟體老王2	機器噪音大
軟體老王3	噪音問題
軟體老王1	噪音太大
軟體老王1	噪音噪聲
軟體老王1	聲音太大
軟體老王2	聲音太大
軟體老王3	聲音太大

（2）軟體老王-target2.xls

軟體老王1-類別	軟體老王2-原因	軟體老王3-統計數量	導航-連結到明細sheet表
軟體老王1	主機不能加電	3	軟體老王1_主機不能加電_2707535
軟體老王1	噪音太大	2	軟體老王1_噪音太大_18a5927
軟體老王1	聲音太大	1	軟體老王1_聲音太大_17a5927
軟體老王2	自檢報錯或宕機	1	軟體老王2_自檢報錯或宕機_29b673a
軟體老王2	機器噪音大	1	軟體老王2_機器噪音大_2135927
軟體老王2	聲音太大	1	軟體老王2_聲音太大_17a5927
軟體老王3	噪音問題	1	軟體老王3_噪音問題_17e9898
軟體老王3	聲音太大	1	軟體老王3_聲音太大_17a5927

（3）簡單說明

從資料中可以看出來，例如：聲音太大，分屬三類，首先分類，然後再比對相似性。

I’m 「軟體老王」，如果覺得還可以的話，關注下唄，後續更新秒知！歡迎討論區、同名公眾號留言交流

文字相似性演算法實現（二）-分組及分句熱度統計

1. 場景描述軟體老王在上一節介紹到相似性熱度統計的4個需求（文字相似性熱度統計(python版)），本次介紹分組及分組分句熱度統計（需求1和需求2）。 2. 解決方案分組熱度統計首先根據某列進行分組，然後再對這些句進行熱度統計，主要是分組處理，分句僅僅是按照標點符號做了下拆分，在程式碼說明中可以替換下就

文字相似性熱度統計演算法實現（一）-整句熱度統計

1. 場景描述軟體老王在上一節介紹到相似性熱度統計的4個需求（文字相似性熱度統計(python版)），根據需求要從不同維度進行統計：（1）分組不分句熱度統計（根據某列首先進行分組，然後再對描述類列進行相似性統計）；（2）分組分句熱度統計（根據某列首先進行分組，然後對描述類列按照標點符號進行拆分，然後再對

Java常用的八種排序演算法與程式碼實現（二）：歸併排序法、快速排序法

注：這裡給出的程式碼方案都是通過遞迴完成的－－－歸併排序（Merge Sort）：　　分而治之，遞迴實現　　如果需要排序一個數組，我們先把陣列從中間分成前後兩部分，然後對前後兩部分進行分別排序，再將排好序的數組合並在一起，這樣整個陣列就有序了　　歸併排序是穩定的排序演算法，時間

第十二週專案3 - 圖遍歷演算法實現（2）

第十二週專案3 - 圖遍歷演算法實現（1）

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

上一篇已經簡單粗暴的建立了一個KNN模型對手寫圖片進行了識別，所以本篇文章採用構造KD樹的方法實現手寫數字的識別。（一）構造KD樹構造KD樹的基本原理網上都有介紹，所以廢話不多說，直接上程式碼。 #Knn KD_Tree演算法 import math from

基礎資料結構與演算法實現（2）—二叉搜尋樹BST

import java.util.LinkedList; import java.util.Queue; public class BST <E extends Comparable<E>> { private c

8種主要排序演算法的C#實現（二）

歸併排序歸併排序也是採用“分而治之”的方式。剛發現分治法是一種演算法正規化，我還一直以為是一種需要意會的思想呢。不好意思了，孤陋寡聞了，哈哈！原理：將兩個有序的數列，通過比較，合併為一個有序數列。維基入口為方便理解，此處實現用了List<in

基於內容推薦的個性化新聞閱讀實現（二）：基於SVD的推薦演算法

一、前言 SVD前面已經說了好多次了，先不論其資訊檢索被宣稱的各種長處如何如何，在此最主要的作用是將稀疏的term-doc矩陣進行降維，當一篇篇文章變成簡短的向量化表示後，就可以用各種科學計算和機器學習演算法進行分析處理了。之前的推薦演算法的設計是用的最大熵估計，他和諸如樸素貝葉斯、邏輯迴歸等，本質就

粒子群演算法的matlab實現（二）

上一次的部落格中我將粒子群的搜尋過程可視化了，並將其轉存為了gif格式檔案，這個過程我先在這裡給大家講一下： 1.首先pause()，是在每次繪圖之後暫停一段時間，單位是秒，再進行下一次繪圖； 2.而當要轉存為gif檔案時，這其實就是一種無聲的視訊檔案，因此我們

寫程式學ML：樸素貝葉斯演算法原理及實現（二）

[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。 2、樸素貝葉斯演算法的實現 2.1 樸素貝葉斯演算法的實現按照樸素貝葉斯演算法的原理，我們需要實現一個樸素貝葉

uc/os-II的記憶體改進與實現TLSF演算法的詳解，移植實現（二）

上一節講到了TLSF的資料結構，下面繼續哈。 TLSF用兩個層次的分類對不同尺寸的記憶體塊進行分類。第一層次的類別目錄為2n，n為4，5，……，31的整數，稱為FLI（First-level Segregated Fit）。每一個FLI類別又根據第二層的SLI細分為2SLI

寫程式學ML：Logistic迴歸演算法原理及實現（二）

2、Logistic迴歸演算法的實現 2.1 Logistic演算法的實現首先，我們實現梯度上升演算法。 Sigmoid函式的定義如下： #sigmoid函式的實現 def sigmoid(inX): return 1.0 / (1 + exp(-inX))

Dji Mobile SDK 基礎實現（二）

stat one 透傳 pub != exceptio rom tick ann Dji Mobile SDK 基礎實現（二）本文簡要介紹如何通過調用DJI Mobile SDK，實現獲取和釋放無人機的控制權限、模擬遙控器按鈕控制無人機的飛行、獲取無人機的回傳視頻、獲取

實現自定義查詢的數據庫設計及實現（二）

表名 table abr bigint sts 處理 update 關聯表 creat 上部分大概講了一下表設計，這部分講一下處理。處理的結構處理結構的內容比較多，分為幾個部分分別講解一下。首先講解一下尋找關系表。尋找關系表尋找關系表根據“表間關系登記表”進行處

KVM虛擬化的四種簡單網絡模型介紹及實現（二）

str drive 51cto -c water -a return dfa 模型接上篇，介紹NAT網絡模型和橋接模型。三、NAT模型 NAT模型其實就是SNAT的實現，路由中虛擬機能將報文發送給外部主機，但是外部主機因找不到通往虛擬機的路由因而無法回應請求。但是外部

SpringBoot在Kotlin中的實現（二）

文件中 open 代碼 rabl delete ons list any data 根據現在的開發模式和網上的一些資料，SpringBoot需要對業務和操作進行分層，通常分為controller、entity、service、respository等結構。下面以Kotlin

基於深度學習的目標檢測演算法綜述（二）（截止20180821）

參考：https://zhuanlan.zhihu.com/p/40020809 基於深度學習的目標檢測演算法綜述分為三部分： 1. Two/One stage演算法改進。這部分將主要總結在two/one stage經典網路上改進的系列論文，包括Faster R-CNN、YOLO、SSD等經

【原始碼剖析】tornado-memcached-sessions —— Tornado session 支援的實現（二）

客官您終於回頭了！讓我們本著探（zuo）索（si）精神把 session.py 看完吧... 首先看看需要的庫： pickle 一個用於序列化反序列化的庫（聽

資料結構和演算法緒論（二）

1、演算法概念不同的演算法可以提高計算相同算術題的效率，那麼演算法的研究就變得有意義了。 2、演算法的特性輸入輸出有窮性（執行有限的步驟）確定性（每一個步驟僅有一個含義）可行性 3、演算法設計要求沒有無法錯誤、有合法輸入和輸出 4、演算法效率度量方法：事前分析估算方法

文字相似性演算法實現（二）-分組及分句熱度統計

1. 場景描述

2. 解決方案

2.1 完整程式碼

2.2 程式碼說明

相關推薦