相似度分析
阿新 • • 發佈:2021-11-09
# -*- coding: utf-8 -*- # @Time : 2021/10/11 23:19 # @Author : DaWeiGuo # @File : xiangsidu.py # @Software: PyCharm # -*- coding: utf-8 -*- import jieba import numpy as np #去除停用詞 def out_stopword(seg:list): """ :param seg 用jieba分完詞的列表 """ # print("去停用詞:\n") wordlist = [] #獲取停用詞表 stop = open(r"C:\Users\l1768\Desktop\code\Gitclone\stopwords\hit_stopwords.txt", 'r+', encoding='utf-8') #用‘\n’去分隔讀取,返回一個一維陣列 stopword = stop.read().split("\n") #遍歷分詞表 for key in seg: #print(key) #去除停用詞,去除單字,去除重複詞 if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist): wordlist.append(key) # print(key) #停用詞去除END stop.close() return wordlist def get_word_vector(s1, s2): """ :param s1: 句子1 :param s2: 句子2 :return: 返回句子的餘弦相似度 """ # 分詞 cut1 = jieba.cut(s1) cut2 = jieba.cut(s2) list_word1 = out_stopword((','.join(cut1)).split(',')) list_word2 = out_stopword((','.join(cut2)).split(',')) print('=============== 分詞結果: ===============') print(list_word1) print(list_word2) # 列出所有的詞,取並集 key_word = list(set(list_word1 + list_word2)) print("=============== 分詞向量對應位上的詞語: ===============") print(key_word) # 給定形狀和型別的用0填充的矩陣儲存向量 word_vector1 = np.zeros(len(key_word)) word_vector2 = np.zeros(len(key_word)) # 計算詞頻 # 依次確定向量的每個位置的值 for i in range(len(key_word)): # 遍歷key_word中每個詞在句子中的出現次數 for j in range(len(list_word1)): if key_word[i] == list_word1[j]: word_vector1[i] += 1 for k in range(len(list_word2)): if key_word[i] == list_word2[k]: word_vector2[i] += 1 # 輸出向量 print(word_vector1) print(word_vector2) return word_vector1, word_vector2 def cos_dist(vec1, vec2): """ :param vec1: 向量1 :param vec2: 向量2 :return: 返回兩個向量的餘弦相似度 """ dist1 = float(np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))) return dist1 if __name__ == '__main__': s = ['伴隨著金融科技的發展,銀行物理網點關停量仍在持續增加。與此同時,商業銀行在推進數字化轉型方面成效顯著,特別是今年以來多數銀行加大了對於區塊鏈、數字人民幣等前瞻科技領域的佈局。', '作為國家重要的能源基地,鄂爾多斯市積極落實增產保供、協議保供、應急保供、安全保供各項措施,在保證安全的前提下應產盡產、能產多產,全力推動煤炭增產、保供、穩價,確保經濟發展不受限、人民群眾過暖冬,為保障全國煤炭供應作貢獻。', '下半場廣東仍然沒有回暖跡象,他們第三節4分鐘裡沒能得分,節末更是被對手連續搶斷打成反擊,隨著第四節初黎璋霖和張寧的兩記三分進球,山西將領先優勢拉大至20分以上早早鎖定勝局。', '上輪絕殺的興奮勁兒還沒完全過去,國足全隊已抵達沙特吉達,備戰第四輪的比賽。此役將是國足首次在有觀眾的賽場參加12強賽,對手又是此前三戰皆勝的沙特隊,比賽的難度可想而知。但賽程如此國足自然也沒有退路,全隊希望延續上場的好運,在這個客場能夠有所收穫。', '而回顧中國影視票房榜單目前前五名之中,《唐人街探案3》以45億元的票房成績排列第五,照《長津湖》目前已打破41億元的票房速度,預估《唐人街探案3》不久後就將被擠出票房前五名。', 'TVB兩屆視帝王浩信近年事業發展得順風順水,好作品一部接一部,成為網民熱議的物件。不過在感情方面似乎就非常不順利,早前更是傳出他與結婚十年的妻子陳自瑤已經離婚。'] for i in range(0, len(s) - 1): for j in range(i + 1, len(s)): print('【', s[i][:5]+'...'+s[i][-5:], ' 】和【 ', s[j][:5]+'...'+s[j][-5:], "】句子的比較結果:") vec1, vec2 = get_word_vector(s[i], s[j]) dist1 = cos_dist(vec1, vec2) print("相似度: " + str(dist1)) print("###########################################################")
“熱愛是所有的理由和答案”。【 伴隨著金融...域的佈局。 】和【 作為國家重...應作貢獻。 】句子的比較結果: =============== 分詞結果: =============== ['伴隨', '金融', '科技', '發展', '銀行', '物理', '網點', '關停', '持續', '增加', '商業銀行', '推進', '數字化', '轉型', '方面', '成效顯著', '特別', '今年以來', '多數', '加大', '區塊', '數字', '人民幣', '前瞻', '科技領域', '佈局'] ['國家', '重要', '能源', '基地', '鄂爾多斯市', '積極', '落實', '增產', '保供', '協議', '應急', '安全', '各項措施', '保證', '前提', '下應產', '盡產', '能產', '多產', '全力', '推動', '煤炭', '穩價', '確保', '經濟', '發展', '受限', '人民', '群眾', '暖冬', '保障', '全國', '供應', '作貢獻'] =============== 分詞向量對應位上的詞語: =============== ['網點', '穩價', '人民', '受限', '數字化', '供應', '伴隨', '關停', '應急', '持續', '鄂爾多斯市', '群眾', '前瞻', '作貢獻', '轉型', '增產', '多產', '煤炭', '金融', '人民幣', '國家', '加大', '能源', '多數', '全力', '經濟', '積極', '全國', '科技', '落實', '成效顯著', '保供', '商業銀行', '盡產', '協議', '各項措施', '物理', '今年以來', '方面', '安全', '數字', '保障', '保證', '銀行', '區塊', '暖冬', '推進', '佈局', '前提', '確保', '特別', '推動', '科技領域', '發展', '基地', '能產', '重要', '下應產', '增加'] [1. 0. 0. 0. 1. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1.] [0. 1. 1. 1. 0. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0.] 相似度: 0.03363363969981562 ########################################################### 【 伴隨著金融...域的佈局。 】和【 下半場廣東...鎖定勝局。 】句子的比較結果: =============== 分詞結果: =============== ['伴隨', '金融', '科技', '發展', '銀行', '物理', '網點', '關停', '持續', '增加', '商業銀行', '推進', '數字化', '轉型', '方面', '成效顯著', '特別', '今年以來', '多數', '加大', '區塊', '數字', '人民幣', '前瞻', '科技領域', '佈局'] ['下半場', '廣東', '仍然', '沒有', '回暖', '跡象', '第三節', '分鐘', '沒能', '得分', '節末', '更是', '對手', '連續', '搶斷', '打成', '反擊', '第四節', '初黎璋霖', '張寧', '兩記', '三分', '進球', '山西', '領先', '優勢', '拉大', '20', '以上', '早早', '鎖定', '勝局'] =============== 分詞向量對應位上的詞語: =============== ['網點', '數字化', '伴隨', '關停', '沒有', '跡象', '初黎璋霖', '持續', '拉大', '前瞻', '轉型', '沒能', '對手', '金融', '第四節', '人民幣', '加大', '下半場', '多數', '勝局', '早早', '更是', '科技', '成效顯著', '商業銀行', '仍然', '連續', '反擊', '20', '物理', '第三節', '兩記', '今年以來', '領先', '方面', '數字', '分鐘', '節末', '回暖', '廣東', '銀行', '區塊', '三分', '得分', '張寧', '推進', '佈局', '進球', '特別', '鎖定', '以上', '科技領域', '發展', '打成', '搶斷', '優勢', '增加', '山西'] [1. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 1. 0.] [0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0. 0. 1. 1. 1. 1. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 1. 0. 0. 1. 1. 1. 0. 1.] 相似度: 0.0 ########################################################### 【 伴隨著金融...域的佈局。 】和【 上輪絕殺的...有所收穫。 】句子的比較結果: =============== 分詞結果: =============== ['伴隨', '金融', '科技', '發展', '銀行', '物理', '網點', '關停', '持續', '增加', '商業銀行', '推進', '數字化', '轉型', '方面', '成效顯著', '特別', '今年以來', '多數', '加大', '區塊', '數字', '人民幣', '前瞻', '科技領域', '佈局'] ['上輪', '絕殺', '興奮', '勁兒', '完全', '過去', '全隊', '抵達', '沙特', '吉達', '備戰', '第四輪', '比賽', '此役', '國足', '首次', '觀眾', '賽場', '參加', '12', '強賽', '對手', '此前', '戰皆勝', '沙特隊', '難度', '可想而知', '賽程', '自然', '沒有', '退路', '希望', '延續', '上場', '好運', '客場', '能夠', '有所', '收穫'] =============== 分詞向量對應位上的詞語: =============== ['網點', '興奮', '數字化', '客場', '伴隨', '關停', '有所', '沒有', '過去', '持續', '抵達', '賽程', '前瞻', '勁兒', '轉型', '首次', '12', '對手', '金融', '比賽', '人民幣', '可想而知', '退路', '加大', '沙特隊', '上場', '參加', '多數', '自然', '上輪', '全隊', '備戰', '強賽', '科技', '國足', '成效顯著', '商業銀行', '物理', '此前', '今年以來', '難度', '方面', '數字', '希望', '延續', '銀行', '區塊', '推進', '佈局', '絕殺', '完全', '特別', '吉達', '戰皆勝', '科技領域', '發展', '沙特', '此役', '觀眾', '收穫', '好運', '能夠', '第四輪', '賽場', '增加'] [1. 0. 1. 0. 1. 1. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.] [0. 1. 0. 1. 0. 0. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 0.] 相似度: 0.0 ########################################################### 【 伴隨著金融...域的佈局。 】和【 而回顧中國...房前五名。 】句子的比較結果: =============== 分詞結果: =============== ['伴隨', '金融', '科技', '發展', '銀行', '物理', '網點', '關停', '持續', '增加', '商業銀行', '推進', '數字化', '轉型', '方面', '成效顯著', '特別', '今年以來', '多數', '加大', '區塊', '數字', '人民幣', '前瞻', '科技領域', '佈局'] ['回顧', '中國', '影視', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '億元', '票房', '成績', '排列', '第五', '長津湖', '打破', '41', '速度', '預估', '不久', '擠出'] =============== 分詞向量對應位上的詞語: =============== ['網點', '數字化', '伴隨', '關停', '中國', '票房榜', '回顧', '持續', '速度', '前瞻', '轉型', '預估', '金融', '五名', '人民幣', '票房', '長津湖', '加大', '影視', '排列', '不久', '多數', '唐人街', '目前', '科技', '45', '成效顯著', '商業銀行', '物理', '探案', '今年以來', '方面', '數字', '擠出', '銀行', '區塊', '推進', '佈局', '億元', '第五', '特別', '之中', '科技領域', '發展', '41', '成績', '打破', '增加'] [1. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 1.] [0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1. 0.] 相似度: 0.0 ########################################################### 【 伴隨著金融...域的佈局。 】和【 TVB兩屆...已經離婚。 】句子的比較結果: =============== 分詞結果: =============== ['伴隨', '金融', '科技', '發展', '銀行', '物理', '網點', '關停', '持續', '增加', '商業銀行', '推進', '數字化', '轉型', '方面', '成效顯著', '特別', '今年以來', '多數', '加大', '區塊', '數字', '人民幣', '前瞻', '科技領域', '佈局'] ['TVB', '兩屆', '帝王', '浩信', '近年', '事業', '發展', '順風', '順水', '作品', '一部', '成為', '網民', '熱議', '物件', '感情', '方面', '似乎', '非常', '順利', '早前', '更是', '傳出', '結婚', '十年', '妻子', '陳自瑤', '已經', '離婚'] =============== 分詞向量對應位上的詞語: =============== ['網點', '數字化', '伴隨', '關停', '陳自瑤', '順水', '持續', '近年', '前瞻', '兩屆', '轉型', '早前', '金融', '人民幣', '似乎', '網民', '熱議', '加大', '多數', '十年', '浩信', '妻子', '更是', '科技', '離婚', '成效顯著', '商業銀行', '物理', 'TVB', '今年以來', '方面', '數字', '物件', '銀行', '區塊', '感情', '推進', '佈局', '成為', '特別', '作品', '順風', '結婚', '事業', '科技領域', '發展', '傳出', '帝王', '順利', '非常', '已經', '增加', '一部'] [1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0.] [0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 1. 1. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 0. 1.] 相似度: 0.07283570407292297 ########################################################### 【 作為國家重...應作貢獻。 】和【 下半場廣東...鎖定勝局。 】句子的比較結果: =============== 分詞結果: =============== ['國家', '重要', '能源', '基地', '鄂爾多斯市', '積極', '落實', '增產', '保供', '協議', '應急', '安全', '各項措施', '保證', '前提', '下應產', '盡產', '能產', '多產', '全力', '推動', '煤炭', '穩價', '確保', '經濟', '發展', '受限', '人民', '群眾', '暖冬', '保障', '全國', '供應', '作貢獻'] ['下半場', '廣東', '仍然', '沒有', '回暖', '跡象', '第三節', '分鐘', '沒能', '得分', '節末', '更是', '對手', '連續', '搶斷', '打成', '反擊', '第四節', '初黎璋霖', '張寧', '兩記', '三分', '進球', '山西', '領先', '優勢', '拉大', '20', '以上', '早早', '鎖定', '勝局'] =============== 分詞向量對應位上的詞語: =============== ['穩價', '人民', '受限', '供應', '應急', '沒有', '跡象', '初黎璋霖', '鄂爾多斯市', '群眾', '拉大', '作貢獻', '沒能', '多產', '增產', '煤炭', '對手', '第四節', '國家', '能源', '全力', '下半場', '經濟', '積極', '全國', '勝局', '早早', '更是', '落實', '盡產', '保供', '仍然', '協議', '連續', '各項措施', '反擊', '20', '第三節', '兩記', '領先', '安全', '分鐘', '節末', '保障', '回暖', '保證', '廣東', '三分', '得分', '暖冬', '張寧', '進球', '前提', '確保', '鎖定', '以上', '推動', '能產', '發展', '基地', '打成', '搶斷', '重要', '優勢', '下應產', '山西'] [1. 1. 1. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1. 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 0.] [0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1.] 相似度: 0.0 ########################################################### 【 作為國家重...應作貢獻。 】和【 上輪絕殺的...有所收穫。 】句子的比較結果: =============== 分詞結果: =============== ['國家', '重要', '能源', '基地', '鄂爾多斯市', '積極', '落實', '增產', '保供', '協議', '應急', '安全', '各項措施', '保證', '前提', '下應產', '盡產', '能產', '多產', '全力', '推動', '煤炭', '穩價', '確保', '經濟', '發展', '受限', '人民', '群眾', '暖冬', '保障', '全國', '供應', '作貢獻'] ['上輪', '絕殺', '興奮', '勁兒', '完全', '過去', '全隊', '抵達', '沙特', '吉達', '備戰', '第四輪', '比賽', '此役', '國足', '首次', '觀眾', '賽場', '參加', '12', '強賽', '對手', '此前', '戰皆勝', '沙特隊', '難度', '可想而知', '賽程', '自然', '沒有', '退路', '希望', '延續', '上場', '好運', '客場', '能夠', '有所', '收穫'] =============== 分詞向量對應位上的詞語: =============== ['穩價', '人民', '興奮', '受限', '供應', '客場', '應急', '有所', '沒有', '過去', '鄂爾多斯市', '群眾', '抵達', '賽程', '作貢獻', '勁兒', '12', '首次', '多產', '增產', '煤炭', '對手', '比賽', '可想而知', '國家', '退路', '沙特隊', '上場', '參加', '能源', '全力', '自然', '經濟', '積極', '全國', '上輪', '全隊', '備戰', '強賽', '國足', '落實', '盡產', '保供', '協議', '各項措施', '此前', '難度', '安全', '希望', '保障', '延續', '保證', '暖冬', '絕殺', '完全', '前提', '確保', '吉達', '戰皆勝', '推動', '能產', '發展', '基地', '沙特', '此役', '觀眾', '收穫', '好運', '能夠', '重要', '下應產', '第四輪', '賽場'] [1. 1. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0.] [0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 1. 1. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 0. 0. 1. 1.] 相似度: 0.0 ########################################################### 【 作為國家重...應作貢獻。 】和【 而回顧中國...房前五名。 】句子的比較結果: =============== 分詞結果: =============== ['國家', '重要', '能源', '基地', '鄂爾多斯市', '積極', '落實', '增產', '保供', '協議', '應急', '安全', '各項措施', '保證', '前提', '下應產', '盡產', '能產', '多產', '全力', '推動', '煤炭', '穩價', '確保', '經濟', '發展', '受限', '人民', '群眾', '暖冬', '保障', '全國', '供應', '作貢獻'] ['回顧', '中國', '影視', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '億元', '票房', '成績', '排列', '第五', '長津湖', '打破', '41', '速度', '預估', '不久', '擠出'] =============== 分詞向量對應位上的詞語: =============== ['穩價', '人民', '受限', '供應', '應急', '中國', '票房榜', '回顧', '鄂爾多斯市', '群眾', '速度', '作貢獻', '預估', '多產', '增產', '煤炭', '五名', '票房', '國家', '長津湖', '影視', '排列', '能源', '全力', '不久', '經濟', '積極', '全國', '唐人街', '目前', '45', '落實', '盡產', '保供', '協議', '各項措施', '探案', '安全', '保障', '擠出', '保證', '暖冬', '億元', '前提', '確保', '第五', '之中', '推動', '能產', '發展', '基地', '41', '成績', '打破', '重要', '下應產'] [1. 1. 1. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 1. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 0. 0. 1. 1.] [0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 1. 0. 0.] 相似度: 0.0 ########################################################### 【 作為國家重...應作貢獻。 】和【 TVB兩屆...已經離婚。 】句子的比較結果: =============== 分詞結果: =============== ['國家', '重要', '能源', '基地', '鄂爾多斯市', '積極', '落實', '增產', '保供', '協議', '應急', '安全', '各項措施', '保證', '前提', '下應產', '盡產', '能產', '多產', '全力', '推動', '煤炭', '穩價', '確保', '經濟', '發展', '受限', '人民', '群眾', '暖冬', '保障', '全國', '供應', '作貢獻'] ['TVB', '兩屆', '帝王', '浩信', '近年', '事業', '發展', '順風', '順水', '作品', '一部', '成為', '網民', '熱議', '物件', '感情', '方面', '似乎', '非常', '順利', '早前', '更是', '傳出', '結婚', '十年', '妻子', '陳自瑤', '已經', '離婚'] =============== 分詞向量對應位上的詞語: =============== ['穩價', '人民', '受限', '供應', '陳自瑤', '應急', '順水', '鄂爾多斯市', '群眾', '近年', '作貢獻', '兩屆', '多產', '增產', '煤炭', '早前', '似乎', '網民', '國家', '熱議', '能源', '全力', '十年', '經濟', '積極', '全國', '浩信', '妻子', '更是', '離婚', '落實', '盡產', '保供', '協議', '各項措施', 'TVB', '方面', '安全', '保障', '物件', '保證', '感情', '暖冬', '前提', '確保', '成為', '作品', '順風', '結婚', '事業', '推動', '能產', '發展', '基地', '傳出', '帝王', '重要', '順利', '下應產', '非常', '已經', '一部'] [1. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1.] 相似度: 0.0318464877649241 ########################################################### 【 下半場廣東...鎖定勝局。 】和【 上輪絕殺的...有所收穫。 】句子的比較結果: =============== 分詞結果: =============== ['下半場', '廣東', '仍然', '沒有', '回暖', '跡象', '第三節', '分鐘', '沒能', '得分', '節末', '更是', '對手', '連續', '搶斷', '打成', '反擊', '第四節', '初黎璋霖', '張寧', '兩記', '三分', '進球', '山西', '領先', '優勢', '拉大', '20', '以上', '早早', '鎖定', '勝局'] ['上輪', '絕殺', '興奮', '勁兒', '完全', '過去', '全隊', '抵達', '沙特', '吉達', '備戰', '第四輪', '比賽', '此役', '國足', '首次', '觀眾', '賽場', '參加', '12', '強賽', '對手', '此前', '戰皆勝', '沙特隊', '難度', '可想而知', '賽程', '自然', '沒有', '退路', '希望', '延續', '上場', '好運', '客場', '能夠', '有所', '收穫'] =============== 分詞向量對應位上的詞語: =============== ['興奮', '客場', '有所', '沒有', '跡象', '過去', '初黎璋霖', '抵達', '賽程', '拉大', '勁兒', '沒能', '首次', '對手', '12', '比賽', '第四節', '可想而知', '退路', '沙特隊', '上場', '參加', '下半場', '自然', '勝局', '上輪', '全隊', '早早', '更是', '備戰', '強賽', '國足', '仍然', '連續', '反擊', '20', '此前', '第三節', '兩記', '領先', '難度', '希望', '分鐘', '節末', '回暖', '延續', '廣東', '三分', '得分', '張寧', '進球', '絕殺', '完全', '鎖定', '吉達', '以上', '戰皆勝', '沙特', '打成', '此役', '觀眾', '好運', '收穫', '能夠', '搶斷', '優勢', '第四輪', '賽場', '山西'] [0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 1. 1. 1. 1. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1.] [1. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0.] 相似度: 0.05661385170722978 ########################################################### 【 下半場廣東...鎖定勝局。 】和【 而回顧中國...房前五名。 】句子的比較結果: =============== 分詞結果: =============== ['下半場', '廣東', '仍然', '沒有', '回暖', '跡象', '第三節', '分鐘', '沒能', '得分', '節末', '更是', '對手', '連續', '搶斷', '打成', '反擊', '第四節', '初黎璋霖', '張寧', '兩記', '三分', '進球', '山西', '領先', '優勢', '拉大', '20', '以上', '早早', '鎖定', '勝局'] ['回顧', '中國', '影視', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '億元', '票房', '成績', '排列', '第五', '長津湖', '打破', '41', '速度', '預估', '不久', '擠出'] =============== 分詞向量對應位上的詞語: =============== ['中國', '沒有', '跡象', '回顧', '初黎璋霖', '票房榜', '速度', '拉大', '沒能', '預估', '對手', '五名', '第四節', '票房', '長津湖', '影視', '排列', '下半場', '不久', '勝局', '唐人街', '早早', '更是', '目前', '45', '仍然', '連續', '反擊', '20', '第三節', '兩記', '領先', '探案', '分鐘', '節末', '回暖', '擠出', '廣東', '三分', '得分', '張寧', '進球', '億元', '第五', '鎖定', '以上', '之中', '41', '打成', '成績', '搶斷', '優勢', '打破', '山西'] [0. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1.] [1. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0.] 相似度: 0.0 ########################################################### 【 下半場廣東...鎖定勝局。 】和【 TVB兩屆...已經離婚。 】句子的比較結果: =============== 分詞結果: =============== ['下半場', '廣東', '仍然', '沒有', '回暖', '跡象', '第三節', '分鐘', '沒能', '得分', '節末', '更是', '對手', '連續', '搶斷', '打成', '反擊', '第四節', '初黎璋霖', '張寧', '兩記', '三分', '進球', '山西', '領先', '優勢', '拉大', '20', '以上', '早早', '鎖定', '勝局'] ['TVB', '兩屆', '帝王', '浩信', '近年', '事業', '發展', '順風', '順水', '作品', '一部', '成為', '網民', '熱議', '物件', '感情', '方面', '似乎', '非常', '順利', '早前', '更是', '傳出', '結婚', '十年', '妻子', '陳自瑤', '已經', '離婚'] =============== 分詞向量對應位上的詞語: =============== ['陳自瑤', '沒有', '跡象', '順水', '初黎璋霖', '近年', '拉大', '兩屆', '沒能', '一部', '對手', '早前', '第四節', '似乎', '網民', '熱議', '下半場', '十年', '勝局', '浩信', '妻子', '早早', '更是', '離婚', '仍然', '連續', '反擊', '20', '第三節', '兩記', '領先', 'TVB', '方面', '分鐘', '節末', '回暖', '物件', '廣東', '三分', '感情', '得分', '張寧', '進球', '成為', '鎖定', '作品', '以上', '順風', '結婚', '事業', '發展', '打成', '傳出', '帝王', '搶斷', '優勢', '順利', '非常', '已經', '山西'] [0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1. 0. 1. 1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 1.] [1. 0. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 0. 0. 1. 1. 1. 0.] 相似度: 0.032826608214930636 ########################################################### 【 上輪絕殺的...有所收穫。 】和【 而回顧中國...房前五名。 】句子的比較結果: =============== 分詞結果: =============== ['上輪', '絕殺', '興奮', '勁兒', '完全', '過去', '全隊', '抵達', '沙特', '吉達', '備戰', '第四輪', '比賽', '此役', '國足', '首次', '觀眾', '賽場', '參加', '12', '強賽', '對手', '此前', '戰皆勝', '沙特隊', '難度', '可想而知', '賽程', '自然', '沒有', '退路', '希望', '延續', '上場', '好運', '客場', '能夠', '有所', '收穫'] ['回顧', '中國', '影視', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '億元', '票房', '成績', '排列', '第五', '長津湖', '打破', '41', '速度', '預估', '不久', '擠出'] =============== 分詞向量對應位上的詞語: =============== ['興奮', '客場', '有所', '中國', '沒有', '過去', '回顧', '票房榜', '抵達', '賽程', '速度', '勁兒', '12', '首次', '對手', '預估', '比賽', '五名', '票房', '可想而知', '退路', '長津湖', '沙特隊', '上場', '參加', '影視', '排列', '自然', '不久', '上輪', '唐人街', '全隊', '備戰', '強賽', '目前', '45', '國足', '此前', '探案', '難度', '希望', '延續', '擠出', '絕殺', '完全', '億元', '第五', '吉達', '之中', '戰皆勝', '沙特', '41', '此役', '觀眾', '收穫', '好運', '能夠', '成績', '打破', '第四輪', '賽場'] [1. 1. 1. 0. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1.] [0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0.] 相似度: 0.0 ########################################################### 【 上輪絕殺的...有所收穫。 】和【 TVB兩屆...已經離婚。 】句子的比較結果: =============== 分詞結果: =============== ['上輪', '絕殺', '興奮', '勁兒', '完全', '過去', '全隊', '抵達', '沙特', '吉達', '備戰', '第四輪', '比賽', '此役', '國足', '首次', '觀眾', '賽場', '參加', '12', '強賽', '對手', '此前', '戰皆勝', '沙特隊', '難度', '可想而知', '賽程', '自然', '沒有', '退路', '希望', '延續', '上場', '好運', '客場', '能夠', '有所', '收穫'] ['TVB', '兩屆', '帝王', '浩信', '近年', '事業', '發展', '順風', '順水', '作品', '一部', '成為', '網民', '熱議', '物件', '感情', '方面', '似乎', '非常', '順利', '早前', '更是', '傳出', '結婚', '十年', '妻子', '陳自瑤', '已經', '離婚'] =============== 分詞向量對應位上的詞語: =============== ['興奮', '客場', '陳自瑤', '有所', '沒有', '過去', '順水', '抵達', '賽程', '近年', '勁兒', '兩屆', '12', '首次', '對手', '早前', '比賽', '似乎', '可想而知', '退路', '網民', '熱議', '沙特隊', '上場', '參加', '自然', '十年', '上輪', '浩信', '妻子', '全隊', '備戰', '強賽', '更是', '離婚', '國足', '非常', '此前', 'TVB', '難度', '方面', '希望', '延續', '物件', '感情', '已經', '絕殺', '完全', '成為', '吉達', '作品', '順風', '結婚', '事業', '戰皆勝', '沙特', '發展', '此役', '觀眾', '收穫', '好運', '帝王', '傳出', '能夠', '順利', '第四輪', '賽場', '一部'] [1. 1. 0. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 1. 1. 0.] [0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1.] 相似度: 0.0 ########################################################### 【 而回顧中國...房前五名。 】和【 TVB兩屆...已經離婚。 】句子的比較結果: =============== 分詞結果: =============== ['回顧', '中國', '影視', '票房榜', '目前', '五名', '之中', '唐人街', '探案', '45', '億元', '票房', '成績', '排列', '第五', '長津湖', '打破', '41', '速度', '預估', '不久', '擠出'] ['TVB', '兩屆', '帝王', '浩信', '近年', '事業', '發展', '順風', '順水', '作品', '一部', '成為', '網民', '熱議', '物件', '感情', '方面', '似乎', '非常', '順利', '早前', '更是', '傳出', '結婚', '十年', '妻子', '陳自瑤', '已經', '離婚'] =============== 分詞向量對應位上的詞語: =============== ['陳自瑤', '中國', '順水', '票房榜', '回顧', '近年', '速度', '兩屆', '預估', '早前', '五名', '票房', '似乎', '網民', '長津湖', '熱議', '影視', '排列', '不久', '十年', '浩信', '唐人街', '妻子', '目前', '更是', '45', '離婚', 'TVB', '探案', '方面', '物件', '擠出', '感情', '億元', '第五', '成為', '作品', '順風', '結婚', '之中', '事業', '發展', '41', '傳出', '帝王', '成績', '打破', '順利', '非常', '已經', '一部'] [0. 1. 0. 1. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0.] [1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 1. 1. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 0. 1. 1. 1. 1.] 相似度: 0.0 ########################################################### Process finished with exit code 0