python 對一篇文章，按逗號分成一句一句的，然後在這篇文章中找到與某個句子類似的句子（包含相同的詞）

阿新 • • 發佈：2019-02-03

#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("gbk")
#code:[email protected]
#12-4.py

import numpy as np
import jieba
import copy

def get_cossimi(x,y):
    myx=np.array(x)
    myy=np.array(y)
    cos1=np.sum(myx*myy)
    cos21=np.sqrt(sum(myx*myx))
    cos22=np.sqrt(sum(myy*myy))
    return cos1/float(cos21*cos22)

f1_text='瑞典稅務局改稱臺灣為中國一省：按國際慣例修正'


if __name__ == '__main__':

   f1 = file('testk.txt','r')
   lines = f1.read()

   #lines=lines.split(u'。')
   lines=lines.split(u'，')

   #lines=re.split(',', lines)
#for
   for i in lines :
    #print i
    #print "ok"
    if not len(i) ==1 :
     f1_seg_list = jieba.cut(f1_text)

    #第一個待測試資料

     ftest1_seg_list = jieba.cut(i)

    #讀取樣本文字
    #去除停用詞，同時構造樣本詞的字典
     f_stop = open('stopwords.txt')
     try:
        f_stop_text = f_stop.read( )
        f_stop_text=unicode(f_stop_text,'utf-8')
     finally:
        f_stop.close( )
     f_stop_seg_list=f_stop_text.split('\n')

     test_words={}
     all_words={}
     for myword in f1_seg_list:
        #print ".",
        if not(myword.strip() in f_stop_seg_list):
            test_words.setdefault(myword,0)
            all_words.setdefault(myword,0)
            all_words[myword]+=1


    #讀取待測試文字
     mytest1_words=copy.deepcopy(test_words)
     for myword in ftest1_seg_list:
        #print ".",
        if not(myword.strip() in f_stop_seg_list):
            if mytest1_words.has_key(myword):
                mytest1_words[myword]+=1



    #計算樣本與待測試文字的餘弦相似度
     sampdata=[]
     test1data=[]

     for key in all_words.keys():
        sampdata.append(all_words[key])
        test1data.append(mytest1_words[key])

     test1simi=get_cossimi(sampdata,test1data)


     print "%s   %f %s "%(chr(10)+i+u'。'+chr(10),test1simi,chr(10))


    else:
       continue


   f1.close()

python 對一篇文章，按逗號分成一句一句的，然後在這篇文章中找到與某個句子類似的句子（包含相同的詞）

python 對一篇文章，按逗號分成一句一句的，然後在這篇文章中找到與某個句子類似的句子（包含相同的詞）

傳進一個時間段，按整小時切割成一個個小時段及稍作變化

Python 對檔案內容迭代按位元組處理

正在執行的android程式，按home鍵之後退回到桌面，再次點選桌面圖示避免再次重新啟動程式的終極解決辦法

機試演算法講解：第6題給n個整數，按從大到小的順序，輸出前m大的整數

pan手勢監聽對view的上下左右滑動，利用關聯物件在block中觸發view的點選事件（附手勢大全）

eclipse 使用問題，按F3或者ctrl+click事件時，“current text selection cannot be opened in an editor”

python學習 -女神或者男神把微信訊息撤回後好慌，有了這個媽媽再也不擔心你看不到女神或者男神撤回的訊息了（超詳解）

紅黑樹這個資料結構，讓你又愛又恨？看了這篇，妥妥的征服它

delphi將兩個Strlist合並，求交集（保留相同的）

隨筆⑨ java中的變量 --- 類變量（靜態變量），final變量，成員變量，局部變量

python 3 之日期與時間處理模塊（date和datetime）

Python封裝一個函數接受文件夾的名稱作為輸入參數,打印該文件夾中的的全部路程信息（遍歷路徑）

幫助小白，JDK的安裝與環境變量配置（Win 10系統）

python學習手冊中的一些易忘的點（前三部分）

python學習手冊中的一些易忘的點（4-7部分）

Java學習——方法中傳遞參數分簡單類型與復雜類型（引用類型）編程計算100＋98＋96＋。。。＋4＋2+1的值，用遞歸方法實現

2018年度詞彙（科技類熱詞）新鮮出爐，提前劇透最吸金的行業！

請實現一個函式用來匹配包括'.'和''的正則表示式。模式中的字元'.'表示任意一個字元，而''表示它前面的字元可以出現任意次（包含0次）。在本題中，匹配是指字串的所有字元匹配整個模式。

請實現一個函式用來匹配包括'.'和''的正則表示式。模式中的字元'.'表示任意一個字元，而''表示它前面的字元可以出現任意次（包含0次）。在本題中，匹配是指字串的所有字元匹配整個模式。例如，字

python 對一篇文章，按逗號分成一句一句的，然後在這篇文章中找到與某個句子類似的句子（包含相同的詞）

相關推薦