如何生成自定義的逆向檔案頻率（IDF）文字語料庫（二）

阿新 • • 發佈：2018-11-19

一、什麼是IDF文字語料庫

在jieba的TF-IDF模型裡面，當呼叫獲取關鍵詞的函式

jieba.analyse.extract_tags()

的時候，該函式會呼叫預設的IDF語料庫。IDF語料庫就是jieba官方在大量文字的基礎上，通過

計算得到的一個idf字典，其key為分詞之後的每個詞，其value為每個詞的IDF數值。

二、計算自定義的IDF文字語料庫

程式流程如下：

1、讀取文字檔案，分詞，去停用詞，得到all_dict 字典，字典的鍵是word，字典的值是包含word 的文件的個數。

# 獲取每個目錄下所有的檔案
for mydir in catelist:
    class_path = corpus_path+mydir+"/"    # 拼出分類子目錄的路徑
    #print(class_path)
    seg_dir = seg_path+mydir+"/"          # 拼出分詞後語料分類目錄
    if not os.path.exists(seg_dir):       # 是否存在目錄，如果沒有建立
            os.makedirs(seg_dir)
    #print(seg_dir)
    file_list = os.listdir(class_path) # 獲取class_path下的所有檔案
    for file_path in file_list: # 遍歷類別目錄下檔案
        fullname = class_path + file_path   # 拼出檔名全路徑
        #print(fullname)
        content = readfile(fullname).strip()  # 讀取檔案內容
        content = content.replace("\r\n".encode(encoding="utf-8"),"".encode(encoding="utf-8")) # 刪除換行和多餘的空格
        content = content.replace(" ".encode(encoding="utf-8"),"".encode(encoding="utf-8"))
        content_seg = jieba.cut(content.strip())        # 為檔案內容分詞
        stopwords = stopwordslist('./stopwords1.txt')
        outstr = []

        for word in content_seg:
            if word not in stopwords:
                if word != '\t' and word != '\n':
                   #outstr.append(word)
                   outstr.append(word)
        for word in outstr:
            if ' ' in outstr:
                outstr.remove(' ')
        temp_dict = {}
        total += 1
        for word in outstr:
            #print(word)
            temp_dict[word] = 1
            # print(temp_dict)
        for key in temp_dict:
            num = all_dict.get(key, 0)
            all_dict[key] = num + 1
        #savefile(seg_dir+file_path,"".join(outstr))  # 將處理後的檔案儲存到分詞後語料目錄

2、計算IDF值並儲存到txt中 idf_dict 字典的鍵是word ,值是對應的IDF數值。

# idf_dict字典就是生成的IDF語料庫
idf_dict = {}
for key in all_dict:
    # print(all_dict[key])
    w = key
    p = '%.10f' % (math.log10(total/(all_dict[key]+1)))
    if w > u'\u4e00' and w<=u'\u9fa5':
        idf_dict[w] = p
print('IDF字典構造結束')
fw = open('wdic.txt', 'w',encoding='utf-8')

for k in idf_dict:
    if k != '\n':
        print(k)
        fw.write(k + ' ' + idf_dict[k] + '\n')
fw.close()

三、程式中的一些問題記錄

1、readfile函式的返回值是文字內容對應的字串。replace()函式內要使用'utf-8'編碼。

content = readfile(fullname).strip()  # 讀取檔案內容
content = content.replace("\r\n".encode(encoding="utf-8"),"".encode(encoding="utf-8")) # 刪除換行和多餘的空格

2、停用詞stopwords 是讀取停用詞文字之後轉換生成的列表。通過for迴圈和if 判斷，去掉停用詞，生成outstr 最終的分詞列表。

        for word in content_seg:
            if word not in stopwords:
                if word != '\t' and word != '\n':
                   #outstr.append(word)
                   outstr.append(word)

3、word-idf 字典建立。這裡的key 和p都是字串。通過if判斷語句，保證字典的key 都是漢字。

idf_dict = {}
for key in all_dict:
#      print('ok')
    # print(all_dict[key])
    w = key
    p = '%.10f' % (math.log10(total/(all_dict[key]+1)))
    if w > u'\u4e00' and w<=u'\u9fa5':
        idf_dict[w] = p
#print(idf_dict)
#del idf_dict['']
#del idf_dict[' ']
print('IDF字典構造結束')

4、儲存為txt，這裡必須要‘utf-8’編碼，不然jieba不識別。 fw.wirte()一行行把字典寫入txt。

fw = open('wdic.txt', 'w',encoding='utf-8')

for k in idf_dict:

    if k != '\n':
        print(k)
        fw.write(k + ' ' + idf_dict[k] + '\n')
fw.close()

四、jieba中替換為自定義的IDF語料庫

jieba.analyse.set_idf_path(idf_file_name)
keywords = jieba.analyse.extract_tags(sentence, topK=20, withWeight=True, allowPOS=('n', 'nr', 'ns'))

如何生成自定義的逆向檔案頻率（IDF）文字語料庫（二）

一、什麼是IDF文字語料庫在jieba的TF-IDF模型裡面，當呼叫獲取關鍵詞的函式 jieba.analyse.extract_tags() 的時候，該函式會呼叫預設的IDF語料庫。IDF語料庫就是jieba官方在大量文字的基礎上，通過計算得到的一

如何生成自定義的逆向檔案頻率（IDF）文字語料庫（一）

在基於TF-IDF進行特徵提取時，因為文字背景是某一具體行業，不適合使用通用的IDF語料庫，我覺得應該使用自定義的基於該行業背景的IDF語料庫。請問如何生成自定義IDF語料庫呢？我現在有的資料是幾十萬個該行業的文件，初步想法是：對每個文件分詞去重，把所有文件分詞結果彙集去重後

mybatis generator為實體類生成自定義註釋（讀取數據庫字段的註釋添加到實體類，不修改源碼）

super() .cn setter www. nts art pca target private 我們都知道mybatis generator自動生成的註釋沒什麽實際作用，而且還增加了代碼量。如果能將註釋從數據庫中撈取到，不僅能很大程度上增加代碼的可讀性，而且減少了後期

AndroidStudio生成自定義的混淆jar包（同時將assets目錄打入jar包）（二）（by 星空武哥）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

mybatis免sql外掛之JpaMapper-以Jpa hibernate的風格寫mybatis（生成自定義的MappedStatement）

mybatis免sql外掛之JpaMapper-以Jpa hibernate的風格寫mybatis（生成自定義的MappedStatement）簡介 JpaMapper以Jpa hibernate的風格寫mybatis的程式碼，可以減少手動寫sql的煩惱。優勢：

mybatis generator為實體類生成自定義註釋（讀取資料庫欄位的註釋新增到實體類，不修改原始碼）

我們都知道mybatis generator自動生成的註釋沒什麼實際作用，而且還增加了程式碼量。如果能將註釋從資料庫中撈取到，不僅能很大程度上增加程式碼的可讀性，而且減少了後期手動加註釋的工作量。 1、首先定義註釋生成外掛 package com.cmbc.datapla

SpringBoot自定義配置檔案（xxx.properties）

轉載：https://www.cnblogs.com/V1haoge/p/7183408.htmlSpringBoot中免除了大部分手動配置，但是對於一些特定的情況，還是需要我們進行手動配置的，SpringBoot為我們提供了application.properties配置檔案，讓我們可以進行自定義配置，來

定製併發類（四）實現ThreadFactory介面生成自定義的執行緒

宣告：本文是《 Java 7 Concurrency Cookbook 》的第七章，作者： Javier Fernández González 譯者：許巧輝實現ThreadFactory介面生成自定義的執行緒在面向物件程式設計的世界中，工廠模式（factory pattern）是一

定製併發類（七）實現ThreadFactory介面生成自定義的執行緒給Fork/Join框架

宣告：本文是《 Java 7 Concurrency Cookbook 》的第七章，作者： Javier Fernández González 譯者：許巧輝實現ThreadFactory介面生成自定義的執行緒給Fork/Join框架 Fork/Join框架是Java7中最有趣的特徵之

讀取application.yml/application.properties中的引數（或讀取自定義配置檔案中的引數）

使用springboot搭建專案的話，如果程式碼裡需要讀取配置檔案資訊，動態生成資料該怎麼辦呢，其實可以直接寫到springboot配置檔案當中，自己定義標籤來讀取。 application.yml與application.properties有什麼不同呢？（1）yml檔案用縮排代替pro

ActiveMQ 配置自定義啟動檔案和載入擴充套件包（以及debug模式監控 for eclipse）

set ACTIVEMQ_DEBUG_OPTS=-Xdebug -Xnoagent -Djava.compiler=NONE -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=5105set ACTIVEMQ_

【無私分享：ASP.NET CORE 專案實戰（第八章）】讀取配置檔案（二）讀取自定義配置檔案

目錄索引簡介　　但隨之產生了問題：我們使用的是在 Startup.cs 中（如下圖）來實現配置讀取，有兩個問題 ① 我們如果定義N種配置，是否要再這裡新增N條這樣的配置； ② 如果我們的配置不想寫在appsettings.json中呢　　解決問題

log4j2自定義配置檔案位置和檔名（附log4j2.xml配置例項）

前言我們使用log4j2一般做法是將log4j2.xml檔案放在資原始檔夾根目錄。對於有強迫症的開發者來說，我更喜歡在資原始檔夾下新建包或資料夾，然後把配置檔案放在裡面。本部落格將介紹如何自定義log4j2.xml檔案的位置和檔名。 web.xml配置

C# WinForm中如何自定義config檔案（XML檔案），並且讀取和儲存它

我這裡以連結資料庫為例子，其中書寫的Config的xml檔案如下： <?xml version="1.0" encoding="utf-8"?> <configuration> <appSettings> <add k

淺談 SQL 中的鎖（七）如何生成自定義的自增 ID

在 SQL 表設計中，自增 ID 的使用很廣泛。因為有些資料的屬性並不具有唯一性，所以要給它加上一個生成的主鍵。生成主鍵最方便的方式，就是採用 SQL 產品提供的自增 ID 功能。可能自增 ID 的使用太過方便了，現在大有氾濫的趨勢，甚至有資深的工程師說：所有的表都應該有一個

MySQL8.0 For Windows 安裝教程（自定義配置檔案、密碼方式修改）

下載zip安裝包：　　MySQL8.0 For Windows zip包下載地址：https://dev.mysql.com/downloads/file/?id=476233，進入頁面後可以不登入。後點擊底部“No thanks, just start my downl

hadoop程式設計小技巧（5）---自定義輸入檔案格式類InputFormat

Hadoop程式碼測試環境：Hadoop2.4應用：在對資料需要進行一定條件的過濾和簡單處理的時候可以使用自定義輸入檔案格式類。Hadoop內建的輸入檔案格式類有：1）FileInputFormat<K,V>這個是基本的父類，我們自定義就直接使用它作為父類；2）T

adblockplus過濾規則（適用ss自定義pac檔案）

1. 萬用字元支援，如 *.example.com/* 實際書寫時可省略* 如.example.com/ 意即*.example.com/* 2. 正則表示式支援，以\開始和結束，如 \[\w]+:\/\/example.com\ 3. 例外規則 @@，如 @@*.

SpringCloud SpringBoot mybatis 分散式微服務（二十）Spring Boot 自定義配置檔案

上面介紹的是我們都把配置檔案寫到application.yml中。有時我們不願意把配置都寫到application配置檔案中，這時需要我們自定義配置檔案，比如test.properties:com.forezp.name=forezp com.forezp.age=12怎麼將

SpringCloud系列十一：SpringCloudStream（SpringCloudStream 簡介、創建消息生產者、創建消息消費者、自定義消息通道、分組與持久化、設置 RoutingKey）

javax sun 就是 eas nts discovery junit4 IE 程序包 1、概念：SpringCloudStream 2、具體內容 2.1、SpringCloudStream 簡介 SpringCloudStream 就是使用了基於消息系統的微服務處理架構

如何生成自定義的逆向檔案頻率（IDF）文字語料庫（二）

一、什麼是IDF文字語料庫

jieba.analyse.extract_tags()

二、計算自定義的IDF文字語料庫

三、程式中的一些問題記錄

四、jieba中替換為自定義的IDF語料庫

相關推薦