多版本中文停用詞詞表 + 多版本英文停用詞詞表 + python詞表合併程式
文章簡介與更新記錄
如果你只想獲取中文停用詞此表,請直接到文章結尾下載專案檔案,其中包括三個中文停用詞詞表,一個英文停用詞詞表和一個合併詞表的.py檔案
- 2017/07/04 建立文章,上傳檔案
- 2017/07/04 更新了合併程式碼,添加了新的中文停用詞表(哈工大擴充套件版本)和一個新的停用詞表,現在最全的中文停用詞表為1927,添加了英文和中英文停用詞表英文停用詞詞表為1199
停用詞
在進行漢語自然語言處理時候,分詞是必不可少的環節,但是在實際的自然語言中,有很多的非實意詞語或者其他並沒有實際作用的詞語,這些詞語我們必須在分詞環節後進行過濾—這個環節也就是過濾停用詞.不過想要獲得好的分詞效果,必須首先進行比較好的分詞處理.這一點也是十分重要的.
python合併中文停用詞詞表的程式碼
# - * - coding: utf - 8 -*-
#
# 作者:田豐(FontTian)
# 建立時間:'2017/7/4'
# 郵箱:[email protected]
# CSDN:http://blog.csdn.net/fontthrone
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 獲取停用詞的List
def GetListOfStopWords(filepath):
f_stop = open(filepath)
try:
f_stop_text = f_stop.read()
f_stop_text = unicode(f_stop_text, 'utf-8' )
finally:
f_stop.close()
f_stop_seg_list = f_stop_text.split('\n')
return f_stop_seg_list
# 儲存List
def SaveFile(list, filename):
f_stop = open(filename, 'w')
for item in range(len(list)):
if item != len(list):
f_stop.writelines((list[item].encode('utf-8' )) + '\n')
else:
f_stop.writelines(list[item].encode('utf-8'))
f_stop.close()
# 求List並集
def GetListUnion(listName):
ListUnion = ['!']
for item in listName:
# print item
ListUnion.extend(GetListOfStopWords(item))
return list(set(ListUnion))
def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):
stopwords_pathCN = 'CNstopwords.txt' # 預設中文總表 1
stopwords_pathEN = 'ENstopwords.txt' # 預設英文總表 2
stopwords_pathCNEN = 'CNENstopwords.txt' # 預設中英文混合總表 4
if keynumber == 1:
listOfFileName.append(stopwords_pathCN)
elif keynumber == 2:
listOfFileName.append(stopwords_pathEN)
elif keynumber == 3:
listOfFileName.append(stopwords_pathCN)
listOfFileName.append(stopwords_pathEN)
elif keynumber == 5:
listOfFileName.append(stopwords_pathCN)
listOfFileName.append(stopwords_pathCNEN)
elif keynumber == 6:
listOfFileName.append(stopwords_pathEN)
listOfFileName.append(stopwords_pathCNEN)
elif keynumber == 7:
listOfFileName.append(stopwords_pathCN)
listOfFileName.append(stopwords_pathEN)
listOfFileName.append(stopwords_pathCNEN)
else:
listOfFileName.append(stopwords_pathCN)
print 'The keynumber is wrong,chage keynumber to 1 '
listOfFileName.append(stopwords_pathCNEN)
ListUnion = GetListUnion(listOfFileName)
SaveFile(ListUnion, FileName)
'''
stopwords_pathCN = 'CNstopwords.txt' # 預設中文總表 1
stopwords_pathEN = 'CNstopwords.txt' # 預設英文總表 2
stopwords_pathCNEN = 'CNstopwords.txt' # 預設中英文混合總表 4
'''
listOfFileName = []
# 需要新增的 中文 停用詞詞表
stopwords_path1 = 'stopwords1893.txt'
stopwords_path2 = 'stopwords1229.txt'
stopwords_path3 = 'stopwordshagongdakuozhan.txt'
stopwords_path4 = 'stop_words_zh.txt'
# 需要新增的 英文 停用詞詞表
stopwords_path5 = 'stop_words_eng.txt'
stopwords_path6 = 'ENstopwords891.txt'
# 需要新增的 中文 停用詞詞表路徑
# listOfFileName.append(stopwords_path1)
# listOfFileName.append(stopwords_path2)
# listOfFileName.append(stopwords_path3)
# listOfFileName.append(stopwords_path4)
# 需要新增的 英文 停用詞詞表路徑
listOfFileName.append(stopwords_path5)
listOfFileName.append(stopwords_path6)
GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)
百度雲下載所有檔案
相關推薦
多版本中文停用詞詞表 + 多版本英文停用詞詞表 + python詞表合併程式
文章簡介與更新記錄 如果你只想獲取中文停用詞此表,請直接到文章結尾下載專案檔案,其中包括三個中文停用詞詞表,一個英文停用詞詞表和一個合併詞表的.py檔案 2017/07/04 建立文章,上傳檔案 2017/07/04 更新了合併程式碼,添加了新的中文停用詞
NLP+詞法系列(二)︱中文分詞技術簡述、深度學習分詞實踐(CIPS2016、超多案例)
詞法分析是將輸入句子從字序列轉化為詞和詞性序列, 句法分析將輸入句子從詞序列形式轉化為樹狀結構,從而刻畫句子的詞法和句法結構。 一、詞法分析的難題 1、詞的定義和生詞問題、未登入詞(新詞) 特別是在網際網路時代,
利用npm安裝/刪除/發布/更新/撤銷發布包 --社會我npm哥,好用話不多
javascrip blog 而且 ros ssa 關於 搜索引擎 兼容 重復 一.什麽是npm? npm是javascript的包管理工具,是前端模塊化下的一個標誌性產物 簡單地地說,就是通過npm下載模塊,復用已有的代碼,提高工作效率 1.從社區的角度:
我用select做多路復用踩到的坑
多路復用 bits desc fin 數組越界 生成 cpp amp number 既然說是用select踩到的坑,那麽就先直接貼一段使用select的代碼上來瞅一下: bool SocketAction(int fd, const char* buf, si
自制數據結構(容器)-java開發用的最多的ArrayList和HashMap
bject private java開發 技術 cep uil ould print ram public class MyArrayList<E> { private int capacity = 10; private
好用不需多說的微信公眾號實用技巧,一起來叨叨!
新媒體至此軍訓之際,太陽大大當空照,火熱的陽光真是好!小編的心情也是非常的好,想一想那麽多嗮黑了,餓瘦了的小學妹們,終於可以顯的我好白好白啦(不是白胖白胖)!白白瘦瘦的我現在比較容易緊張,一緊張我就...喜歡裝逼...裝逼我就想到了微信,想到了微信就忍不住和大家叨叨幾個超級牛逼的技巧(⊙o⊙) 牛逼的技巧一:
python 采用 BoundedSemaphore 限制多進程訪問qps
python# -*- coding: utf-8 -*- """ Created on Tue Sep 19 00:06:12 2017 @author: 37652 """ import threading import time import timer2 import requests def
用cnn構建多層神經網絡來識別mnist中的圖片
argv padding out load 神經網絡 dir sco ack import mnist.py import tensorflow as tf import numpy as np import argparse import sys import urll
用Promise解決多個異步Ajax請求導致的代碼嵌套問題【轉】
ref ise 1.5 數據 sel 並且 而且 spa 強硬 問題 前端小同學在做頁面的時候,犯了個常見的錯誤:把多個Ajax請求順序著寫下來了,而後面的請求,對前面請求的返回結果,是有依賴的。如下面的代碼所示: var someData; $.ajax({
Python + Appium 【已解決】driver(session)在多個class之間復用,執行完一個類的用例,再次執行下個類的用例時不需要初始化
nic bject config com appium client lee session ted py文件的名稱為:appium_config.py 中的寫法如下 # coding=UTF-8 ‘‘‘ Created on 2017.1.13 @author: Lu
C#關於多線程之線程中打開並調用窗體內的方法實例
dstar read 調用 regular app default bject object mail 第一步:如何在線程中打開窗體 SendEmailProgress progress=new SendEmailProgress();
Sql-Server用insert插入多行數據-語法和例子
語法 strong -- into div lec sele 多條 sql 插入多行數據,原表中有多條數據,再建新表很麻煩,就要用到以下語法: 通過Insert select 語句將現有的表的數據添加到已存在的表中語法:Insert into<新的表名>(列名)
多對一數據綁定、template的妙用(微信小程序)
頁面 字母 模擬 exp 後臺 oca emp 監聽 tap (新聞詳情頁面:Detail 新聞首頁:Index 模擬本地數據:posts-data,js) Detail.wxml <image class="head-imag
那些年我們一起追逐的多線程(Thread、ThreadPool、委托異步調用、Task/TaskFactory、Parallerl、async和await)
col 不同的 告訴 新的 OS 代碼區 monit strong list 一. 背景 在剛接觸開發的頭幾年裏,說實話,根本不考慮多線程的這個問題,貌似那時候腦子裏也有沒有多線程的這個概念,所有的業務都是一個線程來處理,不考慮性能問題,當然也沒有考慮多線程操作一條
多線程:子線程執行過程中調用主線程
ring this 方法 his tca error ren ESS string 直接在子線程中調用方法,線程的ID為3,通過Post則為1 執行結果: 2018-09-13 11:21:11:1735 : 主線程:1 2018-09-13 11:21:16:
IO多路復用/基於IO多路復用+socket實現並發請求/協程
所有 remove 告訴 安全 pso rgs 一個 epo 新的 http://www.cnblogs.com/alex3714/articles/5876749.html http://www.cnblogs.com/Eva-J/articles/8324837.ht
用VHDL設計多路選擇器、鎖存器和全加器
end style ces cin 實現 std spa sum component 1.2選1多路選擇器 1 library IEEE; 2 use IEEE.STD_LOGIC_1164.ALL; 3 ENTITY mux21 IS 4 PORT ( a,
巧用模板變換多維分析表格樣式
自定義表格樣式 多維分析展現報表時,潤乾報表提供了一套預設的表格樣式,統一的表格樣式可以使業務人員減少報表美化的工作量。然而預設的樣式不可能迎合所有使用者的審美,為此潤乾提供了自定義表格樣式的功能,供使用者實現個性化的需求,下面小編就來教你如何改變預設表格的樣式。 先來看下預設的表格樣式,下
用Ajax提交多檔案上傳表單
function test(){ var form = new FormData(document.getElementById(“表單id”)); $ .ajax({ url:“表單提交路徑”, &nb
用pytorch實現多層感知機(MLP)(全連線神經網路FC)分類MNIST手寫數字體的識別
1.匯入必備的包 1 import torch 2 import numpy as np 3 from torchvision.datasets import mnist 4 from torch import nn 5 from torch.autograd import Variable 6