搜狗詞庫轉txt

阿新 • • 發佈：2018-01-12

移位一個 truct unpack art set_trace 描述格式索引

# 運行環境要求 python2
  1 #!/usr/bin/python
  2 # -*- coding: utf-8 -*-
  3 
  4 import struct
  5 import sys
  6 import binascii 
  7 import pdb
  8 #搜狗的scel詞庫就是保存的文本的unicode編碼，每兩個字節一個字符（中文漢字或者英文字母）
  9 #找出其每部分的偏移位置即可
 10 #主要兩部分
 11 #1.全局拼音表，貌似是所有的拼音組合，字典序
 12 #       格式為(index,len,pinyin)的列表
 13 
 #       index: 兩個字節的整數 代表這個拼音的索引
 14 #       len: 兩個字節的整數 拼音的字節長度
 15 #       pinyin: 當前的拼音，每個字符兩個字節，總長len
 16 #       
 17 #2.漢語詞組表
 18 #       格式為(same,py_table_len,py_table,{word_len,word,ext_len,ext})的一個列表
 19 #       same: 兩個字節 整數 同音詞數量
 20 #       py_table_len:  兩個字節 整數
 21 #       py_table: 整數列表，每個整數兩個字節,每個整數代表一個拼音的索引
 
 22 #
 23 #       word_len:兩個字節 整數 代表中文詞組字節數長度
 24 #       word: 中文詞組,每個中文漢字兩個字節，總長度word_len
 25 #       ext_len: 兩個字節 整數 代表擴展信息的長度，好像都是10
 26 #       ext: 擴展信息 前兩個字節是一個整數(不知道是不是詞頻) 後八個字節全是0
 27 #
 28 #      {word_len,word,ext_len,ext} 一共重復same次 同音詞 相同拼音表
 29 
 30 
 31 #拼音表偏移，
 32 startPy = 0x1540 
;
 33 
 34 #漢語詞組表偏移
 35 startChinese = 0x2628;
 36 
 37 #全局拼音表
 38 
 39 GPy_Table ={}
 40 
 41 #解析結果
 42 #元組(詞頻,拼音,中文詞組)的列表
 43 GTable = []
 44 
 45 def byte2str(data):
 46     ‘‘‘將原始字節碼轉為字符串‘‘‘
 47     i = 0;
 48     length = len(data)
 49     ret = u‘‘
 50     while i < length:
 51         x = data[i] + data[i+1]
 52         t = unichr(struct.unpack(‘H‘,x)[0])
 53         if t == u‘r‘:
 54             ret += u‘n‘
 55         elif t != u‘ ‘:
 56             ret += t
 57         i += 2
 58     return ret
 59 #獲取拼音表
 60 def getPyTable(data):
 61 
 62     if data[0:4] != "x9Dx01x00x00":
 63         return None
 64     data = data[4:]
 65     pos = 0
 66     length = len(data)
 67     while pos < length:
 68         index = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
 69         #print index,
 70         pos += 2
 71         l = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
 72         #print l,
 73         pos += 2
 74         py = byte2str(data[pos:pos+l])
 75         #print py
 76         GPy_Table[index]=py
 77         pos += l
 78 
 79 
 80 #獲取一個詞組的拼音
 81 def getWordPy(data):
 82     pos = 0
 83     length = len(data)
 84     ret = u‘‘
 85     while pos < length:
 86         
 87         index = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
 88         ret += GPy_Table[index]
 89         pos += 2    
 90     return ret
 91 
 92 
 93 #獲取一個詞組
 94 def getWord(data):
 95     pos = 0
 96     length = len(data)
 97     ret = u‘‘
 98     while pos < length:
 99         
100         index = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
101         ret += GPy_Table[index]
102         pos += 2    
103     return ret
104 
105 #讀取中文表    
106 def getChinese(data):
107     #import pdb
108     #pdb.set_trace()
109     
110     pos = 0
111     length = len(data)
112     while pos < length:
113         #同音詞數量
114         same = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
115         #print ‘[same]:‘,same,
116         
117         #拼音索引表長度
118         pos += 2
119         py_table_len = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
120         #拼音索引表
121         pos += 2
122         py = getWordPy(data[pos: pos+py_table_len])
123 
124         #中文詞組
125         pos += py_table_len
126         for i in xrange(same):
127             #中文詞組長度
128             c_len = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
129             #中文詞組
130             pos += 2  
131             word = byte2str(data[pos: pos + c_len])
132             #擴展數據長度
133             pos += c_len        
134             ext_len = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
135             #詞頻
136             pos += 2
137             count  = struct.unpack(‘H‘,data[pos]+data[pos+1])[0]
138 
139             #保存
140             GTable.append((count,py,word))
141         
142             #到下個詞的偏移位置
143             pos +=  ext_len
144 
145 def deal(file_name):
146     print ‘-‘*60
147     f = open(file_name,‘rb‘)
148     data = f.read()
149     f.close()
150         
151     if data[0:12] !="x40x15x00x00x44x43x53x01x01x00x00x00":
152         print "確認你選擇的是搜狗(.scel)詞庫?"
153         sys.exit(0)
154     #pdb.set_trace()
155     
156     print "詞庫名：" ,byte2str(data[0x130:0x338])#.encode(‘GB18030‘)
157     print "詞庫類型：" ,byte2str(data[0x338:0x540])#.encode(‘GB18030‘)
158     print "描述信息：" ,byte2str(data[0x540:0xd40])#.encode(‘GB18030‘)
159     print "詞庫示例：",byte2str(data[0xd40:startPy])#.encode(‘GB18030‘)
160     
161     getPyTable(data[startPy:startChinese])
162     getChinese(data[startChinese:])
163             
164 if __name__ == ‘__main__‘:
165 
166     #將要轉換的詞庫添加在這裏就可以了
167     o = [‘計算機詞匯大全【官方推薦】.scel‘,
168     ‘IT計算機.scel‘,
169     ‘計算機詞匯大全【官方推薦】.scel‘,
170     ‘北京市城市信息精選.scel‘,
171     ‘常用餐飲詞匯.scel‘,
172     ‘成語.scel‘,
173     ‘成語俗語【官方推薦】.scel‘,
174     ‘法律詞匯大全【官方推薦】.scel‘,
175     ‘房地產詞匯大全【官方推薦】.scel‘,
176     ‘手機詞匯大全【官方推薦】.scel‘,
177     ‘網絡流行新詞【官方推薦】.scel‘,
178     ‘歇後語集錦【官方推薦】.scel‘,
179     ‘飲食大全【官方推薦】.scel‘,
180     ]
181     
182     for f in o:
183         deal(f)
184         
185     #保存結果  
186     f = open(‘sougou.txt‘,‘w‘)
187     for count,py,word in GTable:
188         #GTable保存著結果，是一個列表，每個元素是一個元組(詞頻,拼音,中文詞組)，有需要的話可以保存成自己需要個格式
189         #我沒排序，所以結果是按照上面輸入文件的順序
190         f.write( unicode(‘{%(count)s}‘ %{‘count‘:count}+py+‘ ‘+ word).encode(‘GB18030‘) )#最終保存文件的編碼，可以自給改
191         f.write(‘n‘)
192     f.close()

搜狗詞庫轉txt

移位一個 truct unpack art set_trace 描述格式索引 # 運行環境要求 python2 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import struct

Python 解析百度，搜狗詞庫

最近在解析百度詞庫https://shurufa.baidu.com/dict。說一下解決思路吧。把檔案下載下來會發現是位元組流。而計算機儲存資料有兩種方式，大端位元組序，小端位元組序。計算機的內部處理都是小端位元組序。人類還是習慣讀寫大端位元組序。所以，除了計算機的內部處理，其他

ibus新增搜狗詞庫

安裝方法：http://forum.ubuntu.org.cn/viewtopic.php?f=8&t=252407 詞庫地址：http://code.google.com/p/hslinuxextra/downloads/list 其他相關方法（轉）對於不喜歡 ibus 和 fcitx 自帶拼

Mac版R語言（六）文字挖掘（使用者詞庫的匯入、批量匯入搜狗詞庫）

R語言問題討論交流，歡迎關注我的新浪微博：Jenny愛學習文字挖掘應用的部落格將分4個部分分別討論完成，本篇將完成part 1的詳細project：使用者字典批量安裝，自定義分詞詞庫，自建分詞packages的安裝jiebaR分詞的使用詞雲的繪製（wordcloud2詳細使用

Fcitx使用搜狗詞庫與面板

在 \(\text{Linux}\) 環境下，\(\text{Fcitx}\) 確實是最好用的開源輸入法之一。然而 \(\text{Windows}\) 下的巨頭輸入法 —— 搜狗，對 \(\text{Linux}\) 的支援卻並不算到位，迄今為止，大多數 \(\text{Linux}\) 的最新核心都無法使

對搜狗語料庫進行想要格式編碼的處理

1. 下載資料搜狗語料庫:http://www.sogou.com/labs/resource/cs.php,下載解壓. 2. 資料編碼處理在ubuntu環境下,編寫一個sh檔案: find ./ -type f -name "*.txt"|while read line;

spark 大資料搜狗測試資料SogouQ1.txt檔案格式問題說明

為了學習，從網上搞到了SogouQ1.txt,執行到rdd3.count()顯示了一堆亂碼懷疑編碼不對，使用em轉成utf-8ok了結果再執行rdd3.count()，又提示等等 Caused by: java.lang.NumberFormatException: F

深藍詞庫轉換2.4版發布，支持最新的搜狗用戶詞庫備份bin格式

不用使用 github上 inf http 根據 inline style src 很高興的告訴大家，感謝GitHub上的h4x3rotab提供python版的搜狗用戶詞庫備份bin格式的解析算法，感謝tmxkn1提供了C#版的實現，深藍詞庫轉換終於迎來了一個重大更新，能

利用搜狗細胞詞庫實現智慧搜尋（上）

筆者並不瞭解，各大搜索網站是怎麼實現智慧搜尋的。以下只是筆者一時的想法，筆者覺得這個方法可以實現智慧匹配搜尋內容。一、首先我們獲取細胞詞庫內容 ①建表語句： DROP TABLE IF EXISTS `sougou_ciku`; CREATE TABLE `sougou_ciku` ( `id

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

搜狗輸入法候選詞亂碼解決方法

原因未知，只曉得解決方法是：１．如果是剛裝完搜狗輸入法,則輸入命令:sudo apt-get install -f,進行依懶性檢查,判斷是否卻是依賴項. sudo apt-get install -f ２．不能解決問題,則刪除配置檔案,Ubuntu下搜狗的配置檔案在~/.c

利用協程asyncio爬取搜狗美女圖片（一）——asyncio庫的介紹和使用

上一節，我們通過分析ajax爬取搜狗美女圖片，（連結https://blog.csdn.net/MG1723054/article/details/81735834）這樣爬取的效率相對來說比較高，在文章的末尾我們使用程序池來提高效率，但是由於爬蟲主要是密集型IO操作，利用程序對其提高時效率不高，

計蒜之道初賽第一場搜狗輸入法的分詞演算法

搜狗輸入法最近的使用者輸入中出現了一種新的輸入模式，形如 “0k1234567”，搜狗的工程師發現這一模式後瞭解到，這是一種新被提出的對於十五進位制數字的標記模式，其中 “0k” 是標記進製為15的字首標記，之後的部分 “1234567” 是實際的十五進位制的數字串。在發

匯入搜狗實驗室新聞語料庫

在搜狗實驗室下載的新聞語料庫中儲存的一條新聞的資料格式是 <doc> <url></url> <docno></docno> <contenttitle><

搜狗輸入法體驗評測

界面用戶分享內容一個所想體驗天氣選擇搜狗輸入法體驗評測 1.用戶界面截圖：首先，左上有一個導航欄，對搜索的信息分門別類，我並不常用，所以他也沒有占據明顯的位置，右上是天氣和地點等，聊勝於無，中間是醒目的搜索框，簡潔明了 2.記住用戶選擇截圖

對現有輸入法進行評價——搜狗

效果比較 mage 向導自己軟件修改 com 滿足我現在使用的為搜狗輸入法：下面從四個角度來分析它的使用情況：在此聲明，僅屬於個人看法，沒有任何詆毀或打廣告的意思一、用戶界面： 1）搜狗的用戶導航可有多種選擇，顏色、樣式會定期更新，推出新產品，滿足大

49. 搜狗面試題：大數相乘算法

std margin -a pac string out none content ack 分析：大數能大到整形類型存儲不了。須要借助於其它的算法，來完畢乘法運算。能夠使用口算乘法的步驟來模擬乘法操作。例如以下：

IE與搜狗input 默認樣式

眼睛 logs 淺析 lan style 密碼框 .cn com shadow 在IE10 及以上input框會加上默認的X號，密碼框會加上小眼睛去掉的方法： ::-ms-clear,::-ms-reveal{ display:none; } 　在搜狗瀏覽

Ubuntu mate安裝搜狗輸入法

install 添加修復 sougou hat via ppa 比較 conf 學習使用linux不過兩周時間，換了3份發行版，體驗了red hat和devian陣營的版本。因為是給舊筆記本電腦安裝，而且自己是新手，還是選用了Ubuntu陣營的操作系統。Kylin系統是中

[ubuntu16.04]安裝搜狗輸入法

1.0 image 文件 .so pinyin amd64 cnblogs 重啟搜狗 1，搜狗輸入法下載： http://pinyin.sogou.com/linux/ 下載文件：sogoupinyin_2.1.0.0086_amd64.deb 2，安裝方法：（1）直接

搜狗詞庫轉txt

相關推薦