輸入法詞庫解析（六）QQ 拼音分類詞庫.qpyd

阿新 • • 發佈：2022-05-27

qpyd 格式的難點主要是碼錶經過了 zlib 壓縮，解壓後的資料很好解析。

原始檔案

0x38 後跟的 4 位元組表示壓縮資料開始的位元組。

0x44 後跟的 4 位元組表示詞條數。

壓縮的資料

使用了 zlib 格式。

golang 解壓 zlib :

	// 解壓資料
	zrd, err := zlib.NewReader(r)
	if err != nil {
		log.Panic(err)
	}
	defer zrd.Close()
	buf := new(bytes.Buffer)
	buf.Grow(r.Len())
	_, err = io.Copy(buf, zrd)
	if err != nil {
		log.Panic(err)
	}

我們看看解壓後的資料是什麼形式

可以發現它分為兩部分，前部分每 10 個一組，總長 10*詞條數。

放到文字編輯器裡分析一下，這裡取了前後兩部分前三條。

可以看到前部分是編碼長和詞長資訊，後半部分 ascii 的編碼 + utf-16le 的詞條。

詳解

前半部分儲存了所有詞條的編碼長，詞長，索引位置。

佔用位元組數	描述
1	拼音的長度
1	詞位元組長
4	未知，全是`00 00 80 3F`
4	詞條的索引位置

後半部分就是詞條本身了，拼音和詞，詞條之間都沒有多餘位元組。

前面是編碼，框裡的是詞。

程式碼實現


func ParseQqQpyd(rd io.Reader) []Pinyin {
	ret := make([]Pinyin, 0, 1e5)
	data, _ := ioutil.ReadAll(rd)
	r := bytes.NewReader(data)

	// utf-16le 轉換器
	decoder := unicode.UTF16(unicode.LittleEndian, unicode.IgnoreBOM).NewDecoder()

	// 0x38 後跟的是壓縮資料開始的偏移量
	r.Seek(0x38, 0)
	tmp := make([]byte, 4)
	r.Read(tmp)
	startZip := bytesToInt(tmp)
	// 0x44 後4位元組是詞條數
	r.Seek(0x44, 0)
	r.Read(tmp)
	dictLen := bytesToInt(tmp)
	// 0x60 到zip資料前的一段是一些描述資訊
	r.Seek(0x60, 0)
	head := make([]byte, startZip-0x60)
	r.Read(head)
	b, _ := decoder.Bytes(head)
	fmt.Println(string(b))

	// 解壓資料
	zrd, err := zlib.NewReader(r)
	if err != nil {
		log.Panic(err)
	}
	defer zrd.Close()
	buf := new(bytes.Buffer)
	buf.Grow(r.Len())
	_, err = io.Copy(buf, zrd)
	if err != nil {
		log.Panic(err)
	}
	// 解壓完了
	r.Reset(buf.Bytes())

	for i := 0; i < dictLen; i++ {
		// 讀碼長、詞長、索引
		addr := make([]byte, 10)
		r.Read(addr)
		idx := bytesToInt(addr[6:]) // 後4位元組是索引
		r.Seek(int64(idx), 0)       // 指向索引
		codeSli := make([]byte, addr[0])
		r.Read(codeSli)
		wordSli := make([]byte, addr[1])
		r.Read(wordSli)
		wordSli, _ = decoder.Bytes(wordSli)
		ret = append(ret, Pinyin{string(wordSli), strings.Split(string(codeSli), "'"), 1})
		// 指向下一條
		r.Seek(int64(10*(i+1)), 0)
	}
	return ret
}

輸入法詞庫解析（六）QQ 拼音分類詞庫.qpyd

qpyd 格式的難點主要是碼錶經過了 zlib 壓縮，解壓後的資料很好解析。原始檔案

輸入法詞庫解析（四）百度分類詞庫.bdict(.bcd)

參考深藍詞庫轉換百度 pc 分類詞庫.bdict 和手機.bcd 是一樣的碼錶偏移 0x350 詞庫不帶拼音表，需要根據詞庫規納出來，參考深藍

輸入法詞庫解析（一）百度自定義方案.def

參考了 asd1fque1 的詞庫處理工具 js 實現解析碼錶偏移量 0x6D 佔用位元組數描述

輸入法詞庫解析（二）搜狗拼音細胞詞庫.scel

前面很多空位元組的地方不用管，是一些描述資訊，詞庫名、示例詞等。 0x124 跟的 4 個位元組是詞條數，新的 scel 在檔案最後面可能有違禁詞（黑名單詞）。

輸入法詞庫解析（五）極點碼錶.mb

前 0x1A 個是版本資訊 0x1B ~ 0x11E 是詞庫的描述資訊，utf-16le 編碼上圖部分解析為

輸入法詞庫解析（三）紫光拼音詞庫.uwl

紫光的詞庫有點複雜。前面是拼音表，但是沒有拼音只有索引，應該是寫到了程式內部。好在深藍詞庫處理工具已經解析好了，這部分就跳過了。

Dubbo原始碼解析（六）註冊中心——redis

註冊中心——redis 目標：解釋以為redis實現的註冊中心原理，解讀duubo-registry-redis的原始碼

Rxjava2 原始碼解析（六）---執行緒篇

2019獨角獸企業重金招聘Python工程師標準>>> 前言好久沒寫部落格了，主要是最近公司業務比較忙。今天閒下來，所以補了之前的一個坑。

資料庫分庫分表中介軟體 Sharding-JDBC 原始碼分析 —— SQL 解析（六）之刪除SQL

本文主要基於 Sharding-JDBC 1.5.0 正式版 1. 概述 2. DeleteStatement 3. #parse() 3.1 #skipBetweenDeleteAndTable()

Apache Flink 進階（六）：Flink 作業執行深度解析

作者：嶽猛整理：毛鶴本文根據 Apache Flink 系列直播課程整理而成，由 Apache Flink Contributor、網易雲音樂實時計算平臺研發工程師嶽猛分享。主要分享內容為 Flink Job 執行作業的流程，文章將從兩個方面進行分

Redis系列（六）：資料結構QuickList（快速列表）原始碼解析

1.介紹 Redis在3.2版本之前List的底層編碼是ZipList和LinkedList實現的在3.2版本之後，重新引入了QuickList的資料結構，列表的底層都是QuickList實現

Python3爬蟲lxml解析庫安裝（轉載）

lxml的安裝 Windows 在Windows環境下，可以先嚐試利用pip安裝，開啟命令列窗戶輸入pip3 install lxml,如果沒有報錯，則安裝成功。

python 輿情分析 nlp主題分析（2）-結合snownlp與jieba庫，提高分詞與情感判斷待續

python 輿情分析 nlp主題分析（1）待續:https://www.cnblogs.com/cycxtz/p/13663895.html 前文摘要：

華為HCIA-datacom題庫解析（答案及解析）全網首發

華為HCIA-datacom題庫解析第二彈：獲取hcia/hcip/hcie或H3C認證相關學習資料可 + Q 裙：752160765

MySQL學習筆記（六）-MySQL中庫和表的管理

此文轉載自：https://blog.csdn.net/m0_48834053/article/details/110009038 MySQL學習筆記（六）-MySQL中庫和表的管理

nginx 域名配置_我眼中的 Nginx（六）：深入 Nginx/Openresty 服務裡的 DNS 解析

技術標籤：nginx 域名配置nginx 配置域名nginx配置域名一個無法解析的外部命令

UI自動化框架搭建（六）: 工具類解析

主要講下3個工具一、日誌類工具功能：自動化執行列印日誌日誌級別setLevel(logging.DEBUG或INFO ERROR)，一般為INFO

SpringMVC學習筆記（六）—— 檢視解析

技術標籤：SpringMVCspringmvc SpringMVC學習筆記（六）—— 檢視解析尚矽谷SpringMVC https://www.bilibili.com/video/BV1d4411g7tv?p=120

併發程式設計（六）抽象佇列同步器AQS解析

一、背景介紹　　學習AQS前先了解一位巨佬，也就是java.util.concurrent包的作者Doug Lea

clickhouse（六）系統庫system說明

背景　現在ClickHouse已經能正常使用起來了，包括副本和分片。因為ClickHouse已經可以提供服務了，現在需要關心的就是服務期間該資料庫的各項效能指標的情況，如CPU、記憶體、查詢等等。其實在安裝完ClickHouse之後