如何通過MD5反查身份證號？

阿新 • • 發佈：2019-12-31

題目：設計一個身份證查詢系統，將身份證號md5 之後儲存，輸入md5值查詢對應的身份證號。 要求：成本低，查詢速度快

設計思路：

將所有可能的身份證號做一個簡單的統計計算資料量
根據資料量選擇儲存方式
查詢

身份證生成規則：

身份號碼是特徵組合碼，由前十七位數字本體碼和最後一位數字校驗碼組成。排列順序從左至右依次為六位數字地址碼，八位數字出生日期碼，三位數字順序碼和一位數字校驗碼。

地址碼：表示編碼物件常住戶口所在縣(市、旗、區)的行政區劃程式碼。對於新生兒，該地址碼為戶口登記地行政區劃程式碼。需要沒說明的是，隨著行政區劃的調整，同一個地方進行戶口登記的可能存在地址碼不一致的情況。行政區劃程式碼按GB/T2260的規定執行。

出生日期碼：表示編碼物件出生的年、月、日，年、月、日程式碼之間不用分隔符，格式為YYYYMMDD，如19880328。按GB/T 7408的規定執行。原15位身份證號碼中出生日期碼還有對百歲老人特定的標識，其中999、998、997、996分配給百歲老人。

順序碼：表示在同一地址碼所標識的區域範圍內，對同年、同月、同日出生的人編定的順序號，順序碼的奇數分配給男性，偶數分配給女性。

校驗碼：根據本體碼，通過採用ISO 7064:1983,MOD 11-2校驗碼系統計算出校驗碼。演演算法可參考下文。前面有提到數字校驗碼，我們知道校驗碼也有X的，實質上為羅馬字元X，相當於10.

校驗碼演演算法

將本體碼各位數字乘以對應加權因子並求和，除以11得到餘數，根據餘數通過校驗碼對照表查得校驗碼。

加權因子表：

+-----------------------------------------------------------+ 
|位置序號|1 |2 |3 |4 |5 |6 |7 |8 |9 |10|11|12|13|14|15|16|17| 
+-----------------------------------------------------------+ 
|加權因子|7 |9 |10|5 |8 |4 |2 |1 |6 |3 |7 |9 |10|5 |8 |4 |2 | 
+-----------------------------------------------------------+ 
複製程式碼

校驗碼錶:

+----------------------------------------------------+ 
| 餘數  | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 
+----------------------------------------------------+ 
| 校驗碼| 1 | 0 | X | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2  | 
+----------------------------------------------------+ 
複製程式碼

演演算法舉例：

本體碼為11010519491231002

第一步：各位數與對應加權因子乘積求和1* 7+1 * 9+0 * 10+1 * 5+ *** =167
第二步：對求和進行除11得餘數167%11=2
第三步：根據餘數2對照校驗碼得X

**因此完整身份證號為：11010519491231002X **

預估資料量：

身份證號18位，前六位為地區碼，中間八位為日期，日期後三位為順序碼，最後一位為校驗位，佔32個位元組
md5值為32位，佔32個位元組
計算最近100年資料，大約資料量為：3465x100x365x999=126346027500
資料以字串儲存，每條資料32+18=50B
則資料量為 `126346027500 x 50=6317301375000B=6169239624k=6024648M=5883G=5.74T ``

儲存方式有檔案儲存、關係型資料庫儲存和es儲存等。從結果可以看到有接近6T的資料，如果存入資料庫或es成本較高，這裡選擇以檔案的方式儲存。

那有沒有方式壓縮儲存空間呢？

身份證號最後一位為校驗位，可以不儲存，省略掉這一位會節約1/50點空間
不以字串的方式儲存，將身份證號以uint64儲存，md5值也轉化成兩個uint64儲存。uint64佔8閣位元組空間，這樣一條資料的空間由50降為了 24。最終資料量為2.74T，節約一半多的空間。

那現在有一個問題，每個檔案多大合適呢？

如果檔案太大，每次將檔案讀取到記憶體中耗時較長，如果檔案太小，則會生成太多的檔案可能超出系統的檔案數限制。

這裡可以參考資料庫索引的儲存方式，設定每個資料檔案的大小（2.8T資料可以設定每個資料檔案1G左右。

資料生成後如何查詢？

遍歷，依次讀取檔案，查詢資料，效率太低
這裡參考資料庫索引的查詢方式，首先將資料按md5值排序後儲存多個檔案，記錄每個檔案中md5值的範圍，輸入md5值確定檔案，再讀取檔案使用二分查詢。
這時查詢資料只需要讀取一個檔案，但是每個檔案都有幾百兆的資料，查詢效率還是太低，再參考一下資料庫索引，這裡將檔案內部再分頁，記錄每頁的範圍，和檔案所自身記錄的起始值一起生成索引，索引結構如圖所示：

索引資料結構為：

# 為了簡化儲存，這裡file1、file2、file3、file4 為該檔案第一條資料的md5值，也是對應的檔名
# 頁的大小固定，所以二級索引只需要按順序記錄每頁的第一個md5值即可

indexes = { 
    "file1": ["md51","md52","md53","..."],"file2": ["md51","file3": ["md51","file4": ["md51",} 
複製程式碼

第一層索引為檔案索引，首先通過md5值判斷md5值所在檔案，比如輸入的 start1 > md5 > start1，可以判斷結果可能在file1 中；

第二層為檔案內索引，通過md5值判斷所在的頁，讀取根據offset讀取該頁的全部資料，再通過二分查詢找到對應的身份證號。

程式碼實現原始碼地址：github.com/gusibi/onep…

使用方式：

1. go run main.go
2. curl http://127.0.0.1:8080/search?md5={id md5}
複製程式碼

參考連結：

原始碼地址

最後，感謝女朋友支援和包容，比❤️

也可以在公號輸入以下關鍵字獲取歷史文章：公號&小程式 | 設計模式 | 併發&協程

如何通過MD5反查身份證號？

設計思路：

身份證生成規則：

校驗碼演演算法

演演算法舉例：

預估資料量：

資料生成後如何查詢？

參考連結：

如何通過MD5反查身份證號？

python字典通過值反查鍵的實現(簡潔寫法)

BOM反查原材料反查最上層的成本料號

【轉】AIX中查詢埠號和反查程序

使用python程式碼進行身份證號校驗的實現示例

Python開發之身份證驗證庫id_validator驗證身份證號合法性及根據身份證號返回住址年齡等資訊

Oracle按身份證號得到省市、性別、年齡的示例程式碼

Laravel 中自定義手機號和身份證號驗證

身份證號幫助類

前後端進行身份證號驗證

JS前後端實現身份證號驗證程式碼解析

Android身份證號有效性校驗工具類案例

JS中根據身份證號獲取年齡、出生日期

【fasterxml.jackson】欄位（反）序列號問題Access.WRITE_ONLY

Java根據身份證號計算年齡，15位身份證號碼轉18位原理與操作示例

PHP實現15位身份證號轉18位的方法分析

03 cast和substring函式的使用-從身份證號取生日

vue el-form常用的表單正則驗證【使用者名稱、密碼、身份證號、郵箱號，手機號，車牌號、ip地址等】

Unity根據選單項內容反查使用對應[MenuItem()]標籤的函式

將身份證號中的出生日期轉換成Date物件並按yyyy年MM月dd日格式輸出

如何通過MD5反查身份證號？

設計思路：

身份證生成規則：

校驗碼演演算法

演演算法舉例：

預估資料量：

資料生成後如何查詢？

參考連結：

相關推薦