某連鎖酒店洩露資料的分析

阿新 • • 發佈：2019-01-17

宣告

不提供任何下載，不提供任何指引，無需問我怎麼得到，我不會回答。

這個分析純粹是我喜歡資料探勘，週末閒來無事練一下手。

原始檔是一個SQL Server資料庫備份檔案，從資料庫“shifenzheng”完整備份，從伺服器GHOSTSLC-6BBFCB備份，備份日期是2013/5/27 0:45:49 備份使用者名稱叫anyi，備份資料庫大小8030071808 (約7.5GB)。

資料庫只有一個表，叫cdsgus。裡面有姓名、身份證號碼、性別、地址、國家、手機號碼、電子郵件等資料，其它的如卡號、固話、傳真、公司、教育、興趣等基本上是殘缺甚至沒有的，甚至部分人的身份證號碼也是錯亂的，估計匯入的時候沒有處理好。

而每個欄位都設為長度2000的nvarchar，相當蛋痛，相信這不是原始設計，而單純是洩露後自行快速匯入的產物。

裡面有20050144條記錄（2005萬）。

取姓名的第一個字元做姓（不考慮複姓），有4644個性，最多是王，其次是張、李、劉、陳，似乎和中國的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(數學裡面的pi)。。。相信是亂寫的。

10大姓裡面已經佔了821萬用戶。

男性比女性多一倍。

剔除那些無效或不靠譜年齡，80後是主力，70後次之。90後只有60後的一半，貌似不科學。。。

省份資料基於身份證號碼，部分使用者使用的不是身份證號號碼，部分使用者提供了的資料不合法，我都一併剔除了。江蘇、山東和浙江使用者最多，相信是某某連鎖酒店在這些地區網點最多。

其實我還可以分析一下如手機提供商（移動/電信/聯通等）、登記時間的分佈等，甚至多維如不同省份裡的不同年齡段裡的不同手機使用者之類，不過頸椎病發作，強忍疼痛寫了這篇部落格，就此打住了，休息去。

網際網路時代，每天產生的資料越來越多，資料安全問題日益嚴重，譬如之前的CSDN個人資訊洩露，還有幾個大遊戲網站的資料洩露，當然還有諸多沒有公開，只是在某些組織內部流轉的。

我的建議，保護好自己的個人資訊，不要在網上隨意填寫敏感資料，譬如身份證等，儘可能不同服務使用不同密碼並經常修改。電話號碼等，如果非得要填寫，填寫一個備用號碼（專門用來填寫申請/註冊用，可隨便丟棄，不怕別人騷擾）。