關於省市區三級聯動處理邏輯(儲存到sql資料庫)
阿新 • • 發佈:2021-10-18
我們這裡使用的是中華人民共和國民政部的省市縣三級資料需要用到爬蟲
省市地區資料地址:http://www.mca.gov.cn/article/sj/xzqh/1980/
大體處理邏輯為你可以先用爬蟲爬下來這個網頁,然後資料結構是tr,td的table表格,如圖所示
我們可以把這個網頁爬取下來然後
我們定義一個儲存資料的類,結構如下
private static class Area { // 區域碼 private String code; // 區域名稱 private String name; // 父級 private String parent; }
爬取之後處理table裡面的資料,把空的處理掉,處理成能儲存到我們定義的類的格式,然後我們會
發現他們的層級結構是省級之下的前兩位一樣,市級和區級的前四位一樣,省級以四個0結尾,省級以兩個0結尾
然後我們就可以先判斷這各地區是否包含兩個0,包含父級就先統一刷成市級的先除一百在乘一百就是了,
然後就判斷是否包含四個0父級編碼包含就刷成省級的先除一萬再乘一萬結果就是該地區的父級編碼
然後對這直轄市後期進行特殊處理,
原文是java寫的,如果你是java工程師可以直接看
原文參考:https://www.shangmayuan.com/a/809129c38ac44e6d9e5e589d.html