簡述地理編碼原理與實施方案

阿新 • • 發佈：2020-10-10

一、地理編碼的定義：

地理編碼也稱作地址編碼，是將地址本文描述轉化為座標的過程。

通過“北京市西城區西單北大街131號西單大悅城”，得到“座標：39.910864,116.372857”的過程，既是地理編碼。

二、地理編碼的發展：

基於計算機技術的地理編碼，在上世紀六十年代，美國人口統計局設計DIME模型和tiger資料庫的時候，就有了技術雛形，而後隨著計算機的普及和網際網路的發展，地理編碼漸漸由ToG轉向了ToB、ToC領域。

三、地理編碼的應用：

在ToG領域：

地理編碼主要用於政府普查與管理人口；醫療衛生上，則是對流行病進行調查防控；公共安全上，通過定位犯罪現場，對犯罪分佈與模式進行分析等。

在ToB領域：

地理編碼可用於企業管理使用者，對裝置進行監控等。

在ToC領域：

最常見的應用就是，使用者在地圖搜尋框中輸入地址，查詢地址所在的位置，繼而導航，根據導航提示，使用各種交通工具或步行抵達目的地。

總而言之，地理編碼的應用都基於將地址文字轉為座標，根據座標結果進行後續步驟。

四、地理編碼的步驟：

《地理資訊系統導論》一書中，將地理編碼過程分為三個環節，預處理、匹配、標繪。

另外綜合arcgis文件《地理編碼過程》和論文《地理編碼系統設計與實現》，整理的地理編碼流程圖如下：

地理編碼的技術環節：

地理編碼過程分三個環節，資料預處理、搜尋匹配、標繪。

在這三個環節中，資料預處理的難點在於地址的標準化和結構化，中文地址與中文語言一樣，充滿了多樣性，在對地址進行標準化與結構化的過程中，需要覆蓋非常廣泛的策略和詞典做支撐，資料質量越好、量級越大，結果就會越準確。

搜尋匹配的重點是對輸入文字的切分，和對召回結果的打分，如果切分效果不好，則找不到資料庫中的合適記錄，如果打分規則設定的不好，輸出的結果可能就不是想要的結果。

在標繪環節，如果搜尋匹配的結果不完全吻合輸入地址，需要基於線要素進行插值（包括單側偏移和末端偏移），或獲取面的質心（如果參考要素是面或點），來進行座標修正。

地理編碼的評分標準：

對服務質量的評判主要有兩個指標：

基於文字的匹配率；

定位準確度。

為了定位服務誤差的原因，還需要確定性指標：

預處理環節的確定度；

匹配環節的確定度；

標繪環節的確定度。

地理編碼的技術：

資料生產加工：地理編碼需要海量資料與詞典進行底層資料支撐，海量資料除了自採集加工外，還需要從各種平臺爬取融合；詞典除了積累，還有挖掘生成。在這一環節需要很多爬蟲和自然語言處理相關的技術。

地址本文預處理：地址文字需要去噪、標準化、結構化，這一過程需要自然語言處理的技術。

（關於這部分，後續會補充一箇中國計算科學技術自然語言處理的發展史。）

搜尋匹配：關鍵點是搜尋引擎的搭建，C語言搭建的搜尋引擎無疑是效率最高的，但近些年，ElasticSearch的使用也很廣泛。

標繪：最終結果的座標展示，這個環節會涉及一些空間插值與聚類的計算，當然為了插值合理，最好要有路網資料。

五、總結：

地理編碼是一個多技術、融合性工程應用，涉及到的技術包括GIS、NLP、搜尋等，而這些技術，也是多學科交叉的領域，目前ToC的地理編碼服務已經非常成熟了，各大圖商都提供該服務。ToB領域，企業為管理使用者地址，會建立地理編碼服務。ToG領域，政府會用在人口普查、犯罪預防、流行病調查等方向。

因地址多樣性和基礎資料準確性、時效性的影響，地理編碼服務的準確率是有瓶頸的，靠技術很難突破，要突破，恐怕只能靠生態模式的改變。

再看產品收益，ToC的產品很難獲得盈利，ToB主要以企業自用為主，且很難打破行業壁壘，實現外部盈利。

總之，地理編碼是一個已達到技術瓶頸、且市場空間有限的領域。

參考資料：

1.什麼是地理編碼—BY ARCGIS

https://desktop.arcgis.com/zh-cn/arcmap/10.3/guide-books/geocoding/what-is-geocoding.htm

2.地理資訊系統導論—BY 張康聰

3.地理編碼系統設計與實現

http://sourcedb.igsnrr.cas.cn/zw/lw/201003/P020100304321939960203.pdf

4.自然語言處理的形式模型—BY 馮志偉（教育部語言文字應用研究所研究員），2010年，中國科學技術大學出版社

https://book.douban.com/subject/4284581/

5. 中文文字自動分詞和標註—BY 劉開瑛，商務印書館，2000年

https://book.douban.com/subject/1099516/

簡述地理編碼原理與實施方案

一、地理編碼的定義：

二、地理編碼的發展：

三、地理編碼的應用：

四、地理編碼的步驟：

五、總結：

簡述地理編碼原理與實施方案

移動端事件穿透的原理與解決方案

瀏覽器渲染原理與 CSS 動畫

Java執行緒池原理與原始碼詳細解讀，再也不怕面試問執行緒池了！

MySQL 優化實施方案

Spring IOC 原理與IOC 容器實現

Docker系列-(1) 原理與基本操作

理解Google Spanner(3)：分散式事務原理與實現

Kubernetes監控實踐（1）：K8s的工作原理與監控實踐

[原創]SpringBoot的自動配置原理與自定義SpringBootStarter

Java 的抽象類原理與用法分析

Spring的組合註解和元註解原理與用法詳解

Java抽象類原理與用法例項詳解

Java 反射機制原理與用法詳解

spring依賴注入原理與用法例項分析

java樂觀鎖原理與實現案例分析

Java執行緒間通訊不同步問題原理與模擬例項

Java同步程式碼塊和同步方法原理與應用案例詳解

mysql儲存過程之遊標（DECLARE）原理與用法詳解

mysql累積聚合原理與用法例項分析

簡述地理編碼原理與實施方案

一、地理編碼的定義：

二、地理編碼的發展：

三、地理編碼的應用：

四、地理編碼的步驟：

五、總結：

相關推薦