1. 程式人生 > 實用技巧 >簡述地理編碼原理與實施方案

簡述地理編碼原理與實施方案

一、地理編碼的定義:

地理編碼也稱作地址編碼,是將地址本文描述轉化為座標的過程。

通過“北京市西城區西單北大街131號西單大悅城”,得到“座標:39.910864,116.372857”的過程,既是地理編碼。

二、地理編碼的發展:

基於計算機技術的地理編碼,在上世紀六十年代,美國人口統計局設計DIME模型和tiger資料庫的時候,就有了技術雛形,而後隨著計算機的普及和網際網路的發展,地理編碼漸漸由ToG轉向了ToB、ToC領域。

三、地理編碼的應用:

在ToG領域:

地理編碼主要用於政府普查與管理人口;醫療衛生上,則是對流行病進行調查防控;公共安全上,通過定位犯罪現場,對犯罪分佈與模式進行分析等。

在ToB領域:

地理編碼可用於企業管理使用者,對裝置進行監控等。

在ToC領域:

最常見的應用就是,使用者在地圖搜尋框中輸入地址,查詢地址所在的位置,繼而導航,根據導航提示,使用各種交通工具或步行抵達目的地。

總而言之,地理編碼的應用都基於將地址文字轉為座標,根據座標結果進行後續步驟。

四、地理編碼的步驟:

《地理資訊系統導論》一書中,將地理編碼過程分為三個環節,預處理、匹配、標繪。

另外綜合arcgis文件《地理編碼過程》和論文《地理編碼系統設計與實現》,整理的地理編碼流程圖如下:

  1. 地理編碼的技術環節:

地理編碼過程分三個環節,資料預處理、搜尋匹配、標繪。

在這三個環節中,資料預處理的難點在於地址的標準化和結構化,中文地址與中文語言一樣,充滿了多樣性,在對地址進行標準化與結構化的過程中,需要覆蓋非常廣泛的策略和詞典做支撐,資料質量越好、量級越大,結果就會越準確。

搜尋匹配的重點是對輸入文字的切分,和對召回結果的打分,如果切分效果不好,則找不到資料庫中的合適記錄,如果打分規則設定的不好,輸出的結果可能就不是想要的結果。

在標繪環節,如果搜尋匹配的結果不完全吻合輸入地址,需要基於線要素進行插值(包括單側偏移和末端偏移),或獲取面的質心(如果參考要素是面或點),來進行座標修正。

  1. 地理編碼的評分標準:

對服務質量的評判主要有兩個指標:

基於文字的匹配率;

定位準確度。

為了定位服務誤差的原因,還需要確定性指標:

預處理環節的確定度;

匹配環節的確定度;

標繪環節的確定度。

  1. 地理編碼的技術:

資料生產加工:地理編碼需要海量資料與詞典進行底層資料支撐,海量資料除了自採集加工外,還需要從各種平臺爬取融合;詞典除了積累,還有挖掘生成。在這一環節需要很多爬蟲和自然語言處理相關的技術。

地址本文預處理:地址文字需要去噪、標準化、結構化,這一過程需要自然語言處理的技術。

(關於這部分,後續會補充一箇中國計算科學技術自然語言處理的發展史。)

搜尋匹配:關鍵點是搜尋引擎的搭建,C語言搭建的搜尋引擎無疑是效率最高的,但近些年,ElasticSearch的使用也很廣泛。

標繪:最終結果的座標展示,這個環節會涉及一些空間插值與聚類的計算,當然為了插值合理,最好要有路網資料。

五、總結:

地理編碼是一個多技術、融合性工程應用,涉及到的技術包括GIS、NLP、搜尋等,而這些技術,也是多學科交叉的領域,目前ToC的地理編碼服務已經非常成熟了,各大圖商都提供該服務。ToB領域,企業為管理使用者地址,會建立地理編碼服務。ToG領域,政府會用在人口普查、犯罪預防、流行病調查等方向。

因地址多樣性和基礎資料準確性、時效性的影響,地理編碼服務的準確率是有瓶頸的,靠技術很難突破,要突破,恐怕只能靠生態模式的改變。

再看產品收益,ToC的產品很難獲得盈利,ToB主要以企業自用為主,且很難打破行業壁壘,實現外部盈利。

總之,地理編碼是一個已達到技術瓶頸、且市場空間有限的領域。

參考資料:

1.什麼是地理編碼—BY ARCGIS

https://desktop.arcgis.com/zh-cn/arcmap/10.3/guide-books/geocoding/what-is-geocoding.htm

2.地理資訊系統導論—BY 張康聰

3.地理編碼系統設計與實現

http://sourcedb.igsnrr.cas.cn/zw/lw/201003/P020100304321939960203.pdf

4.自然語言處理的形式模型—BY 馮志偉(教育部語言文字應用研究所研究員),2010年,中國科學技術大學出版社

https://book.douban.com/subject/4284581/

5. 中文文字自動分詞和標註—BY 劉開瑛,商務印書館,2000年

https://book.douban.com/subject/1099516/