簡述地理編碼原理與實施方案
一、地理編碼的定義:
地理編碼也稱作地址編碼,是將地址本文描述轉化為座標的過程。
通過“北京市西城區西單北大街131號西單大悅城”,得到“座標:39.910864,116.372857”的過程,既是地理編碼。
二、地理編碼的發展:
基於計算機技術的地理編碼,在上世紀六十年代,美國人口統計局設計DIME模型和tiger資料庫的時候,就有了技術雛形,而後隨著計算機的普及和網際網路的發展,地理編碼漸漸由ToG轉向了ToB、ToC領域。
三、地理編碼的應用:
在ToG領域:
地理編碼主要用於政府普查與管理人口;醫療衛生上,則是對流行病進行調查防控;公共安全上,通過定位犯罪現場,對犯罪分佈與模式進行分析等。
在ToB領域:
地理編碼可用於企業管理使用者,對裝置進行監控等。
在ToC領域:
最常見的應用就是,使用者在地圖搜尋框中輸入地址,查詢地址所在的位置,繼而導航,根據導航提示,使用各種交通工具或步行抵達目的地。
總而言之,地理編碼的應用都基於將地址文字轉為座標,根據座標結果進行後續步驟。
四、地理編碼的步驟:
《地理資訊系統導論》一書中,將地理編碼過程分為三個環節,預處理、匹配、標繪。
另外綜合arcgis文件《地理編碼過程》和論文《地理編碼系統設計與實現》,整理的地理編碼流程圖如下:
- 地理編碼的技術環節:
地理編碼過程分三個環節,資料預處理、搜尋匹配、標繪。
在這三個環節中,資料預處理的難點在於地址的標準化和結構化,中文地址與中文語言一樣,充滿了多樣性,在對地址進行標準化與結構化的過程中,需要覆蓋非常廣泛的策略和詞典做支撐,資料質量越好、量級越大,結果就會越準確。
搜尋匹配的重點是對輸入文字的切分,和對召回結果的打分,如果切分效果不好,則找不到資料庫中的合適記錄,如果打分規則設定的不好,輸出的結果可能就不是想要的結果。
在標繪環節,如果搜尋匹配的結果不完全吻合輸入地址,需要基於線要素進行插值(包括單側偏移和末端偏移),或獲取面的質心(如果參考要素是面或點),來進行座標修正。
- 地理編碼的評分標準:
對服務質量的評判主要有兩個指標:
基於文字的匹配率;
定位準確度。
為了定位服務誤差的原因,還需要確定性指標:
預處理環節的確定度;
匹配環節的確定度;
標繪環節的確定度。
- 地理編碼的技術:
資料生產加工:地理編碼需要海量資料與詞典進行底層資料支撐,海量資料除了自採集加工外,還需要從各種平臺爬取融合;詞典除了積累,還有挖掘生成。在這一環節需要很多爬蟲和自然語言處理相關的技術。
地址本文預處理:地址文字需要去噪、標準化、結構化,這一過程需要自然語言處理的技術。
(關於這部分,後續會補充一箇中國計算科學技術自然語言處理的發展史。)
搜尋匹配:關鍵點是搜尋引擎的搭建,C語言搭建的搜尋引擎無疑是效率最高的,但近些年,ElasticSearch的使用也很廣泛。
標繪:最終結果的座標展示,這個環節會涉及一些空間插值與聚類的計算,當然為了插值合理,最好要有路網資料。
五、總結:
地理編碼是一個多技術、融合性工程應用,涉及到的技術包括GIS、NLP、搜尋等,而這些技術,也是多學科交叉的領域,目前ToC的地理編碼服務已經非常成熟了,各大圖商都提供該服務。ToB領域,企業為管理使用者地址,會建立地理編碼服務。ToG領域,政府會用在人口普查、犯罪預防、流行病調查等方向。
因地址多樣性和基礎資料準確性、時效性的影響,地理編碼服務的準確率是有瓶頸的,靠技術很難突破,要突破,恐怕只能靠生態模式的改變。
再看產品收益,ToC的產品很難獲得盈利,ToB主要以企業自用為主,且很難打破行業壁壘,實現外部盈利。
總之,地理編碼是一個已達到技術瓶頸、且市場空間有限的領域。
參考資料:
1.什麼是地理編碼—BY ARCGIS
https://desktop.arcgis.com/zh-cn/arcmap/10.3/guide-books/geocoding/what-is-geocoding.htm
2.地理資訊系統導論—BY 張康聰
3.地理編碼系統設計與實現
http://sourcedb.igsnrr.cas.cn/zw/lw/201003/P020100304321939960203.pdf
4.自然語言處理的形式模型—BY 馮志偉(教育部語言文字應用研究所研究員),2010年,中國科學技術大學出版社
https://book.douban.com/subject/4284581/
5. 中文文字自動分詞和標註—BY 劉開瑛,商務印書館,2000年
https://book.douban.com/subject/1099516/