1. 程式人生 > 其它 >JUST技術:利用遷移學習生成新城市的軌跡

JUST技術:利用遷移學習生成新城市的軌跡

市民的出行軌跡資料無論是對於城市管理、規劃,還是商業活動,都是重要的參考資訊。然而,獲取一個城市的人群軌跡資料卻非常困難。

在今年4月份召開的國際頂級網際網路會議WWW 2020(CCF-A類)上,京東城市報告了被會議收錄的論文《What is the Human Mobility in a New City: Transfer Mobility KnowledgeAcross Cities》,研究瞭如何通過遷移學習,根據一個城市的POI、路網、交通訊息來推測它的人群軌跡分佈。

1. 背景

城市人群出行所產生的軌跡資訊是公共交通規劃、城市基礎建設、商業選址智慧系統的重要參考資料。但由於隱私、商業保密和感測器部署預算等原因,想要得到城市大量的軌跡是非常困難的,尤其是對於一個新的、缺乏資料採集的城市區域。

圖1

然而我們知道,一個城市的出行軌跡分佈,與該城市的POI、公交、路網資訊存在關聯。那麼,是否可以通過已有軌跡的城市區域,去學習這種關聯,並將這種關聯應用在目標城市上呢?這正是該工作所作的研究。正如圖1示例,通過對已有軌跡的城市如北京、合肥進行出行知識建模,通過雄安的路網、POI、公交資訊,得到雄安的軌跡資料分佈。

圖2

作者將出行的本質歸為三個階段(圖2):1)產生出行意圖、選擇目的地和路線選擇。順著這個思路,該論文將新城市的軌跡生成問題拆分成三步:1)出行意圖遷移;2)起始點-終點(OD)生成;3)路線生成。

2. 出行意圖生成

由於不同城市的建設程度、規劃風格存在差異,從源城市中顯式學習到的出行規律,無法很好應用於目標城市。一個典型例子是,北京有大量從家到地鐵站的短途出行需求,而小城市沒有地鐵站,就不存在家-地鐵的出行模式。這就是各城市在顯式特徵空間中的分佈不一致現象(圖3左)。

圖3

雖然顯式出行模式不能直接應用在新的城市,但作者嘗試找到一個隱空間,在這個空間裡,各個城市的資料分佈相近,通過源城市學習得到這個一致分佈,並將其作為目標城市的分佈(圖3右)——這就是遷移學習領域的域泛化(Domain Generalization)思想。

圖4

圖4展示了出行意圖生成模組的具體過程。

首先,根據兩個源城市軌跡的起始點終點,提取顯式的特徵——空間資訊特徵(Spatial Context Features)。提取包括了POI分佈、起終點在路網中的拓撲特徵、與公交站的距離等資訊(圖4b)。

接下來,基於域泛化思想,從不同源城市OD點的空間資訊特徵中學習泛化函式G,最小化G函式對映後源城市之間的分佈最大平均差異。如圖4c所示,通過學得的G對映函式,在G目標空間——出行意圖空間(MobilityIntention Space)中,不同源城市的分佈相近。

最後,對出行意圖空間中的資料進行建模,對出行意圖分佈建立生成模型(圖4d)。根據作者在早期探查中的試驗,從源城市得到的出行意圖分佈,與目標城市的出行意圖分佈也很接近。因此,該工作將源城市的出行意圖分佈直接作為目標城市的出行意圖分佈。

3. 目標城市的起終點生成

通過上一步,我們得到了出行意圖空間的生成模型,產生目標城市的出行意圖資料。但出行意圖資料是隱空間資料,如何通過產生的出行意圖向量,來算得目標城市真實的起終點?

其實換一種問法就是,產生的出行意圖,最接近目標城市從哪裡到哪裡的意圖?這就轉成了是一個相似查詢問題。

圖5

圖5形象化了該模組的執行過程。分為三步:

首先是候選起終點獲取。我們先計算目標城市的所有可能出現的起終點對。根據相關研究,91.7%的短途出行集中在6公里以內。因此,該工作枚舉了目標城市所有6公里以內的起終點作為候選集。

然後,通過同樣的空間資訊特徵提取方法,和上一模組學得的域泛化函式G,得到遊戲購買地圖目標城市的起終點候選集對映的出行意圖資訊(圖5b)。

最後,如圖5c,利用上一模組生成出行意圖f,並查詢與其最相似的目標城市的候選起終點作為最終的生成結果。該工作對出行意圖空間中的目標城市的候選OD集建立KD-Tree索引,提高了相似性查詢的效率。

4. 路線生成

在解決了起終點生成之後,另一個問題是,如何生成起終點間的具體路徑?人們對路線的偏好,取決於路線本身的特徵:是否是大路、需要經過多少個拐彎、路程是否接近最近路程長度等等。基於此思想,該工作的路線生成分為兩步:

圖6

首先是候選路線集生成。作者發現,大部分軌跡都會選擇最短或者接近最短的路線來完成出行。為此,該工作對起終點計算了前m短非重疊路線,作為候選路線集。這裡注意該工作並非直接使用前m短路線作為候選路線,這是因為,前m短路線往往近乎重疊在一起(圖6a)。該工作通過wJCD指標計算兩條路徑的重疊指數,設定wJCD值θ作為重疊閾值,篩掉重疊度高的路徑。

那前m短非重疊路線是否覆蓋了大部分軌跡呢?圖6c統計了真實資料中,軌跡的覆蓋比例與m、非重疊閾值θ的關係。可以看出,當選擇非重疊閾值為0.7的前5短路徑時,已經可以覆蓋將近90%的真實軌跡,而不引入非重疊條件(θ=1)時只能覆蓋少量軌跡。這證實了非重疊約束的有效性。

圖7

其次是選擇各條候選路線集的概率計算。該工作通過類似於排序問題中的Listwise方式進行訓練,得到各條路線的概率。如圖7所示,對給定的起終點OD,先獲取三條候選路線,並進行路線特徵提取分別得到p1,p2,p3。評分函式Gu會給各條路線進行打分,並通過Softmax函式轉為最終的概率分佈,再以真實軌跡資料的分佈算得交叉熵損失,來訓練Gu評分函式。該工作中,Gu採用多層全連線網路實現。

5. 實驗

作者通過四個城市區域來驗證該方法的有效性:北京朝陽區、北京海淀區、成都、合肥,覆蓋了一、二、三線城市。資料包含了:軌跡資料、POI資料、路網資料、交通站點資料。下表列出了詳細的統計量資訊。

該工作的任務是在目標城市比較生成的軌跡與真實軌跡的分佈是否一致。對軌跡分佈,如何設定評判標準呢?作者認為,現有的工作會直接比較軌跡熱力圖的分佈一致性並不嚴謹,因為不同的軌跡集合可以產生同樣的軌跡熱力分佈。為此,作者採用兩步驗證來衡量結果的準確性,即起終點分佈和路線偏好分佈——這是因為如果起終點分佈準確,且基於起終點的路線偏好分佈準確,則最後的軌跡分佈也準確。起終點可以看作一對經緯度<lat1, lng1, lat2, lng2>,即四維歐氏空間。作者採用nMMD來衡量分佈相似性。而路線分佈的準確性,可以通過KL散度來計算。

圖8展示了起終點生成的準確度,其中MMD越小越好,並對比了不通過域泛化(No Adpt. )的方法。作者發現,通過域泛化,能明顯提高生成的效果;並且,源城市與目標城市的組合也對生成結果也有明顯影響。比如,圖8a中,朝陽成都-合肥的泛化效果非常好,而成都合肥-朝陽的效果較差。作者猜測這與城市的發展程度導致的出行多樣化程度有關。

圖8

圖9展示了路線偏好模型的實驗結果。並對比了前m短路線(mSP)和基於本城市資料的模型(Ours-T2T)這兩個基準線方法。作者發現,通過設定候選路線的重疊閾值,可以明顯提高準確度,這是因為前m短非重疊路線可以更好地覆蓋真實軌跡;另外,無論採用哪個城市的資料進行路線偏好訓練得到的模型,都與本城市資料訓練得到的模型結果相近(圖9d),說明各個城市的路線偏好具有相似性。由於m值的增加可以提高準確度,卻會使得前m短路線計算時間增加,作者還測試了m值的選取對準確度、時間效能的影響,發現在m=5時,可以取得準確度和時間效能的最好折中(圖9e)。

圖9

作者以雄安容城作為案例分析地點。在獲取了該區域的POI、路網、交通資料後,以北京成都為源城市訓練模型,並生成容城的軌跡資料。圖10展示了生成的軌跡與實地考察結果。分析當時,容城的主要居住娛樂區域集中於市中心(圖10de),周圍老住宅和工廠環繞(圖10a)。說明了考察地點人群流動情況與生成結果有較好的符合度。

圖10