讀論文:Detecting Vehicle Illegal Parking Events using Sharing Bikes’ Trajectories(未完成)
KDD 2018 鄭宇組的論文
首先說了這個工作很有意義,並且有資料可以做這個事情,然後定義問題分析難點最後講述自己的解決方案,並且已部署上線。其中預處理部分非常值得學習,違章檢測是基於分佈的思想也值得借鑑。
OUTLINE
-
軌跡資料預處理
-
違章停車檢測
軌跡資料預處理(三個部分)
-
Trajectory Data Cleaning
- which removes the GPS outliers in a trajectory based on the speed and sampling rates;
- 即通過不正常的速度和停留點檢測清洗 outliers
-
Trajectory Map-Matching
-
Adaptive Map-Matching.
作者採用 interactive-voting based map matching algorithm[37] 的方法(需要看看原文),但不同有
- 移除了高階的路(就是自行車不能走的路,比如高速,高架等)
- 省略方向資訊,自行車存在逆行的情況
- 每個路段的限速不用於調整自行車的速度
-
Geometric-based Refinement.
- 在上一步Map-Matching中,存在兩個問題
- distance error,由於路網不夠詳細(存在很多小路)的原因,導致對映不完整(脫離路網),如圖7b左側
- directional error,由於行程短或者軌跡資料清理導致的原因,導致方向錯誤。如圖7b右側,紅色應該對映到藍色路上,因為它們方向一致。
- 解決方法
- 針對問題1,我沒看懂,可能是先計運算元軌跡平均移動距離,大於20米就過濾掉這條資料?
- 針對問題2,計算整個軌跡和道路的方向之間的偏差角(如圖8所示),大於60°則移除。
- 在上一步Map-Matching中,存在兩個問題
-
Reverse Trajectory Removal ,移除反向軌跡
-
-
Index Construction
- 因為後面的任務中,大多數是基於路段ID和時間範圍來做的,所以作者對以上處理過後的資料,按照路段ID進行倒排索引,再以時間戳進行二級索引建立。
我的收穫
- 資料預處理是資料探勘中重中之重,我們一定要根據資料的特性及目標任務進行處理,過程中要多思考,最好要去了解相關行業背景
未完
。。。。。。
相關推薦
讀論文:Detecting Vehicle Illegal Parking Events using Sharing Bikes’ Trajectories(未完成)
KDD 2018 鄭宇組的論文 首先說了這個工作很有意義,並且有資料可以做這個事情,然後定義問題分析難點最後講述自己的解決方案,並且已部署上線。其中預處理部分非常值得學習,違章檢測是基於分佈的思想也值得借鑑。 OUTLINE 軌跡資料預處理 違章停車
讀論文:Object Detection
Object Detection Rich feature hierarchies for accurate object detection and semantic segmentation CVPR’14 問題 之前最好的辦法很複雜 滑動
讀論文:deep Learning 深度學習合集
Deep Learning Very Deep Convolutional Networks for Large-Scale Image Recognition ICLR 2015 問題 網路模型不夠深 方法** 用3個 3x3的核 替換
無聊讀論文:視覺注意力模型RARE2012
Riche, N., Mancas, M., Duvinage, M., Mibulumukini, M., Gosselin, B., & Dutoit, T. (2013). RARE2012: A multi-scale rarity-based saliency detection with
讀西瓜書:6.1/6.2/6.3/6.4章 【未完成】
讀西瓜書:6.1/6.2/6.3/6.4章 6.1 間隔與支援向量 如果訓練樣本是線性可分的,那麼線性分類器就是在樣本空間中尋找一個超平面,將不同類別的樣本分開 但能將訓練樣本分開的超平面可能有很多,哪一個更好? 上圖中判別函式的訓練誤差都為0,但
論文閱讀筆記四十一:Very Deep Convolutional Networks For Large-Scale Image Recongnition(VGG ICLR2015)
結合 等價 選擇 mac 不同的 works info 內存 enc 論文原址:https://arxiv.org/abs/1409.1556 代碼原址:https://github.com/machrisaa/tensorflow-vgg 摘要 本
[Golang] 從零開始寫Socket Server(3): 對長、短連接的處理策略(模擬心跳)
microsoft ted 每次 range 點擊 關閉 ade 而在 href 通過前兩章,我們成功是寫出了一套湊合能用的Server和Client,並在二者之間實現了通過協議交流。這麽一來,一個簡易的socket通訊框架已經初具雛形了,那麽我們接下來做的
聚類:層次聚類、基於劃分的聚類(k-means)、基於密度的聚類、基於模型的聚類
oca 基本思想 初始化 methods 根據 範圍 下使用 對象 適用於 一、層次聚類 1、層次聚類的原理及分類 1)層次法(Hierarchicalmethods)先計算樣本之間的距離。每次將距離最近的點合並到同一個類。然後,再計算類與類之間的距離,將距離最近的類合
恐懼:中年程序員會害怕丟掉工作嗎?(很多評論)
創業 當我 改變 生成 技術 有時 變化 如果 有意 剛入行的時候,聽說程序員是吃青春飯的,只能幹到 30 歲。過了幾年,這個說法變成了 35 歲。如今,我都已經過了 35 歲了,這個說法現在是 40 歲。 有時和曾經一同畢業的同學會聊起這個話題,唏噓感慨,人到中年,想到
dvajs的一個大坑:使用BrowserHistory路由模式後仍然會出現hash(哈希)
targe http 手動 修改 發現 一個 ash 就會 browser 在dvajs中,如果你在初始化dva對象的時候不作任何處理,那麽你就會發現即使你是用了BrowserRouter來作為Router url中也是會出現#/。解決方法也很簡單: 使用前先手動安裝下
case5:繼承和派生的作用舉例_2.0版本(使用繼承)
格局上一次的討論:將繼承和派生後的寫如下: (1)main.cpp /************************************************************************ * Object-Oriented Programming C++
搜尋:線性搜尋、二分搜尋、雜湊搜尋(雜湊還未完成)
題目: 請編寫一個程式,輸入包含n個整數的數列A以及包含q個不重複整數數列T,請輸出A和T的交集元素的個數 一、線性搜尋 #include "pch.h" #include <stdio.h> int search(int A[], int n, int key) { i
文獻:基於地基增強系統的格網虛擬觀測值(未完)
2018-11-04 1. 2.可以參考的思路 3.存在問題:需要對使用者端軟體進行升級 4. 5.河南:雙差對流層延遲 在固定基線整週模糊度之後,採用雙頻消電離層組合可以準確計算出基線上的雙差對流層延遲。 相同基線長度的 GPS 和 BDS 的雙差對流層延遲影
問題:git處理中文名稱時候顯示為編碼形式(已解決)
問題描述: Untracked files: (use "git add <file>..." to include in what will be committed) static/README.md "\350\207\252\346\2
Java併發程式設計(8):多執行緒環境中安全使用集合API(含程式碼)
Java併發程式設計(8):多執行緒環境中安全使用集合API(含程式碼)JAVA大資料中高階架構 2018-11-09 14:44:47在集合API中,最初設計的Vector和Hashtable是多執行緒安全的。例如:對於Vector來說,用來新增和刪除元素的方法是同步的。如果只有一個執行緒與Vector的例
研究生畢業前一日三題:第一題,立方體上面存留雨水問題(Water Problem)
題目:給定一個數組,每個位置的數值代表一個高度。那麼整個陣列可以看作為一個直方圖。如果把這個直方圖當做容器的話,求這個容器能裝多少水? 例如:3,1,2,4 代表第一個位置高度為3,第二個位置高度為1,第三個位置高度為2,第四個位置高度為4. 3,1,2,4這個陣列代表的容器可以裝3格子
zcmu——1128: 第四章:誰先愛了,誰就輸了(細節題)
題目連結: 引號裡面可能包含“//” #include<iostream> #include<algorithm> #include<vector> #include<cmath> #include<cstring> #includ
作業系統(程序間共享儲存區的通訊):建立一個共享儲存區,大小4個位元組(int大小)。建立一個子程序,然後子父程序獨自執行。父程序寫入一個數字到共享儲存區,子程序在共享儲存區把該數字讀出
題目:建立一個共享儲存區,大小4個位元組(int大小)。建立一個子程序,然後子父程序獨自執行。父程序寫入一個數字到共享儲存區,子程序在共享儲存區把該數字讀出。 程式碼量很少,純屬應付作業 筆者在telnet上寫這些程式碼,由於知識技術及英語太菜,不知道怎樣在telnet上覆製出來這些程式碼,
百度面試總結:spark比MapReduce快的原因是什麼?(比較完整)
1、spark是基於記憶體進行資料處理的,MapReduce是基於磁碟進行資料處理的 MapReduce的設設計:中間結果儲存在檔案中,提高了可靠性,減少了記憶體佔用。但是犧牲了效能。 Spark的設計:資料在記憶體中進行交換,要快一些,但是記憶體這個東西,可靠性不如磁碟。所以效能方面比MapR
演算法7-15:迪傑斯特拉最短路徑演算法(c語言)
題目描述 在帶權有向圖G中,給定一個源點v,求從v到G中的其餘各頂點的最短路徑問題,叫做單源點的最短路徑問題。 在常用的單源點最短路徑演算法中,迪傑斯特拉演算法是最為常用的一種,是一種按照路徑長度遞增的次序產生最短路徑的演算法。 可將迪傑斯特拉演算法描述如下: 在本題中,讀入