python資料探勘：能不能找出吃貨最佳住宿點？

阿新 • • 發佈：2022-05-04

這次我爬出了哈爾濱市TOP285家好吃的店，包括燒烤的TOP，餃子的TOP，醬骨的TOP等等等等，在地圖上顯示，規劃熱點，再用聚類演算法計算下能不能找出吃貨最佳的住宿點，能夠距離吃的各個地方行程最近，吃貨們，準備好了嗎？

回覆公眾號"吃貨" 獲取更多原始碼。

目的

視覺化美食熱點，規劃各類美食聚集點，規劃行程。

準備食材

首先，我不對這次排行的可信度負責，我只是直接百度的top餐廳，裡面的水分大家自己掂量，甩鍋給哈爾濱美食最新榜出爐，史上最強300家美食滿足你各種挑剔！

http://www.360doc.com/content/16/0504/20/1097634_556278017.shtml

大概是這樣的

這次我用靜態爬發現被攔截了，mdzz，然後我就直接上selenium+Firefox，至於為什麼不上PhantomJS，我這裡說下，有時候PhantomJS爬的內容沒有Firefox全，或許有人跳出來說，你個sb，他兩是一樣的啊，而且PhantomJS更加省記憶體，呵呵，你自己去試試就知道了，我不止一次在爬動態的時候PhantomJS遇到問題而Firefox沒有問題的，連xpath都一樣，就換了個無頭，就不行了，我也有看到Stack Overflow上遇到同樣問題的，可能是我手法不夠吧，或許是我真的理解錯了，到時候我自來認錯。

清洗食材

剛爬下來的資料肯定不能直接用的，又是空格又是序列的，處理的方法很多，可以用正則，sub換空格，然後splite切割，組成列表再取，洗的方法很多，具體看資料是怎麼樣的，洗完後放進冰箱，啊不是，放進txt或者儲存為csv，xls都可以的呢~

注意點

有些資料，大概三四個，我清洗完之後發現有錯誤，比如洗出個空格，額。。。。我嘗試用try，except檢測錯誤，檢視原始資料，發現源連結中的js寫的不標準造成的，哎，手動改好，再清洗一遍，不要刻意為了這一兩個資料重寫清洗演算法，不就是sb了想著全自動一步成型，我咋不上天啊。。。

食材醃製-定位經緯度

通過地址轉換得到相應的經緯度，得到的資料格式有兩種如下所示

左一為地址+經緯度，逗號隔開，右一為經緯度，空格隔開，為什麼要生成兩個格式？因為我喜歡啊，哈哈哈

食材儲存–轉化CSV

直接右鍵另存為，然後儲存格式為.csv即可，有人說，為什麼不用csv的寫入方法啊，因為我懶啊，我懶得重新構造字典了，這裡甩上一段可以寫入中文的csv格式。

弄完之後大概是這樣的就可以下鍋了

烹飪食材–聚類處理

我們要用的資料集是空格隔開的，至於為什麼空格隔開的經緯度資料，因為我以前寫好的bikmeans裡面輸入項就是就是醬紫的，空格用正則比較好處理，用個list裝下Obj.[0],[1]立馬出來值了,至於Kmeans是啥，怎麼用，請看

【Python】爬蟲+ K-means 聚類分析電影海報主色

，這裡處理完後，我隨機設定了5，10，15，20四種聚類點，觀察各種效果。程式碼我在附錄放上，參考的可以直接取附錄找。聚類處理之後依舊儲存如上一步的一張圖形式，之後就可以開始可視化了！

佳餚擺上桌–資料視覺化

枯燥的資料讓人很難受，根本分析不出什麼來，而且看著枯燥，這裡我用了地圖無憂這個網頁版，雖然只有七天免費期，哎，辛辛苦苦畫的圖以後不能用了，(如果有誰知道還有類似的批量經緯度點轉化圖的軟體請告訴我一下)真蛋疼.

具體的操作，直接看教程很簡單的，我就是建圖層，然後圖層上批量放入經緯度，它就能轉化成地圖上的點，很好玩，看個動圖，這是我把點放上的效果。

享用佳餚–分析資料

先看下各種分佈把，這個是熱力圖

這個是點陣圖

把聚類的點加上，選了聚類點為15個

有些點不錯，但是有些點太扯了把，貌似不是kmeans的宗旨的，他是為了找距離各熱點最近的平衡點啊，是聚類點啊，但是有幾個點明顯不是了，檢視原因。

問題所在：可以看出來，上面的點分佈原因因為這些離散點的存在，我看了最遠的點，亞布力滑雪場，的確有家店不錯，額，可是我不考慮，我要是在市區玩，我還想去那麼遠的地方？明顯不合理，所以我需要的是真的熱點區域，也就是第二幅的那樣，所以又要重新洗一下資料了，把離散點也就是噪聲去掉！

燒糊了–重新來

雖然整體上來說，這個演算法沒錯，但是如果對具體問題，比如說，我就想知道哈爾濱市內有什麼比較好吃的，我懶得動，不會跑到江北或者更遠的地方去吃，而且交通不方便，所以就要對經緯度集合進行切割，我找了合適返回，規定為經度範圍126.56571~126.706807，緯度返回45.706283~45.802307，主程式中新增LockHotArea子函式，進行再一次過濾即可。

之後步驟重回前面的，最後的效果就是這樣的