教你用300萬共享單車出行資料，預測騎行目的地 !（附原始碼）

阿新 • • 發佈：2019-01-03

摩拜單車在北京的單車投放量已經超過40萬。使用者可以直接在人行道上找到停放的單車，用手機解鎖，然後騎到目的地後再把單車停好並鎖上。因此，為了更好地調配和管理這40萬輛單車，需要準確地預測每個使用者的騎行目的地。

標註資料中包含300萬條出行記錄資料，覆蓋超過30萬用戶和40萬摩拜單車。資料包括騎行起始時間和地點、車輛ID、車輛型別和使用者ID等資訊。參賽選手需要預測騎行目的地的區塊位置。

以下程式碼是knn演算法，結合了leak。這裡主要有兩點創新：

給算出來的距離值除以頻度的1.1次方，這個加了很多分
對於新使用者又使用了一個新的knn，其他演算法在處理新使用者的時候也可以參考下，knn演算法產生的特徵可以融合進xgb再訓練。

原始碼地址：後臺回覆摩拜即可獲取

import csv
import math
import datetime
#user_habit_dict:每個使用者的乘車記錄:起點,終點,距離
user_habit_dict={}
#start_end_dict:每條記錄的起點,終點對
start_end_dict={}
#end_start_dict:每條記錄的起點,終點對
end_start_dict={}
#user_habit_dict_test:test中每個使用者的記錄
user_habit_dict_test={}
#bike_dict:bike中的記錄
bike_dict={}

弧度轉換

def rad(tude):
    return (math.pi/180.0)*tude

geohash模組提取的

__base32 = '0123456789bcdefghjkmnpqrstuvwxyz'
__decodemap = { }
for i in range(len(__base32)):
    __decodemap[__base32[i]] = i
del i

返回精確的經緯度和誤差

def decode_exactly(geohash):
    lat_interval, lon_interval = (-90.0, 90.0), (-180.0, 180.0)
    lat_err, lon_err 
 = 90.0, 180.0
    is_even = True
    for c in geohash:
        cd = __decodemap[c]
        for mask in [16, 8, 4, 2, 1]:
            if is_even: # adds longitude info
                lon_err /= 2
                if cd & mask:
                    lon_interval = ((lon_interval[0]+lon_interval[1])/2, lon_interval[1])
                else:
                    lon_interval = (lon_interval[0], (lon_interval[0]+lon_interval[1])/2)
            else:      # adds latitude info
                lat_err /= 2
                if cd & mask:
                    lat_interval = ((lat_interval[0]+lat_interval[1])/2, lat_interval[1])
                else:
                    lat_interval = (lat_interval[0], (lat_interval[0]+lat_interval[1])/2)
            is_even = not is_even
    lat = (lat_interval[0] + lat_interval[1]) / 2
    lon = (lon_interval[0] + lon_interval[1]) / 2
    return lat, lon, lat_err, lon_err

返回歐式距離（其實還可以返回南北方向距離,東西方向距離,曼哈頓距離,方向(-0.5:0.5)，但是刪了，沒啥吊用）

def produceLocationInfo(latitude1, longitude1,latitude2, longitude2):
    radLat1 = rad(latitude1)
    radLat2 = rad(latitude2)
    a = radLat1-radLat2
    b = rad(longitude1)-rad(longitude2)
    R = 6378137
    d = R2math.asin(math.sqrt(math.pow(math.sin(a/2),2)+math.cos(radLat1)math.cos(radLat2)math.pow(math.sin(b/2),2)))
    detallat = abs(a)*R
    detalLon = math.sqrt(d2-detallat2)
    if b==0:
        direction = 1/2 if a*b>0 else -1/2
    else:
        direction = math.atan(detallat/detalLon(1 if ab>0 else -1))/math.pi
    return round(d)

返回歐式距離

def loc_2_dis(hotStartLocation,hotEndLocation):
    StartLocation = decode_exactly(hotStartLocation[:7])
    EndLocation = decode_exactly(hotEndLocation[:7])
    latitude1 = StartLocation[0]
    longitude1 = StartLocation[1]
    latitude2 = EndLocation[0]
    longitude2 = EndLocation[1]
    return produceLocationInfo(latitude1, longitude1, latitude2, longitude2)

返回是否放假,距0點的分鐘數,距5月1的天數

def produceTimeInfo(TimeData):
    TimeData = TimeData.split(' ')
    baseData = datetime.datetime(2017, 5, 1, 0, 0, 1)
    mydata = TimeData[0].split('-')
    mytime = TimeData[1].split(':')
    mydata[0] = int(mydata[0])
    mydata[1] = int(mydata[1])
    mydata[2] = int(mydata[2])
    mytime[0] = int(mytime[0])
    mytime[1] = int(mytime[1])
    mytime[2] = int(mytime[2].split('.')[0])
    dt = datetime.datetime(mydata[0], mydata[1], mydata[2], mytime[0], mytime[1], mytime[2])
    minute = mytime[1]+mytime[0]*60
    # return int((dt-baseData).__str__().split(' ')[0]),miao,dt.weekday(),round(miao/900)
    isHoliday = 0
    if dt.weekday()in [5,6] or int((dt-baseData).__str__().split(' ')[0]) in [29,28]:
        isHoliday=1
    return isHoliday,minute,int((dt-baseData).__str__().split(' ')[0])

模型之間的融合，粗暴的取了最值，這個可以再提升

def add2result(result1,result2):
    for each in result2:
        if each in result1:
            result1[each] = min(result1[each] ,result2[each] )
        else:
            result1[each] = result2[each]
    return result1

其實就是knn演算法，結合了leak。一般的knn+leak應該是0.26分。這裡主要有兩點創新。一是給算出來的距離值除以頻度的1.1次方，這個加了很多分，二是對於新使用者又使用了一個新的knn，其他演算法在處理新使用者的時候也可以參考下。
knn演算法產生的特徵可以融合進xgb再訓練，已實現，但記憶體不夠棄賽

def training(trainfile = 'train.csv',testfile = 'test.csv',subfile = 'submission.csv' ,
             leak1 = 0.01 ,leak2 = 4 ,leak3 = 20,              #leak
             qidianquan = 10,shijianquan = 10,jiejiaquan = 2,bikequan = 0.5,

都是拼音，字面意思，越大則這個特徵比重越大，zhishu = 1.1 對結果影響很大

tr = csv.DictReader(open(trainfile))

利用train.csv建立user_habit_dict和start_end_dict

for rec in tr:
        user = rec['userid']
        start = rec['geohashed_start_loc']
        end = rec['geohashed_end_loc']
        rec['isHoliday'] , rec['minute'] , rec['data'] = produceTimeInfo(rec['starttime'])
        if user in user_habit_dict:
            user_habit_dict[user].append(rec)
        else:
            user_habit_dict[user] = [rec]

        if start in start_end_dict:
            start_end_dict[start].append(rec)
        else:
            start_end_dict[start] = [rec]

        if end in end_start_dict:
            end_start_dict[end].append(rec)
        else:
            end_start_dict[end] = [rec]

    print('train done!')

te是測試檔案

te = csv.DictReader(open(testfile))
    for rec in te:
        user = rec['userid']
        bike = rec['bikeid']
        rec['isHoliday'], rec['minute'], rec['data'] = produceTimeInfo(rec['starttime'])
        if user in user_habit_dict_test:
            user_habit_dict_test[user].append(rec)
        else:
            user_habit_dict_test[user] = [rec]

        if bike in bike_dict:
            bike_dict[bike].append(rec)
        else:
            bike_dict[bike] = [rec]

    print("test done!")

sub是提交檔案

sub = open(subfile, 'w')
    iter1 = 0
    # AllhotLocSort = sorted(end_start_dict.items(), key=lambda d: len(d[1]), reverse=True)
    te1 = csv.DictReader(open(testfile))
    for rec in te1:
        iter1 += 1
        if iter1  % 10000== 0:
            print(iter1/20000,'%',sep='')
        # testTime = timeSlipt(rec['minute'])
        rec['isHoliday'], rec['minute'], rec['data'] = produceTimeInfo(rec['starttime'])
        user1 = rec['userid']
        bikeid1 = rec['bikeid']
        order1 = rec['orderid']
        start1 = rec['geohashed_start_loc']
        hour1 = rec['minute']/60
        minute1 = rec['minute']
        isHoliday1 = rec['isHoliday']
        biketype1 = rec['biketype']
        data1 = rec['data']
        result = {}
        hotLoc = {}

knn

            if user1 in user_habit_dict:
            for eachAct in user_habit_dict[user1]:

                start2 = eachAct['geohashed_start_loc']
                end2 = eachAct['geohashed_end_loc']
                hour2 = eachAct['minute']/60
                isHoliday2 = eachAct['isHoliday']
                biketype2 = eachAct['biketype']
                data2 = rec['data']

                dis = loc_2_dis(start1, start2)
                dis = min(dis, 1000)    #1000
                qidian= qidianquan  (dis / 100) * 2

                detalaTime = abs(hour2 - hour1) if abs(hour2 - hour1) < 12 else 24 - abs(hour2 - hour1)
                shijian= shijianquan  (detalaTime / 12  10) ** 2

                dayType = isHoliday2 - isHoliday1
                jiejia= jiejiaquan  (dayType  10) ** 2         #?

                biType = int(biketype2) - int(biketype1)
                bike= bikequan  (biType  10) ** 2  #0.5

利用終點預測

# return 歐式距離,南北方向距離,東西方向距離,曼哈頓距離,方向(-0.5:0.5)
                # test2train_dis = loc_2_dis(start1,end2)
                # train2train_dis = loc_2_dis(start2,end2)
                # dis_detal = min(abs(test2train_dis[3]-train2train_dis[3]),1000)  #1000
                # direction_detal = abs(test2train_dis[4]-train2train_dis[4])
                # direction_detal = direction_detal if direction_detal<0.5 else 1-direction_detal
                # jvli = 4  (dis_detal/100)*2
                # fangxiang = 1  (direction_detal/0.510)**2

                score = qidian+shijian+jiejia+bike              #jvli+fangxiang

                # print(qidian,shijian,jiejia,bike,jvli,
fangxiang)
                if end2 in hotLoc:
                    hotLoc[end2] += 1
                else:
                    hotLoc[end2] = 1

                if end2 in result:
                    if result[end2] > score:
                        result[end2] = score
                else:
                    result[end2] = score

            for each in hotLoc:
                result[each] = result[each] / (hotLoc[each]**zhishu)  #0

            for each in result:
                result[each] = math.sqrt(result[each])

利用test中的使用者歷史記錄

if user1 in user_habit_dict_test:
            resulttest = {}
            user_habit_dict_test[user1].sort(key = lambda x:x['data']6024+x['minute'])
            xuhao = 0
            for i in range(len(user_habit_dict_test[user1])-1):
                if user_habit_dict_test[user1][i]['orderid'] == order1:
                    xuhao = i
                    resulttest[user_habit_dict_test[user1][i+1]['geohashed_start_loc']] = 21
            for i in range(len(user_habit_dict_test[user1])):
                if i not in [xuhao,xuhao+1]:
                    resulttest[user_habit_dict_test[user1][i]['geohashed_start_loc']] = 21+abs(i-xuhao)
                result = add2result(result, resulttest)

leak

     if bikeid1 in bike_dict:
            resultleak = {}
            bike_dict[bikeid1].sort(key = lambda x:x['data']6024+x['minute'])
            for i in range(len(bike_dict[bikeid1])-1):
                if bike_dict[bikeid1][i]['orderid'] == order1:
                    zhong = bike_dict[bikeid1][i+1]['data']6024+bike_dict[bikeid1][i+1]['minute']
                    qi = bike_dict[bikeid1][i]['data']6024+bike_dict[bikeid1][i]['minute']
                    detal = zhong-qi
                    if detal<30:
                        resultleak[bike_dict[bikeid1][i + 1]['geohashed_start_loc']] = leak1

                    elif detal<2*60:
                        resultleak[bike_dict[bikeid1][i + 1]['geohashed_start_loc']] = leak2  #4

                    else:
                        resultleak[bike_dict[bikeid1][i + 1]['geohashed_start_loc']] = leak3   #20
            result = add2result(result,resultleak)

起點終點對的knn

if start1 in start_end_dict:
            endDict = {}
            resultqizhong={}
            for eachAct in start_end_dict[start1]:
                score = 0
                score += (24-abs(hour1-eachAct['minute']/60))/24
                score += (1-abs(isHoliday1-eachAct['isHoliday']))*0.4
                if eachAct['geohashed_end_loc'] in endDict:
                    endDict[eachAct['geohashed_end_loc']] += score
                else:
                    endDict[eachAct['geohashed_end_loc']] = score
            hotLoc = sorted(endDict.items(),key = lambda x:x[1],reverse=True)
            if len(hotLoc)>=1:
                resultqizhong[hotLoc[0][0]] = 1000
            if len(hotLoc) >= 2:
                resultqizhong[hotLoc[1][0]] = 1001
            if len(hotLoc) >= 3:
                resultqizhong[hotLoc[2][0]] = 1002
            result = add2result(result, resultqizhong)

剔除不合理結果

for each in result:
            distance = loc_2_dis(each,start1)
            if distance > 2500:
                result[each] = 1999

        if start1 in result:
            result[start1] = min(2000, result[start1])
        else:
            result[start1]=2000
        result['fuck2'] = 2001
        result['fuck3'] = 2002

        bestResult = sorted(result.items(), key=lambda d: d[1])
        string = rec['orderid']
        num = 0
        for item in bestResult:
            string += ',' + item[0]
            # string += ':' + str(item[1]) + '\t'
            num += 1
            if num == 3:
                break
        sub.write(string + '\n')

    sub.close()
    print('ok')

if name =="__main__":
    training('train.csv', 'test.csv', 'submission.csv' )

點選有驚喜

教你用300萬共享單車出行資料，預測騎行目的地 !（附原始碼）

點選有驚喜摩拜單車在北京的單車投放量已經超過40萬。使用者可以直接在人行道上找到停放的單車，用手機解鎖，然後騎到目的地後再把單車停好並鎖上。因此，為了更好地調配和管理這40萬輛單車，需要準確地預測每個使用者的騎行目的地。標註資料中包含300萬條出行記錄資料，

教你用python爬取喜馬拉雅FM音訊，乾貨分享~

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，文章暫時未改，因為思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束... 前言之前寫過爬取圖片的一篇文章，這回來看看如

手把手教你用nginx開發自己的伺服器------利用nginx開發一個helloWorld程式（三）

之前兩篇文章已經說明了過程，今天稍微把過程說細一點，畢竟知其然還要知其所以然嘛，整個呼叫的邏輯是怎完整的呢？其實上兩篇文章看似簡單的將nginx處理一個請求的過程說出來了，但實際過程一點也不簡單，一個連線處理的過程，主要是複雜在準備階段（也就是各種回撥函式的掛載，上下文的準備

手把手教你用nginx開發自己的伺服器------利用nginx開發一個helloWorld程式（一）

能開始學習nginx的你，肯定也擼了不少程式碼了，相信你學習程式碼都是從helloWorld開始的，那麼，今天我們就用nginx開發一個helloWorld，我們將要實現的功能就是當瀏覽器來訪問你的伺服器時，你的終端列印一個helloWorld。先別急著開始擼程式碼，先聊一聊

手把手教你用nginx開發自己的伺服器------利用nginx開發一個helloWorld程式（二）

現在我們正式開始編寫nginx的helloWorld功能，該從哪下手呢？別急，我們在上一篇文章中提到了事件驅動對吧。nginx是怎麼樣事件驅動的呢？我們來看看ngx_worker_process_cycle()這個函式的一部分for ( ;; ) { if

不能再詳細！！！手把手教你用Faster-RCNN訓練自己的資料集

一、環境安裝準備 python2.7以及相關的包cython, python-opencv, easydict 本文假設你已經按照上面的教程完成了安裝，並可以執行demo.py 並且可以訓練二、準備自己的資料集在實際的應用中，這個資料集肯定是自己專案裡面拍攝的。

手把手教你用java實現syslog訊息的收發，學不會你打我嘍！

>大家好，我是道哥，專注於後端java開發，喜歡寫作和分享。如果覺得文章對你有用，那就點個讚唄！如果能轉發那是對道哥最大的支援！ ## syslog的定義 >見文知義，syslog，從英文名字上可以看出是指系統日誌。 >以下內容摘自百度百科： Syslog常被稱為系統日誌或系統記錄，是一種

用Python打造一個AI作家為你寫詩（附原始碼）

從短篇故事到長達5萬詞的小說，機器正以不可思議的方式“把玩”文字。網上已經湧現很多例子，越來越多

《手把手教你》系列練習篇之7-python+ selenium自動化測試 -壓軸篇（詳細教程）

1. 簡介　　“壓軸”原本是戲曲名詞，指一場摺子戲演出的倒數第二個劇目。在現代社會中有很多應用，比如“壓軸戲”，但壓軸也是人們知識的一個盲區。“壓軸”本意是指倒數第二個節目，而不是人們常說的倒數第一個，倒數第一個節目稱“壓臺

乾貨（附原始碼） | 爬取一萬條b站評論，分析9.7分的新番憑啥這麼火？

7月番《工作細胞》最終話在十一前放出。這部動漫在b站上評分高達9.7。除了口碑之外，熱度也居高不下，更值得關注的是連很多平時不關注動漫的小夥伴也加入了追番大軍。這次我們的目標是爬取b站上的所有短評進行分析，用資料說明為什麼這部動漫會如此受歡迎。 01 工作細胞《工作細胞》

碉堡了！程式設計師用深度學習寫了個老闆探測器（附原始碼）

筆者介紹：姜雪偉，IT公司技術合夥人，IT高階講師，CSDN社群專家，特邀編輯，暢銷書作者，國家專利發明人;已出版書籍：《手把手教你架構3D遊戲引擎》電子工業出版社和《實戰核心技術詳解》電子工業出版社等。當今，人工智慧和深度學習得到了快速發展，由於大資料的存在，它的發展也變的

用DirectX實現魔方（三）視角變換及縮放（附原始碼）

在本系列第一篇介紹過滑鼠按鍵的功能，如下。左鍵拖拽 - 旋轉魔方右鍵拖拽 - 變換視角滾輪 - 縮放魔方今天研究一下如何實現後面兩個功能，用到的技術主要是Arcball，Arcball是實現Model-View-Camera的重要技術，這裡的旋轉基於Quaternion（四元數）來實現

小姐姐帶你一起學：如何用Python實現7種機器學習演算法（附程式碼）

編譯 | 林椿眄出品 | AI科技大本營（公眾號ID：rgznai100）【AI科技大本營導讀】

Python：遊戲：300行程式碼實現俄羅斯方塊 Python：遊戲：貪吃蛇 Python：遊戲：掃雷（附原始碼）

本文程式碼基於 python3.6 和 pygame1.9.4。俄羅斯方塊是兒時最經典的遊戲之一，剛開始接觸 pygame 的時候就想寫一個俄羅斯方塊。但是想到旋轉，停靠，消除等操作，感覺好像很難啊，等真正寫完了發現，一共也就 300 行程式碼，並沒有什麼難的。先來看一個遊戲截圖，有點醜，好

一個簡單的用ASP.NET/C#開發的元件化Web應用程式（附原始碼）

==============================================================================1）建立一個類來處理使用者登入，將該類編譯成一個裝配件（assembly），併發布到站點的bin目錄下。========

7本書帶你掌握資料科學中的數學基礎（附下載）

用Python自動重新整理搶12306火車票（附原始碼）

專欄❈作者：marvin，網際網路從業者，現居上海張江❈一年一度的春運又來了，今年我自己寫了個

用 Java 實現人臉識別功能（附原始碼）

![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20200306184837536.png) > 整理了一些Java方面的架構、面試資料（微服務、叢集、分散式、中介軟體等），有需要的小夥伴可以關注公眾號【程式設計師內點事】，無套路自行領取更多優選 - [一口氣說

手把手教你用jumpserver搭建堡壘機！

ict 添加用戶以及這一用戶名端口 cal cti tom 首先，jumpserver是什麽呢？ Jumpserver 是一款由Python編寫開源的跳板機(堡壘機)系統，實現了跳板機應有的功能。基於ssh協議來管理，客戶端無需安裝agent。特點：完全開源，G

教你用Fiddler在電腦上抓手機上的包

手機抓包 fiddler抓手機包 fiddler抓包代理抓包電腦上抓包很方便，並且很多種抓包工具。但是我們如果想要抓手機上的包並且分析它，好像就比較麻煩了。但是我們用Fiddler可以解決這個問題。首先我們在電腦上打開Fiddler並且設置，進入Tools---Fiddler Opti

教你用300萬共享單車出行資料，預測騎行目的地 !（附原始碼）

相關推薦