大資料挑戰賽（大佬篇）

阿新 • • 發佈：2019-02-16

相對於我的雜亂無章，dalao們做比賽時將每個環節分檔案處理，這樣好看也好改，分別分為以下幾個步驟：

1.資料處理

2.特徵選擇

3.調參

4.模型融合

5.過擬合的處理

在做特徵提取時，對種可以提取得到的資料都提取了12種特徵，一共提取了大概一百多個特徵。。。可能這就是我和大佬的差距。

這是特徵提取的程式碼：

# -*- coding: utf-8 -*-
"""
Created on Sat Jul  8 10:45:13 2017

@author: Yang

E-mail: [email protected]
"""
#執行時間 30min
import pandas as pd
import numpy as np

#from sklearn.externals.joblib import Parallel, delayed
import os
import warnings
import json
warnings.filterwarnings("ignore")

#原始資料處理
def data_process(data):
	data['point'] = data['point'].apply(lambda x:[list(map(float,point.split(','))) for point in x.split(';')[:-1]])
	data['target'] = data['target'].apply(lambda x: list(map(float,x.split(","))))	
	#提取 x座標 y座標 t 目標點x座標  目標點y座標 
	df = pd.DataFrame()
	df['x'] = data['point'].apply(lambda x:np.array(x)[:,0])
	df['y'] = data['point'].apply(lambda x:np.array(x)[:,1])
	df['t'] = data['point'].apply(lambda x:np.array(x)[:,2])
	df['target_x'] = np.array(data['target'].tolist())[:,0]
	df['target_y'] = np.array(data['target'].tolist())[:,1]

	return df	
#差分處理
def data_diff(data,name_list):
	for name in name_list:
		data['diff_'+name] = data[name].apply(lambda x: pd.Series(x).diff().dropna().tolist())
		data['diff_'+name] = data['diff_'+name].apply(lambda x: [0] if x==[] else x)#!!注意 一個點的情況
	return data	
	
#獲取距離資料
def get_dist(data):
	dist_target = []
	dist = []
	dist_x_target = []
	dist_y_target = []

	#各點與目標點的距離
	for x,y,target_x,target_y in zip(data['x'],data['y'],data['target_x'],data['target_y']):
		dist_target.append(np.sqrt((x-target_x)**2 + (y-target_y)**2))	
	#兩點之間的距離
	for x,y in zip(data['diff_x'], data['diff_y']):
		dist.append(np.sqrt(np.array(x)**2+np.array(y)**2))	
	#各點x座標與目標點x座標的距離
	for x,target_x in zip(data['x'], data['target_x']):
		dist_x_target.append(np.sqrt((x-target_x)**2))
	#各點y座標與目標點y座標的距離
	for y,target_y in zip(data['y'], data['target_y']):
		dist_y_target.append(np.sqrt((y-target_y)**2))
		
	data['dist_target'] = dist_target
	data['dist'] = dist
	data['dist_x_target'] = dist_x_target
	data['dist_y_target'] = dist_y_target

	return data
	
#獲取速度資料
def get_v(data):
	v = []
	v_x = []
	v_y = []
	#獲取兩點之間的速度
	for dist, t in zip(data['dist'], data['diff_t']):
		v0 = dist/t
		v0 = list(map(lambda x: 0 if x==np.inf or x==-np.inf else x, v0))#!! 注意除數為0的情況
		v.append(v0)
	#獲取兩點x座標之間的速度
	for x, t in zip(data['diff_x'], data['diff_t']):
		v1 = np.array(x)/np.array(t)
		v1 = list(map(lambda x: 0 if x==np.inf or x==-np.inf or  np.isnan(x) else x, v1))
		v_x.append(v1)
	#獲取兩點之間的速度
	for y, t in zip(data['diff_y'], data['diff_t']):
		v2 = np.array(y)/np.array(t)
		v2 = list(map(lambda x: 0 if x==np.inf or x==-np.inf or np.isnan(x) else x, v2))
		v_y.append(v2)
		
	data['v'] = v
	data['v_x'] = v_x
	data['v_y'] = v_y
	
	return data
	
#獲取加速度資料
def get_a(data):
	a = []
	a_x = []
	a_y = []
	#獲取兩點之間的加速度
	for v, t in zip(data['diff_v'], data['diff_t']):
		v = np.array(v)
		t = np.array(t)
		a_t = (t[:-1] + t[1:])/2
		a0 = v/a_t	
		a0 =	list(map(lambda x: 0 if x==np.inf or x==-np.inf else x, a0))#!! 注意除數為0的情況
		#!!注意 列表為空
		if a0==[] : 	
			a0=[0]
		a.append(a0)	
	#獲取兩點x座標之間的加速度
	for v_x, t in zip(data['diff_v_x'], data['diff_t']):
		v_x = np.array(v_x)
		t = np.array(t)
		a_t = (t[:-1] + t[1:])/2
		a1 = v_x/a_t	
		a1 =	list(map(lambda x: 0 if x==np.inf or x==-np.inf else x, a1))#!! 注意除數為0的情況
		if a1==[] : 	
			a1=[0]
		a_x.append(a1)					
	#獲取兩點x座標之間的加速度
	for v_y, t in zip(data['diff_v_y'], data['diff_t']):
		v_y = np.array(v_y)
		t = np.array(t)
		a_t = (t[:-1] + t[1:])/2
		a2 = v_y/a_t	
		a2 =	list(map(lambda x: 0 if x==np.inf or x==-np.inf else x, a2))#!! 注意除數為0的情況
		if a2==[] : 	
			a2=[0]
		a_y.append(a2)					
	
	data['a'] = a
	data['a_x'] = a_x
	data['a_y'] = a_y

	return data	
def get_feature(data, name):
	dfGroup=pd.DataFrame()
	dfGroup[name+'_start'] = data.apply(lambda x: x[0])
	dfGroup[name+'_end'] = data.apply(lambda x: x[len(x)-1])
	dfGroup[name+'_max'] = data.apply(lambda  x: max(x))
	dfGroup[name+'_min'] = data.apply(lambda  x: min(x))
	dfGroup[name+'_ptp'] = dfGroup[name+'_max'].sub(dfGroup[name+'_min'])
	dfGroup[name+'_mean'] = data.apply(lambda  x: np.mean(x))
	dfGroup[name+'_std'] = data.apply(lambda  x: np.std(x))
	dfGroup[name+'_cv'] = dfGroup[name+'_std'].div(dfGroup[name+'_mean'], fill_value=0)
	dfGroup[name+'_cv'] = dfGroup[name+'_cv'].replace([np.inf,-np.inf],[0,0])
	dfGroup[name+'_cv'] = dfGroup[name+'_cv'].fillna(0)
	dfGroup[name+'_Q1'] = data.apply(lambda  x: np.percentile(x, 0.25))
	dfGroup[name+'_Q2'] = data.apply(lambda  x: np.percentile(x, 0.5))
	dfGroup[name+'_Q3'] = data.apply(lambda  x: np.percentile(x, 0.75))
	dfGroup[name+'_interRan'] = dfGroup[name+'_Q3'].sub(dfGroup[name+'_Q1'])
	dfGroup[name+'_skew'] = data.apply(lambda  x: pd.Series(x).skew()).fillna(0)
	dfGroup[name+'_kurt'] = data.apply(lambda  x: pd.Series(x).kurt()).fillna(0)
    
	return dfGroup

def get_point_feature(df):
    
	point_x = get_feature(df['x'], 'x')
	point_y = get_feature(df['y'], 'y')
	point = pd.concat([point_x, point_y], axis=1)
    
	point['target_x'] = df['target_x'].values
	point['target_y'] = df['target_y'].values
    

	return point
    
def get_dist_feature(df):
	dist_target = get_feature(df['dist_target'], 'dist_target')
	dist_x_target =  get_feature(df['dist_x_target'], 'dist_x_target')
	dist_y_target =  get_feature(df['dist_y_target'], 'dist_y_target')
	diff =  get_feature(df['dist'], 'dist')
	diff_x =  get_feature(df['diff_x'], 'diff_x')
	diff_y =  get_feature(df['diff_y'], 'diff_y')
    
	dist = pd.concat([dist_target, dist_x_target, dist_y_target,
                      diff, diff_x, diff_y], axis=1)

	return dist

def get_time_feature(df):
	t = get_feature(df['t'], 't')
	t_diff = get_feature(df['diff_t'], 'diff_t')
    
	t = pd.concat([t, t_diff], axis=1)

	return t

def get_v_feature(df):
	v_x = get_feature(df['v_x'], 'v_x')
	v_y = get_feature(df['v_y'], 'v_y')
	v = get_feature(df['v'], 'v')
	v_diff_x = get_feature(df['diff_v_x'], 'diff_v_x')
	v_diff_y = get_feature(df['diff_v_y'], 'diff_v_y')
	v_diff = get_feature(df['diff_v'], 'diff_v')
    
	v = pd.concat([v_x, v_y, v,
                   v_diff_x, v_diff_y, v_diff], axis=1)

	return v
    
def get_a_feature(df):
	a_x = get_feature(df['a_x'], 'a_x')
	a_y = get_feature(df['a_y'], 'a_y')
	a = get_feature(df['a'], 'a')
    
	a = pd.concat([a_x, a_y, a], axis=1)
	
	with open('a_feature.json', 'w',encoding='utf-8')as f:
		json.dump(list(a.columns), f, ensure_ascii=False)
	file = open('a_feature.json','w',encoding='utf-8') 
	json.dump(list(a.columns),file,ensure_ascii=False)  
	file.close() 

	return a
def get_other_feature(data):
	dfGroup=pd.DataFrame()
	dfGroup['point_count'] = data['x'].apply(lambda x: len(x))
	dfGroup['x_back_num'] = data['diff_x'].apply(lambda x: min( (np.array(x) > 0).sum(), (np.array(x) < 0).sum()))
	dfGroup['y_back_num'] = data['diff_y'].apply(lambda x: min( (np.array(x) > 0).sum(), (np.array(x) < 0).sum()))
	dfGroup['x_equal_0'] = data['diff_x'].apply(lambda x:  (np.array(x) == 0).sum())
	dfGroup['y_equal_0'] = data['diff_y'].apply(lambda x:  (np.array(x) == 0).sum())
	dfGroup['equal_0'] = data['dist'].apply(lambda x: (np.array(x) == 0).sum())
	return dfGroup
	
def make_df(df):
	df = data_process(df)
	df = data_diff(df, ['x', 'y', 't'])
	df = get_dist(df)
	df = get_v(df)
	df = data_diff(df, ['v', 'v_x', 'v_y'])
	df = get_a(df)
	
    
	point = get_point_feature(df[['x','y','target_x','target_y']])
	dist = get_dist_feature(df[['diff_x', 'diff_y','dist_target', 'dist', 'dist_x_target', 'dist_y_target']])
	t = get_time_feature(df[['t','diff_t']])
	v = get_v_feature(df[['v', 'v_x','v_y', 'diff_v', 'diff_v_x','diff_v_y']])
	a = get_a_feature(df[['a','a_x', 'a_y']])
	other = get_other_feature(df)
	
	df1 = pd.concat([point, dist, t, v,a,other], axis=1)
	return df1.fillna(0)    

def save_df(df,name):
	global path
	global id_data
	global label
	global train_len
	global test_len
	df['id'] = id_data
	train = df.ix[:train_len-1,:]
	train['label'] = label
	test = df.ix[train_len:train_len+test_len-1,:]
	testB = df.ix[train_len+test_len:,:]

	train.to_csv(path+"\\" +name+ "train.csv", index=None)
	test.to_csv(path+"\\" +name+"test.csv", index=None)
	testB.to_csv(path+"\\" +name+"testB.csv", index=None)
	
def input_df():
	#set path
	path = r'G:\比賽分享\data'
	train_path = os.path.join(path, 'dsjtzs_txfz_training.txt')
	test_path = os.path.join(path, 'dsjtzs_txfz_test1.txt')
	testB_path = os.path.join(path, 'dsjtzs_txfz_testB.txt')
	#load data
	train = pd.read_csv(train_path, sep=' ', names=['id','point', 'target','label']).ix[:100]#實際執行 去掉 .ix[:100]																					
	test = pd.read_csv(test_path, sep=' ', names=['id','point', 'target']).ix[:100]
	testB =pd.read_csv(testB_path, sep=' ', names=['id','point', 'target']).ix[:100]
	    
	#合併資料集
	label=train['label'].copy()
	train.drop('label',axis=1,inplace=True)
	df = pd.concat([train, test, testB], ignore_index=True)
	id_data = df['id'].copy()
	df.drop('id',axis=1,inplace=True)
	
	train_len = len(train)
	test_len = len(test)
	
	global path
	global id_data
	global label
	global train_len
	global test_len
	return df
		
if __name__ == '__main__':
	
	
	
	df = input_df()
	df = make_df(df)

	save_df(df,'all')

這是最基礎，也是最重要的環節，在這之後，需要進行特徵選擇來篩選掉無用的特徵，

可以使用LDA、PCA進行特徵提取，然後使用filter、wrapper封裝器進行特徵選擇。下面是相關部落格：

對於PCA、filter的描述（可能）有後續更新，看我心情吧~

以上兩個步驟，基本上完成了比賽的一半，接下來就是調參和模型融合以及過擬合的處理

對於調參這門玄學，我目前還沒有參透，最多隻會使用grid_scearch暴力搜尋一下，所以這部分我先不講。

模型融合，就是使用xgboost等一系列大殺器對資料進行擬合，這個在上個部落格已經詳細提到。

下面介紹幾個手動模型融合的方法：

1.投票法（VOTE）

多個模型進行預測，把他們的結果融合起來

對於分類問題相當於取眾數

對於迴歸問題可以取平均值

2.Stacking

相比 Blending，Stacking 能更好地利用訓練資料。以 5-Fold Stacking 為例，它的基本原理如圖所示：

整個過程很像 Cross Validation。首先將訓練資料分為 5 份，接下來一共 5 個迭代，每次迭代時，將 4 份資料作為 Training Set 對每個 Base Model 進行訓練，然後在剩下一份 Hold-out Set 上進行預測。同時也要將其在測試資料上的預測儲存下來。這樣，每個 Base Model 在每次迭代時會對訓練資料的其中 1 份做出預測，對測試資料的全部做出預測。5 個迭代都完成以後我們就獲得了一個 #訓練資料行數 x #Base Model 數量

的矩陣，這個矩陣接下來就作為第二層的 Model 的訓練資料。當第二層的 Model 訓練完以後，將之前儲存的 Base Model 對測試資料的預測（因為每個 Base Model 被訓練了 5 次，對測試資料的全體做了 5 次預測，所以對這 5 次求一個平均值，從而得到一個形狀與第二層訓練資料相同的矩陣）拿出來讓它進行預測，就得到最後的輸出。

再接下來就是對過擬合的處理，通過繪製learning_carve等評分曲線來觀察過擬合程度，根據相應的特點，我們採取不同方式處理過擬合：

http://blog.csdn.net/heyongluoyao8/article/details/49429629

大致過程到此結束。

coding the new world

與君共勉

大資料挑戰賽（大佬篇）

大資料挑戰賽（大佬篇）

2018中國高校計算機大賽——大資料挑戰賽（合作方：快手）

2018中國高校計算機大賽—大資料挑戰賽（top2解題方案）

元資料與資料治理｜大資料治理（第九篇）

PayPal高階工程總監：讀完這100篇論文就能成大資料高手（附論文下載）

大資料面試（HR電話瞭解）

大資料測試（開源優測）

java 中的大資料型別（BigInteger和BigDecimal）

七週速學資料分析（業務知識篇）

元資料與資料治理｜Spark SQL結構化資料分析（第六篇）

`輕鬆搞定資料結構（線性表篇）

大資料學習之小白如何學大資料？（詳細篇）

大資料的應用場景都有哪些（電商篇）

2017年全球大資料產業報告之海外篇（第六集）

元資料與資料治理｜大資料之數倉平臺設計（第十篇）

大資料技術背景介紹（開號篇）

機器學習競賽分享：NFL大資料碗（上篇）

大資料基礎（1）zookeeper原始碼解析

大資料導論（4）——OLTP與OLAP、資料庫與資料倉庫

大資料選擇題（二）

大資料挑戰賽（大佬篇）

相關推薦