《機器學習》學習第一天(緒論入門)
阿新 • • 發佈:2019-01-07
一、機器學習目的尋找一個函式:這個函式可以完成的常見功能如圖
step1:定義一系列有一定功能的函式
step2:驗證這一系列函式的 優劣性
step3:尋找一個最優的函式
(二)、學習課表
(三)報名達觀杯並做一些準備
達觀公司組織的比賽,給好既定 的官方給的資料集,訓練得到機器學習模型,而如何 評判模型的優劣,用的是測試集(每個樣本沒有label資訊),用模型對測試集進行分類,然後把分類好的結果給官方進行評判
1.傳統監督學習演算法(西瓜書的章節有一 一對應)
(對數機率迴歸 / 支援向量機 / 樸素貝葉斯 / 決策樹 / 整合學習等)
2.深度學習
(CNN / RNN / attention模型 )
Q:提高模型效能
(a)資料預處理
(b)特徵工程 【特徵做的好,質的飛躍,例子:對於一個人,臉部特徵、身材特徵】
(c)機器學習演算法:
(d)模型整合
(e) 資料增強
報了名,然後提交了結果,程式碼按訓練營的程式碼
print("開始.....................") import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.feature_extraction.text import CountVectorizer df_train = pd.read_csv('./train_set.csv') df_test = pd.read_csv('./test_set.csv') df_train.drop(columns = ['article','id'],inplace = True) df_test.drop(columns = ['article'],inplace = True) vectorizer = CountVectorizer(ngram_range = (1,2),min_df = 3,max_df = 0.9,max_features = 100000) vectorizer.fit(df_train['word_seg']) x_train = vectorizer.transform(df_train['word_seg']) x_test = vectorizer.transform(df_test['word_seg']) y_train = df_train['class'] - 1 lg = LogisticRegression(C = 4,dual = True) lg.fit(x_train,y_train) y_test = lg.predict(x_test) df_test['class'] = y_test.tolist() df_test['class'] = df_test['class'] + 1 df_result = df_test.loc[:,['id','class']] df_result.to_csv('./result.csv',index = False) print('完成................................')
成功了,明天自己要嘗試讀懂並備註這段程式碼,自己要理解其原理所在。
安裝anaconda 遇見問題:下載安裝Anaconda 只出現prompt介面
原因中途彈出的小黑窗手動給關閉了。解除安裝後讓預設要求重灌一次成功啦!