《Python機器學習kaggle案例》-- 網易雲課堂

阿新 • • 發佈：2018-12-01

https://study.163.com/course/courseMain.htm?courseId=1003551009

LinearRegression

# -*- coding: utf-8 -*-
"""
Created on Sat Dec  1 09:24:27 2018

@author: zh
"""

import pandas as pd
import numpy as np

titanic = pd.read_csv('train.csv')

titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

titanic.loc[titanic[ 
'Sex'] == 'male', 'Sex'] = 0
titanic.loc[titanic['Sex'] == 'female', 'Sex'] = 1

titanic['Embarked'] = titanic['Embarked'].replace('nan', np.nan).fillna('S')
titanic.loc[titanic['Embarked'] == 'S', 'Embarked'] = 0
titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1
titanic.loc[titanic['Embarked'] == ' 
Q', 'Embarked'] = 2

from sklearn.linear_model import LinearRegression
from sklearn.cross_validation import KFold
predictors = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
alg = LinearRegression()
kf = KFold(titanic.shape[0], n_folds=3, random_state=1)
predictions = []
for train, test  in 
 kf:
    train_predictors = (titanic[predictors].iloc[train, :])
    train_target = titanic['Survived'].iloc[train]
    alg.fit(train_predictors, train_target)
    test_predictions = alg.predict(titanic[predictors].iloc[test, :])
    predictions.append(test_predictions)

predictions = np.concatenate(predictions, axis=0)
predictions[predictions > 0.5] = 1
predictions[predictions <= 0.5] = 0
accuracy = sum(predictions == titanic['Survived'])/len(predictions)

#accuracy = 0.7833894500561167

LogisticRegression

# -*- coding: utf-8 -*-
"""
Created on Sat Dec  1 09:34:55 2018

@author: zh
"""

import pandas as pd
import numpy as np

titanic = pd.read_csv('train.csv')

titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

titanic.loc[titanic['Sex'] == 'male', 'Sex'] = 0
titanic.loc[titanic['Sex'] == 'female', 'Sex'] = 1

titanic['Embarked'] = titanic['Embarked'].replace('nan', np.nan).fillna('S')
titanic.loc[titanic['Embarked'] == 'S', 'Embarked'] = 0
titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1
titanic.loc[titanic['Embarked'] == 'Q', 'Embarked'] = 2

predictors = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']

from sklearn import cross_validation
from sklearn.linear_model import LogisticRegression

alg = LogisticRegression(random_state=1)
scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=3)
accuracy = scores.mean()

#accuracy = 0.7878787878787877

RandomForestClassifier

# -*- coding: utf-8 -*-
"""
Created on Sat Dec  1 09:37:31 2018

@author: zh
"""
import pandas as pd
import numpy as np

titanic = pd.read_csv('train.csv')

titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

titanic.loc[titanic['Sex'] == 'male', 'Sex'] = 0
titanic.loc[titanic['Sex'] == 'female', 'Sex'] = 1

titanic['Embarked'] = titanic['Embarked'].replace('nan', np.nan).fillna('S')
titanic.loc[titanic['Embarked'] == 'S', 'Embarked'] = 0
titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1
titanic.loc[titanic['Embarked'] == 'Q', 'Embarked'] = 2

predictors = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']

from sklearn import cross_validation
from sklearn.ensemble import RandomForestClassifier
predictors = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
alg = RandomForestClassifier(random_state=1, n_estimators=10, min_samples_split=2, min_samples_leaf=1)
kf = cross_validation.KFold(titanic.shape[0], n_folds=3, random_state=1)
scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=kf)
accuracy = scores.mean()
#accuracy = 0.7856341189674523

alg = RandomForestClassifier(random_state=1, n_estimators=50, min_samples_split=4, min_samples_leaf=2)
kf = cross_validation.KFold(titanic.shape[0], n_folds=3, random_state=1)
scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=kf)
accuracy = scores.mean()
#accuracy = 0.8159371492704826

max_acc = 0
for n_estimators in range(1,60,10):
    for min_samples_split in range(2,10):
        for min_samples_leaf in range(1,10):
            alg = RandomForestClassifier(random_state=1, n_estimators=n_estimators, min_samples_split=min_samples_split, min_samples_leaf=min_samples_leaf)
            kf = cross_validation.KFold(titanic.shape[0], n_folds=3, random_state=1)
            scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=kf)
            accuracy = scores.mean()
            if accuracy>max_acc:
                print(n_estimators,min_samples_split,min_samples_leaf)
                max_acc = accuracy
print(max_acc)
#max_acc = 0.8316498316498316

feature_selection

# -*- coding: utf-8 -*-
"""
Created on Sat Dec  1 09:52:38 2018

@author: zh
"""

import pandas as pd
import numpy as np

titanic = pd.read_csv('train.csv')

titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

titanic.loc[titanic['Sex'] == 'male', 'Sex'] = 0
titanic.loc[titanic['Sex'] == 'female', 'Sex'] = 1

titanic['Embarked'] = titanic['Embarked'].replace('nan', np.nan).fillna('S')
titanic.loc[titanic['Embarked'] == 'S', 'Embarked'] = 0
titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1
titanic.loc[titanic['Embarked'] == 'Q', 'Embarked'] = 2

titanic['FamilySize'] = titanic['SibSp'] + titanic['Parch']
titanic['NameLength'] = titanic['Name'].apply(lambda x: len(x))

import re
def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
    if title_search:
        return title_search.group(1)
    return ''
titles = titanic['Name'].apply(get_title)
#pd.value_counts(titles)

title_mapping = {'Mr': 1, 'Miss': 2, 'Mrs': 3, 'Master': 4, 'Dr': 5, 'Rev': 6, 'Col': 7, 'Major': 8, 'Mlle': 9, 'Capt': 10, 'Ms': 11, 'Jonkheer': 12, 'Don':13, 'Sir':14, 'Countess':15, 'Lady':16, 'Mme':17}
for k,v in title_mapping.items():
    titles[titles==k]=v
#pd.value_counts(titles)
titanic['Title'] = titles

import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif
import matplotlib.pyplot as plt

predictors = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'FamilySize', 'Title', 'NameLength']

selector = SelectKBest(f_classif, k=5)
selector.fit(titanic[predictors], titanic['Survived'])
scores = -np.log10(selector.pvalues_)
plt.bar(range(len(predictors)), scores)
plt.xticks(range(len(predictors)), predictors, rotation='vertical')
plt.show()

from sklearn import cross_validation
from sklearn.ensemble import RandomForestClassifier
predictors = ['Pclass', 'Sex', 'Fare', 'Title']

alg = RandomForestClassifier(random_state=1, n_estimators=50, min_samples_split=4, min_samples_leaf=2)
kf = cross_validation.KFold(titanic.shape[0], n_folds=3, random_state=1)
scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=kf)
accuracy = scores.mean()

#accuracy=0.8114478114478114

GradientBoostingClassifier

# -*- coding: utf-8 -*-
"""
Created on Sat Dec  1 09:52:38 2018

@author: zh
"""
import pandas as pd
import numpy as np

titanic = pd.read_csv('train.csv')

titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

titanic.loc[titanic['Sex'] == 'male', 'Sex'] = 0
titanic.loc[titanic['Sex'] == 'female', 'Sex'] = 1

titanic['Embarked'] = titanic['Embarked'].replace('nan', np.nan).fillna('S')
titanic.loc[titanic['Embarked'] == 'S', 'Embarked'] = 0
titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1
titanic.loc[titanic['Embarked'] == 'Q', 'Embarked'] = 2

titanic['FamilySize'] = titanic['SibSp'] + titanic['Parch']
titanic['NameLength'] = titanic['Name'].apply(lambda x: len(x))

import re
def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
    if title_search:
        return title_search.group(1)
    return ''
titles = titanic['Name'].apply(get_title)
#pd.value_counts(titles)

title_mapping = {'Mr': 1, 'Miss': 2, 'Mrs': 3, 'Master': 4, 'Dr': 5, 'Rev': 6, 'Col': 7, 'Major': 8, 'Mlle': 9, 'Capt': 10, 'Ms': 11, 'Jonkheer': 12, 'Don':13, 'Sir':14, 'Countess':15, 'Lady':16, 'Mme':17}
for k,v in title_mapping.items():
    titles[titles==k]=v
#pd.value_counts(titles)
titanic['Title'] = titles

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import KFold

algorithms = [
    [GradientBoostingClassifier(random_state=1, n_estimators=25, max_depth=3), ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'Title']],
    [LogisticRegression(random_state=1), ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'Title']]
]
kf = KFold(titanic.shape[0], n_folds=3, random_state=1)
predictions = []
for train, test  in kf:
    train_target = titanic['Survived'].iloc[train]
    full_test_predictions = []
    for alg, predictors in algorithms:
        alg.fit(titanic[predictors].iloc[train, :], train_target)
        test_predictions = alg.predict_proba(titanic[predictors].iloc[test, :].astype(float))[:,1]
        full_test_predictions.append(test_predictions)
    test_predictions = (full_test_predictions[0]*3 + full_test_predictions[1])/4
    test_predictions[test_predictions <= 0.5] = 0
    test_predictions[test_predictions > 0.5] = 1
    predictions.append(test_predictions)
predictions = np.concatenate(predictions, axis=0)
accuracy = sum(predictions == titanic['Survived'])/len(predictions)

#accuracy=0.8204264870931538

《Python機器學習kaggle案例》-- 網易雲課堂

https://study.163.com/course/courseMain.htm?courseId=1003551009 LinearRegression # -*- coding: utf-8 -*- """ Created on Sat Dec 1 09:24:27 2018 @aut

《有趣的機器學習》--網易雲課堂

機器學習監督學習非監督學習半監督學習強化學習遺傳演算法神經網路 CNN TensorFlow搭建CNN 展開原始碼 RNN 展開原始碼 LSTM 為了解決梯度彌

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

網易雲 pytho sco 關鍵詞 page json ner urn 頁碼本實例實現了抓取網易雲課堂中以‘java’為關鍵字的搜索結果，經詳細查看請求的方式為post，請求的結果為JSON數據具體實現代碼如下： import requests import json

andrew ng 深度學習網易雲課堂課程

輸入資料為非結構化資料圖片時，輸入向量的表示形式是將一幅影象的三基元矩陣分別抻開，形成一個長向量：先從邏輯迴歸講起，基本的符號表示如下，使用sigmoid函式是為了將計算出來的值投影到0-1的範圍內，從而表示預測值是貓的概率：代價函式的定義，代價函式其實就是基於訓練集樣本的誤差總和的平均值

2018最新網易雲課堂Python Flask框架全棧開發

適用人群1、想使用Python快速開發網站的。2、前端開發者，想學習後端開發邏輯的。3、有程式設計經驗，想學習Flask的。課程概述本套課程的目標是從零基礎開始，使用Flask框架開發企業級的專案。課程中不僅包含了Flask框架本身的知識點，更是站在全棧的角度講解了如何結合Flask使用aja

python爬蟲綜合篇，採集網易雲音樂全部歌手的熱門歌曲以及評論！

今天我給大家介紹一下用Python爬取網易雲音樂全部歌手的熱門歌曲.由於歌手個人主頁的網頁原始碼中還嵌入了一個子網頁(框架原始碼裡面包含了我們需要的資訊),因此我們不能使用requests庫來爬取,而使用selenium,接下來,讓我詳細講解整個爬取過程. 學習Pyt

利用Python網路爬蟲實現對網易雲音樂歌詞爬取

今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取原始碼；利用bs4解析原始碼，獲取歌曲名和歌曲ID；呼叫網易雲歌曲API，獲取歌詞；將歌詞寫入檔案，並存入本地。本文的目的是獲取網易雲音樂的歌詞，並將歌詞存入到本地檔案。整

李興華網易雲課堂mongodb學習筆記分享

個人強烈推薦李老師的這份mongodb的筆記http://yuedu.163.com/news_reader/#/~/source?id=d0b66e2ed0f84f8f8f4ea1a357964f36_1&cid=2cc98f9ffa0e4650bf9d0dc166

【python爬蟲自學筆記】-----網易雲開放API

搜尋歌曲API：請求方式：post 請求地址：http://music.163.com/api/search/get/web?csrf_token= 請求資料：hlpretag=&hlposttag=&s=搜尋歌曲名或歌手名&type=1&

Python + Selenium 爬取網易雲課堂課時標題及時長

Python + Selenium 爬取網易雲課堂課時標題及時長轉載請註明出處：https://blog.csdn.net/jpch89/article/details/84142555 文章目錄 Python + Selenium 爬取網易雲課堂課時標

2019年最新網易雲課堂Python Flask框架全棧開發

機器學習筆試題目----網易2016春招

2016年3月23日參加了網易機器學習崗的筆試，然後又被鄙視了。因為不允許截圖和拍照，只憑記憶記錄了一些問題。 1、常見的生成式模型和判別式模型有哪些？生成式模型：HMM、樸素貝葉斯判別式模型：svm、最大熵模型、決策樹、神經網路、條件隨機場。 2、

2019最新網易雲課堂Python Flask框架全棧開發

Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取

寫在前面今天咱們抓取一下網易雲課堂的課程資料，這個網站的資料量並不是很大，我們只需要使用requests就可以快速的抓取到這部分資料了。你第一步要做的是開啟全部課程的地址，找出爬蟲規律，地址如下： https://study.163.com/courses/ 我簡單的看了一下，頁面資料是基於

Python爬取網易雲課堂課程資料

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，

Python資料視覺化：網易雲音樂歌單

網易雲音樂2018年度聽歌報告—遇見你，真好。相信有不少人在上週，應該已經看過自己網易雲音樂的年度報告了。小F也是去湊湊熱鬧，瞅了一波自己的年度聽歌報告。那麼你在雲村又聽了多少首歌，聽到最多的歌詞又是什麼呢？ 2018年你的年度歌手又是誰，哪些又是你最愛的歌呢？不過相比去

網易雲課堂學習筆記——帶引數的建構函式以及類內宣告類外寫函式的方法

#include <iostream>using namespace std;//帶引數的建構函式,帶有引數的建構函式在宣告物件的時候一定要把引數傳進來//或者可以直接在建構函式中初始化，這樣不傳引數也可以//建構函式之間也可以構成過載關係，只需要用傳入引數的不同

網易雲課堂_C++程序設計入門(下)_第7單元：出入雖同趣，所向各有宜 – 文件輸入和輸出_第7單元 - 作業1：OJ編程

c++ detail using span 換行 tro size str cout 第7單元 - 作業1：OJ編程查看幫助 返回溫馨提示： 1.本次作業屬於Online Judge題目，提交後由系統即時判分。 2.學生可以在作業截止時間之前不限次數提

網易雲課堂_C++程序設計入門(下)_第8單元：年年歲歲花相似– 運算符重載_第8單元 - 作業2：OJ編程 - 重載數組下標運算符

ref [] jna turn draw cred 超出範圍 input detail 第8單元 - 作業2：OJ編程 - 重載數組下標運算符查看幫助 返回溫馨提示： 1.本次作業屬於Online Judge題目，提交後由系統即時判分。 2.學生可以在

網易雲課堂_C++程序設計入門(下)_第9單元：白公曾詠牡丹芳，一種鮮妍獨“異常”_第9單元 - 作業5：OJ編程 - 使用異常進行圖形類的錯誤處理

using define 幫助發生半角 etc mooc sub private 第9單元 - 作業5：OJ編程 - 使用異常進行圖形類的錯誤處理查看幫助 返回溫馨提示： 1.本次作業屬於Online Judge題目，提交後由系統即時判分。 2.學

《Python機器學習kaggle案例》-- 網易雲課堂

相關推薦