機器學習_利用python從網上自動下載資料

阿新 • • 發佈：2018-12-16

機器學習一個必要的前提條件就是獲得大量資料，尤其對於我們剛開始接觸機器學習的時候，網上提供了大量開源資料來源，方便我們進行學習，但是這些資料來源會隨著時間變換，因此萌生一個自動下載資料的方法，剛好網上也有很多的方法，結合別的部落格主的方法和自己的理解寫了一個利用python自動獲取資料的函式。


相關的庫檔案：os、tarfile、urllib

import os
import tarfile
import urllib
from urllib.request import urlretrieve
def download(url,savepath):
    """
    :param url: 下載路徑
    :param savepath:儲存路徑
    :return:
    """
    filename=os.path.basename(url)
    filepath=os.path.join(savefile,filename)
    if not os.path.isdir(savefile):
        #如果不存在我們設定的儲存資料夾，則自動生成一個
        os.makedirs(savefile)
        
        #下載檔案
        urlretrieve(url,filepath)
        
        #開啟我們的檔案
        downfile=tarfile.open(filepath)
        
        #解壓我們的檔案
        downfile.extractall(savefile)
        
        #關閉讀寫操作
        downfile.close()
        print("download finished")
    else:
        print("file has existed")
if __name__ == '__main__':
    url="https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.tgz"
    savefile="./chapter1/data"

當然也可以定義一個reporthook函式，能夠方便的顯示下載進度，這裡用不到，所以沒有寫出來

機器學習_利用python從網上自動下載資料

機器學習一個必要的前提條件就是獲得大量資料，尤其對於我們剛開始接觸機器學習的時候，網上提供了大量開源資料來源，方便我們進行學習，但是這些資料來源會隨著時間變換，因此萌生一個自動下載資料的方法，剛好網上也有很多的方法，結合別的部落格主的方法和自己的理解寫了一個利用python自

Python資料探勘與機器學習_通訊信用風險評估實戰(2)——資料預處理

系列目錄：資料說明通過對讀取資料的實踐，下面是資料集檔案對應讀取後的DataFrame說明。資料檔案 DataFrame DataTech_Credit_Train_Communication1.txt train

機器學習第一章 Python複習（9）資料入庫 pymysql

1 pymysql 參考文件 SQL工具 1.1 安裝 $ (env) python3 -m pip install PyMySQL 1.2基本使用 import pymysql 1.2.1 Connection 物件 connection = pymysq

利用 Python 從交易平臺獲取資料

根據相關政策規定，國內比特幣交易將於2017年9月底關閉，但這幾年裡，比特幣交易的歷史行情資料，可能對日後用於研究經濟、金融以及量化交易策略等都有重大的價值，因此，這篇文章主要講述如何通過 Python 從交易平臺提供的 API 中獲取資料並儲存成 CSV 檔案

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

機器學習_決策樹Python代碼詳解

機器 one math n) sco atl return 復雜度重復決策樹優點：計算復雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特征數據；決策樹缺點：可能會產生過度匹配問題。決策樹的一般步驟：（1）代碼中def 1，計算給定數據集的香農熵：

python機器學習_(1)鳶尾花的分類

鳶尾花的分類是python機器學習中比較經典的一個入門式教學課程，屬於監督學習演算法包括四個方面，訓練，測試，評估，評估此次記錄也適合從這四個方面出發一：訓練利用已知的鳶尾花資料構建機器學習模型，用於預測新測量的鳶尾花的品種。鳶尾花的資料哪裡來呢？有一個開源專案叫做sciket-learn，裡面有鳶尾花的15

Python資料探勘與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

系列目錄：訓練資料拆分把訓練資料拆分為訓練集和交叉驗證集，比例為7:3。x_train和y_train用來訓練模型，x_test和y_test用來交叉驗證。 data_train = data_train.set_index('Us

分散式機器學習：如何快速從Python棧過渡到Scala棧

首先介紹下我的情況和需求，如果你跟我類似，那麼這篇文章將很有幫助；我之前的技術棧主要是**Java**、**Python**，機器學習方面主要用到是**pandas**、**numpy**、**sklearn**、**scipy**、**matplotlib**等等，因為工作需要使用spark，所以理所應

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

機器學習_路徑

ren ans com ech www cfa tail http dev 1、http://blog.csdn.net/baihuaxiu123/article/details/52464510 2、http://www.cnblogs.com/hudongni1/p/5

機器學習入門之python實現圖片簡單分類

numbers org 路徑圖片分類 jpg animal 入門 res windows 小任務：實現圖片分類 1.圖片素材 python批量壓縮jpg圖片: PIL庫 resize http://blog.csdn.net/u012234115/article/

斯坦福機器學習ex1.1(python)

blog com cnblogs div pan .com tlab 表示 def 使用的工具：NumPy和Matplotlib NumPy是全書最基礎的Python編程庫。除了提供一些高級的數學運算機制以外，還具備非常高效的向量和矩陣運算功能。這些對於機器學習的計算任務是

機器學習之路: python k近鄰分類器鳶尾花分類預測

ber AD uda classes them cal col rds esc 使用python語言學習k近鄰分類器的api 歡迎來到我的git查看源代碼: https://github.com/linyi0604/kaggle 1 from sklearn

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

機器學習之路: python 線性回歸LinearRegression, 隨機參數回歸SGDRegressor 預測波士頓房價

誤差差異 ces color square 均方誤差 rep score 處理 python3學習使用api 線性回歸，和隨機參數回歸 git: https://github.com/linyi0604/MachineLearning 1 from skle

機器學習（利用adaboost元算法提高分類性能）

ear tarray 我們 imp quit figure cte 訓練樣本這一元算法背後的思路是對其他算法進行組合的一種方式，A from numpy import * def loadSimpData(): datMat = matrix([[ 1. ,

機器學習_決策樹

TP mage 技術分享 ima height 分享圖片 image bsp 決策樹機器學習_決策樹

機器學習_貝葉斯算法

info image inf 機器 ima bubuko 分享 img 算法機器學習_貝葉斯算法

機器學習之利用KNN近鄰算法預測數據

plt 部分制圖標簽預測最近鄰特征值 learn xlsx 前半部分是簡介, 後半部分是案例 KNN近鄰算法: 簡單說就是采用測量不同特征值之間的距離方法進行分類（k-Nearest Neighbor，KNN）優點: 精度高、對異常值不敏感、無數據輸入假定缺

機器學習_利用python從網上自動下載資料

相關推薦