1. 程式人生 > >資料探勘學習

資料探勘學習

資料探勘基礎環境安裝與使用

  • 完成資料探勘基礎階段的所有環境安裝
  • 應用jupyter notebook完成程式碼編寫執行

1.1 庫的安裝

學習目標

  • 目標
    • 搭建好資料探勘基礎階段的環境
  • 應用

整個資料探勘基礎階段會用到Matplotlib、Numpy、Pandas、Ta-Lib等庫,為了統一版本號在環境中使用,將所有的庫及其版本放到了檔案requirements.txt當中,然後統一安裝

新建一個用於人工智慧環境的虛擬環境

mkvirtualenv -p /user/local/bin/python3 ai
matplotlib==2.2.2
numpy==1.14.2
pandas==0.20.3 TA-Lib==0.4.16 tables==3.4.2 jupyter==1.0.0 

Ta-Lib安裝會出現問題,需要先安裝依賴庫,按照以下步驟安裝:

# 獲取原始碼庫
sudo wget http://prdownloads.sourceforge.net/ta-lib/ta-lib-0.4.0-src.tar.gz
# 解壓進入目錄
tar -zxvf ta-lib-0.4.0-src.tar.gz cd ta-lib/ # 編譯安裝 sudo ./configure --prefix=/usr sudo make sudo make install # 重新安裝python的TA-Lib庫 pip install TA-Lib 

使用pip命令安裝

pip install -r requirements.txt


1.2 Jupyter Notebook使用

學習目標

  • 目標
    • 學會使用Jupyter Notebook編寫執行程式碼
  • 應用
    • 建立檔案
    • 操作cell
    • 執行操作

1.2.1 Jupyter Notebook介紹

Jupyter專案是一個非盈利的開源專案,源於2014年的ipython專案,因為它逐漸發展為支援跨所有程式語言的互動式資料科學和科學計算

  • Jupyter Notebook,原名IPython Notbook,是IPython的加強網頁版,一個開源Web應用程式
  • 名字源自Julia、Python 和 R(資料科學的三種開源語言)
  • 是一款程式設計師和科學工作者的程式設計/文件/筆記/展示軟體
  • .ipynb檔案格式是用於計算型敘述的JSON文件格式的正式規範

1.2.2 為什麼使用Jupyter Notebook?

  • 傳統軟體開發:工程/目標明確
    • 需求分析,設計架構,開發模組,測試
  • 資料挖掘:藝術/目標不明確
    • 目的是具體的洞察目標,而不是機械的完成任務
    • 通過執行程式碼來理解問題
    • 迭代式地改進程式碼來改進解決方法

實時執行的程式碼、敘事性的文字和視覺化被整合在一起,方便使用程式碼和資料來講述故事

對比Jupyter Notebook和Pycharm

  • 畫圖

1.2.3 Jupyter Notebook的使用-helloworld

1 介面啟動、建立檔案

  • 介面啟動

環境搭建好後,本機輸入jupyter notebook命令,會自動彈出瀏覽器視窗開啟Jupyter Notebook

 

# 進入虛擬環境
workon ai
# 輸入命令
jupyter notebook

本地notebook的預設URL為:http://localhost:8888

想讓notebook開啟指定目錄,只要進入此目錄後執行命令即可

 

新建notebook文件

  • notebook的文件格式是.ipynb

 

  • 內容介面操作-helloworld

 

標題欄:點選標題(如Untitled)修改文件名 選單欄

  • 導航-File-Download as,另存為其他格式
  • 導航-Kernel
    • Interrupt,中斷程式碼執行(程式卡死時)
    • Restart,重啟Python核心(執行太慢時重置全部資源)
    • Restart & Clear Output,重啟並清除所有輸出
    • Restart & Run All,重啟並重新執行所有程式碼

2 cell操作

什麼是cell?

cell:一對In Out會話被視作一個程式碼單元,稱為cell

Jupyter支援兩種模式:

  • 編輯模式(Enter)
    • 命令模式下回車Enter滑鼠雙擊cell進入編輯模式
    • 可以操作cell內文字或程式碼,剪下/複製/貼上移動等操作
  • 命令模式(Esc)
    • Esc退出編輯,進入命令模式
    • 可以操作cell單元本身進行剪下/複製/貼上/移動等操作

1)滑鼠操作

 

2)快捷鍵操作

  • 兩種模式通用快捷鍵
    • Shift+Enter,執行本單元程式碼,並跳轉到下一單元
    • Ctrl+Enter,執行本單元程式碼,留在本單元

cell行號前的 * ,表示程式碼正在執行

  • 命令模式:按ESC進入
    • Y,cell切換到Code模式
    • M,cell切換到Markdown模式
    • A,在當前cell的上面新增cell
    • B,在當前cell的下面新增cell
    • 雙擊D:刪除當前cell
    • Z,回退
    • L,為當前cell加上行號 <!--
    • Ctrl+Shift+P,對話方塊輸入命令直接執行
    • 快速跳轉到首個cell,Crtl+Home
    • 快速跳轉到最後一個cell,Crtl+End -->
  • 編輯模式:按Enter進入
    • 多游標操作:Ctrl鍵點選滑鼠(Mac:CMD+點選滑鼠)
    • 回退:Ctrl+Z(Mac:CMD+Z)
    • 重做:Ctrl+Y(Mac:CMD+Y)
    • 補全程式碼:變數、方法後跟Tab鍵
    • 為一行或多行程式碼新增/取消註釋:Ctrl+/(Mac:CMD+/)
    • 遮蔽自動輸出資訊:可在最後一條語句之後加一個分號

 

3 markdown演示

掌握標題和縮排即可

一級標題

二級標題

三級標題

四級標題

五級標題
  • 縮排
    • 二級縮排
      • 三級縮排