Graphlab create的基本使用
寫在前面
GraphLab Create 是一款機器學習的函式庫,其中的SFrame也是十分強大的資料管理工具。它允許直接從硬碟中讀取資料,免於將資料全部載入到記憶體中。這就使得對於大資料的處理成為可能.這也是相對於scikit-learn的一個最大優點,我們知道,scikit-learn是隻能讀取記憶體中的資料.
2018-4-29:GraphLab Create一款機器學習中不錯的函式庫,集成了Jupyter Notebook這款好用的IDE,Notebook用於機器學習/資料統計/分析/建模等領域,Jupyter Notebook也是一款開源 的WEB application, 檔案格式是:.ipynb結尾….
GraphLab Create下載地址
安裝
要使用這個函式庫,我們當然得先安裝了,具體的安裝過程也不是很麻煩,在這裡,我就不說了,不會的,小夥伴可以直接百度,教程很多的.
安裝完成之後,就可以使用了,直接單機桌面的軟體圖示,然後,選擇
會直接跳轉到jupyter(原來的notebook)
新建一個工作空間
修改工作空間的名稱
這樣,我們就可以開始操作啦
一.在使用之前,我們必須得先引入這個包
import graphlab
讀取資料集
Tips:假如我們想要檢視前幾行,或者末尾幾行資料
我們使用
sf.head ##檢視前幾行
sf.tail ##檢視尾幾行
操縱列資料
上面是一些基本的操作,只要選中某一列就可以進行和類似陣列的操作,大家可以去嘗試一下
增加一條新的列
二.Graphlab Canvas的簡單使用
簡單來說,Canvas是一個圖形化的工具
上面我們在sf在儲存了個人資訊的資料集
直接使用sf.show()
會自動在另一個標籤頁面開啟
在裡面可以各種點選嘗試
我們希望就在當前notebook頁面展示,不希望在另一個頁面去展示,怎麼操作呢?這裡,只是需要重定向就好
下面,我們來解決一個場景問題
我們的人員資訊表中有一個問題,就是國家列中,USA和United States代表的都是同一個國家美國,但是資料的表現形式不一樣,如果,不進行資料的統一的話,那麼,我們在進行構建機器學習模型的時候,可能就不會那麼準確了,因為機器會把這兩種形式看做是兩個國家來處理
解決
為了讓上面的資料集能夠構建機器學習的模型,需要把資料集做一些改變
我們使用apply函式來進行資料的轉換操作
好的,到這裡Graphlab create常用操作就介紹完了,後面,我們會介紹一些實際的場景如何進行資料的處理