機器學習進度03（instacart降維案例、總結）

阿新 • • 發佈：2021-01-20

案例：探究使用者對物品類別的喜好細分降維

資料如下：

order_products__prior.csv：訂單與商品資訊
- 欄位：order_id,product_id, add_to_cart_order, reordered
products.csv：商品資訊
- 欄位：product_id, product_name,aisle_id, department_id
orders.csv：使用者的訂單資訊
- 欄位：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所屬具體物品類別
- 欄位：aisle_id,aisle

需求：

分析

合併表，使得user_id與aisle在一張表當中
進行交叉表變換
進行降維

完整程式碼

#案例
def anli():
    # 1、獲取資料集
    # ·商品資訊- products.csv：
    # Fields：product_id, product_name, aisle_id, department_id
    # ·訂單與商品資訊- order_products__prior.csv：
    # Fields：order_id, product_id, add_to_cart_order, reordered
    # ·使用者的訂單資訊 
- orders.csv：
    # Fields：order_id, user_id,eval_set, order_number,order_dow, order_hour_of_day, days_since_prior_order
    # ·商品所屬具體物品類別- aisles.csv：
    # Fields：aisle_id, aisle
    products = pd.read_csv("./instacart/products.csv")
    order_products = pd.read_csv("./instacart/order_products__prior.csv 
")
    orders = pd.read_csv("./instacart/orders.csv")
    aisles = pd.read_csv("./instacart/aisles.csv")

    # 2、合併表，將user_id和aisle放在一張表上
    # 1）合併orders和order_products on=order_id tab1:order_id, product_id, user_id
    tab1 = pd.merge(orders, order_products, on=["order_id", "order_id"])
    # 2）合併tab1和products on=product_id tab2:aisle_id
    tab2 = pd.merge(tab1, products, on=["product_id", "product_id"])
    # 3）合併tab2和aisles on=aisle_id tab3:user_id, aisle
    tab3 = pd.merge(tab2, aisles, on=["aisle_id", "aisle_id"])

    # 3、交叉表處理，把user_id和aisle進行分組
    table = pd.crosstab(tab3["user_id"], tab3["aisle"])

    # 4、主成分分析的方法進行降維
    # 1）例項化一個轉換器類PCA
    transfer = PCA(n_components=0.95)
    # 2）fit_transform
    data = transfer.fit_transform(table)
    print("形狀：\n",data.shape)
    return None
if __name__=="__main__":
    anli()

總結：

1、資料集的結構是什麼?

答案: 特徵值+ 目標值

2、機器學習演算法分成哪些類別? 如何分類

答案: 根據是否有目標值分為監督學習和非監督學習監督學習

根據目標值的資料型別:目標值為離散值就是分類問題

目標值為連續值就是迴歸問題

3、什麼是標準化? 和歸一化相比有什麼優點?

答案: 標準化是通過對原始資料進行變換把資料變換到均值為0,方差為1範圍內

優點: 少量異常點, 不影響平均值和方差, 對轉換影響小

機器學習進度03（instacart降維案例、總結）

案例：探究使用者對物品類別的喜好細分降維資料如下： order_products__prior.csv：訂單與商品資訊

機器學習進度01（sklearn、字典特徵抽取、文字特徵抽取（CountVectorizer、TfidfVevtorizer）、中文文字特徵抽取）

sklearn資料集 1 scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*()

spark學習進度06（RDD的Map運算元、FlatMap運算元、ReduceByKey運算元）

一、Map運算元：作用把 RDD 中的資料一對一的轉為另一種形式呼叫 def map[U: ClassTag](f: T ⇒ U): RDD[U]

三維點雲學習（Ⅰ）- C++實操（PCA降維，升維、模型點雲法向量）

技術標籤：三維點雲學習過程c++ 三維點雲學習（Ⅰ）- C++實操一、VS2013配置PCl1.80庫

機器學習-文字分類（1）之獨熱編碼、詞袋模型、N-gram、TF-IDF

1、one-hot 一般是針對於標籤而言，比如現在有貓：0，狗：1，人：2，船：3，車：4這五類，那麼就有：

機器學習-文字分類（2）-新聞文字分類

參考：https://mp.weixin.qq.com/s/6vkz18Xw4USZ3fldd_wf5g 1、資料集下載地址 https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

機器學習基礎概念（二）：希臘字母與數學符號

希臘字母約定常用的意義 Α α alpha a:lf 阿爾法角度；係數Β β beta bet 貝塔磁通係數；角度；係數Γ γ gamma ga:m 伽馬電導係數（小寫）Δ δ delta delt 德爾塔變動；密度；屈光度Ε ε epsilo

機器學習回顧篇（5）：樸素貝葉斯演算法

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案

機器學習回顧篇（1）：梯度下降法

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案

機器學習回顧篇（8）：CART決策樹演算法

注：本系列所有部落格將持續更新併發布在github和gitee上，您可以通過github、gitee下載本系列所有文章筆記檔案。

spark學習進度05（RDD概念、程式碼、三種建立方式）

一、RDD概念 1、RDD在哪裡： 2、RDD是什麼：是一個容錯的, 並行的資料結構, 可以讓使用者顯式地將資料儲存到磁碟和記憶體中, 並能控制資料的分割槽.RDD 作為資料結構, 本質上是一個只讀的分割槽記錄集合. 一個

spark學習進度11（RDD分割槽和我shuffle以及快取）

一、RDD的分割槽和Shuffle 目標 RDD 的分割槽操作 Shuffle 的原理分割槽的作用 RDD 使用分割槽來分散式並行處理資料, 並且要做到儘量少的在不同的 Executor 之間使用網路交換資料, 所以當使用 RDD 讀取資

spark學習進度12（RDD的Checkpoint）

1. Checkpoint 目標 Checkpoint 的作用 Checkpoint 的使用、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斬斷 RDD 的依賴鏈, 並且將資料儲存在可靠的儲存引擎中, 例如支援分散式儲存和副本機制

spark學習進度13（spark和高階特效）

　　　　這一節基本上全是概念：：：更新的幾種寫法：部署：邏輯：其實 RDD 並沒有什麼嚴格的邏輯執行圖和物理執行圖的概念, 這裡也只是借用這個概念, 從而讓整個 RDD 的原理可以解釋, 好理解.

spark學習進度17（Catalyst優化器、dataset介紹、dataframe介紹）

RDD 和 SparkSQL 執行時的區別 RDD的執行流程大致執行步驟先將RDD解析為由Stage組成的DAG, 後將Stage轉為Task直接執行

spark學習進度26（spark sql程式設計初級實踐）

Spark SQL 基本操作：將下列 JSON 格式資料複製到 Linux 系統中，並儲存命名為 employee.json。

opencv機器學習線性迴歸_機器學習初級演算法（二）——線性迴歸

技術標籤：opencv機器學習線性迴歸線性迴歸原理一般而言，房價會受很多因素的影響而波動，如果我們假設房價只與房產面積已經廳室數量有關係，可以看到房價、面積、廳室呈現以下資料：

十二、機器學習演算法整合（knn、樸素貝葉斯、決策樹、隨機森林、線性迴歸、嶺迴歸、邏輯迴歸、聚類、支援向量機）

技術標籤：機器學習決策樹聚類機器學習一、需要匯入的庫： \'\'\' 作者:小宇最後完成日期：2021.2.28

入門機器學習——Tensorflow安裝（win10）

機器學習入門（一）最近加了大資料處理的科研專案，需要學習機器學習，感覺假期會很充實呢~

動手學機器學習v2-03 安裝環境

基本步驟 1.安裝python 2.安裝pip 3.安裝conda conda env remove d2l-zh conda create -n -y d2l-zh python=3.8 pip