【筆記】使用PCA對資料進行降噪（理解）

阿新 • • 發佈：2021-01-20

使用PCA對資料進行降噪（使用手寫數字例項）

（在notebook中）

載入庫並製作虛擬的資料並進行繪製

  import numpy as np
  import matplotlib.pyplot as plt

  X = np.empty((100,2))
  X[:,0] = np.random.uniform(0. ,100. , size=100)
  X[:,1] = 0.75 * X[:,0] + 3. + np.random.normal(0. ,10. ,size=100)

  plt.scatter(X[:,0],X[:,1])

影象如下

這個資料集展現出來這樣一個結果，但是實際情況是怎麼樣的呢，有沒有可能其資料集就是一根直線，其資料的上下抖動其實是因為多種原因導致的噪音

我們使用PCA這種方法將X降維成一維，再恢復成二維的資料，並繪製圖像

  from sklearn.decomposition import PCA

  pca = PCA(n_components=1)
  pca.fit(X)
  X_reduction = pca.transform(X)
  X_restore = pca.inverse_transform(X_reduction)

  plt.scatter(X_restore[:,0],X_restore[:,1])

影象如下（此時的資料就變成了一條直線）

上面的過程可以理解成將資料的噪音去除了，當然，實際情況下，這不能說是一點噪音都沒有，可以理解成，降低了維度，丟失了資訊，同時也去除了部分噪音

我們使用手寫識別的例子來更加直觀的看待這個操作

我們使用手寫數字資料集

  from sklearn import datasets

  digits = datasets.load_digits()
  X = digits.data
  y = digits.target

重新創造一個具有噪音的資料集

  noisy_digits = X + np.random.normal(0,4,size=X.shape)

為了更加直觀的看到，我們繪製一下這些數字

從樣本中取出100個digits，稱其為example_digits，初始的時候，在noisy_digits中y=0中取十個，然後進行迴圈從一到十，每一個都再從noisy_digits中取出y=num的十個，將這些樣本和原來的樣本壘在一起

  example_digits = noisy_digits[y==0,:][:10]
  for num in range(1,10):
      X_num = noisy_digits[y==num,:][:10]
      example_digits = np.vstack([example_digits,X_num])

這樣就有了含有100個的元素的，每個元素有64位的資料

  example_digits.shape

結果如下

繪製程式碼：

  def plot_digits(data):
      fig,axes = plt.subplots(10,10,figsize=(10,10),
                               subplot_kw={'xticks':[],'yticks':[]},
      gridspec_kw=dict(hspace=0.1,wspace=0.1))
      for i,ax in enumerate(axes.flat):
          ax.imshow(data[i].reshape(8,8),
                    cmap='binary',interpolation='nearest',
                    clim=(0,16))
      plt.show()

  plot_digits(example_digits)

影象如下

然後我們使用PCA降噪，例項化然後取0.5，進行fit操作

  pca = PCA(0.5)
  pca.fit(noisy_digits)

結果如下

此時我們的保留資料維度為

  pca.n_components_

結果如下

然後對低維返回高維，再進行繪製

  components = pca.transform(example_digits)
  filtered_digits = pca.inverse_transform(components)
  plot_digits(filtered_digits)

影象如下

簡單使用PCA來對影象進行降噪就完成了

【筆記】使用PCA對資料進行降噪（理解）

使用PCA對資料進行降噪（使用手寫數字例項）（在notebook中）載入庫並製作虛擬的資料並進行繪製

【學習筆記】Pytorch深度學習——Tensorboard的使用（一）

本節筆記內容具體是學習tensorboard中的兩個方法分別是scalar和histogram，一共分為3個部分：（1）首先學習SummaryWriter類；（2）其次，學習兩個基本方法記錄標量add_scalar和直方圖視覺化add_histogram；（3）最後

【筆記】Robot Dynamics - Kinematics 超全總結（附程式碼）

參考資料： Robot Dynamics Lecture Notes：Robitics System Lab，ETH Zurich，HS 2017 Exercises 1 Matlab Coding 1

【學習筆記】快速離散傅立葉變換（FFT）（遞迴版）

本文講述的是快速離散傅立葉變換的遞迴版，並非倍增版。零、前言參考：具體學習並實現快速傅立葉變換 - 鶴翔萬里

【學習筆記】Mybatis-plus-01：程式碼生成器（新）

Mybatis-plus程式碼生成器 mybatis-plus程式碼生成器：AutoGenerator 是 MyBatis-Plus 的程式碼生成器，通過 AutoGenerator 可以快速生成 Entity、Mapper、Mapper XML、Service、Controller 等各個模組的程式碼，極大

【讀書筆記】《你不知道的 JavaScript（上卷）》筆記

第一部分作用域和閉包 1.1 作用域是什麼？作用域是一套規則，用於確定在何處以及如何查詢變數（識別符號）。如果查詢的目的是對變數進行賦值，那麼就會使用 LHS 查詢；如果目的是獲取變數的值，就會使用 RHS 查詢。

【AtCoder】AtCoder Grand Contest 034 解題報告（$A$）

點此進入比賽 \$A\$：Kenken Race（點此看題面）大致題意：有\$n\$個位置，其中有一些有障礙，每次行走可以從第\$i\$個格子走到第\$i+1\$或\$i+2\$個格子（要求格子為空）。現有兩人分別在\$A,B\$，問

【AtCoder】AtCoder Grand Contest 033 解題報告（$A$）

點此進入比賽前言又是一場過去的\$AtCoder\$。一邊希望著題目不會太難，一邊卻又希望題目能有足夠的難度，讓我從中學到更多。

【appium】appium自動化入門之環境搭建（中）

哎嘿，沒想到我更新了吧書接上文【appium】appium自動化入門之環境搭建（上）

【appium】appium自動化入門之環境搭建（上）

大家國慶快樂，雖是遲來的快樂，但是真摯的祝福因假期瘋玩，就把從零開始的軟體測試給咕咕咕了，對此我深感抱歉，並表示下次還敢，

【LeetCode】4. Median of Two Sorted Arrays（思維）

【題意】給兩個有序陣列，尋找兩個陣列組成後的中位數，要求時間複雜度為O(log(n+m))。

【轉】git 2.27.0安裝教程（Windows）

一、安裝教程： 1、首先去官網下載git安裝包，附網址： https://git-scm.com/downloads

【LeetCode】268. Missing Number 丟失的數字（Easy）（JAVA）

技術標籤：Leetcode演算法leetcodejava資料結構動態規劃【LeetCode】268. Missing Number 丟失的數字（Easy）（JAVA）

【LeetCode】338. Counting Bits 位元位計數（Medium）（JAVA）

技術標籤：Leetcode演算法leetcodejava資料結構面試【LeetCode】338. Counting Bits 位元位計數（Medium）（JAVA）

【LeetCode】337. House Robber III 打家劫舍 III（Medium）（JAVA）

技術標籤：Leetcodejavaleetcode演算法面試資料結構【LeetCode】337. House Robber III 打家劫舍 III（Medium）（JAVA）

【LeetCode】389. Find the Difference 找不同（Easy）（JAVA）每日一題

技術標籤：LeetCode 每日一題字串leetcodejava演算法資料結構【LeetCode】389. Find the Difference 找不同（Easy）（JAVA）

【LeetCode】332. Reconstruct Itinerary 重新安排行程（Medium）（JAVA）

技術標籤：Leetcodejava演算法leetcode面試資料結構【LeetCode】332. Reconstruct Itinerary 重新安排行程（Medium）（JAVA）

【java】vertx從入門到放棄——入門（一）

技術標籤：javavert.xjavavert.x 什麼是vert.x，請自行去官網翻譯~ 首先需要依賴vertx

計算機基礎小知識【1】：網際網路、因特網、全球資訊網（web）關係

計算機基礎小知識【1】：網際網路、因特網、全球資訊網（web）關係關係：網際網路包含因特網，因特網包含全球資訊網。

【LeetCode】377. Combination Sum IV 組合總和 Ⅳ（Medium）（JAVA）

技術標籤：Leetcodeleetcodejava演算法面試資料結構【LeetCode】377. Combination Sum IV 組合總和 Ⅳ（Medium）（JAVA）

【筆記】使用PCA對資料進行降噪（理解）

使用PCA對資料進行降噪（使用手寫數字例項）

相關推薦