利用主成分分析構建股票指數

阿新 • • 發佈：2022-05-04

作者：謝佳標

中國R語言大會講師，高階資料分析師，8年以上資料探勘建模工作實戰經驗

https://ask.hellobi.com/blog/xiejiabiao/4288

利用主成分分析構造你個人的股市指數，然後分析你的私家指數和該股市常用官方股票指數的相關性。

接用ML_for_Hackers-master 書中的資料。

> prices<-read.csv("stock_prices.csv")
> prices[1,]
        Date Stock Close
1 2011-05-25   DTE 51.12
> # 原始資料集並不是我們喜歡使用的格式，因此需要進行預處理。
> # 第一步，把資料集中的時間戳轉換為正確編碼的日期變數。這要用到lubridate包中的ymd函式
> # install.packages("lubridate")
> library(lubridate)
> prices<-transform(prices,Date=ymd(Date))
> # 一旦完成這一步，就能適用reshape函式庫中的cast函式
> library(reshape)

Attaching package: ‘reshape’

The following object is masked from ‘package:lubridate’:

    stamp

> date.stock.matrix<-cast(prices,Date~Stock,value="Close")
> which(complete.cases(date.stock.matrix)==F) # 22 875條記錄有缺失值
[1]  22 875
> # 分析了這個生成結--巨大的日期-股票矩陣之後，我們注意到缺失了一些元素。
> date.stock.matrix[22,];date.stock.matrix[875,]
         Date ADC AFL ARKR AZPN CLFD DDR DTE ENDP FLWS FR GMXR GPC HE ISSC ISSI KSS MTSC
22 2002-02-01  NA  NA   NA   NA   NA  19  NA   NA   NA NA   NA  NA NA   NA   NA  NA   NA
   NWN ODFL PARL RELV SIGM STT TRIB UTR
22  NA   NA   NA   NA   NA  NA   NA  NA
          Date  ADC   AFL  ARKR AZPN CLFD DDR   DTE  ENDP FLWS    FR  GMXR   GPC    HE
875 2005-06-22 30.4 43.49 26.56 5.76 1.47  NA 46.89 25.88 7.23 41.45 13.45 42.76 27.21
     ISSC ISSI   KSS  MTSC   NWN  ODFL  PARL RELV SIGM   STT TRIB   UTR
875 35.42 7.22 56.06 34.54 36.87 27.74 28.96 10.3 8.12 49.22 6.69 49.98
> # 因此回到最初的prices資料集，刪除那些缺失元素的資料，再執行cast函式：
> prices<-subset(prices,Date!=ymd('2002-02-01'))
> prices<-subset(prices,Stock !='DDR')
> date.stock.matrix<-cast(prices,Date~Stock,value="Close")
> which(complete.cases(date.stock.matrix)==F)  
#0
integer(0)
> # 接下來可以適用cor函式來找到這個矩陣中所有數字列之間的相關性。然後將相關性矩陣轉換成一個數值向量，並且畫一個相關性密度圖，
> # 以此來獲得兩個直觀認識：a）相關性的均值；b）低相關性出現的頻率。
> cor.matrix<-cor(date.stock.matrix[,2:ncol(date.stock.matrix)])
> correlations<-as.numeric(cor.matrix)
> library(ggplot2)
> ggplot(data.frame(Correlation=correlations),
+        aes(x=Correlation,fill=1))+
+   geom_density()+opts(legend.position='none')

> #正如密度圖所示，大部分相關性是正數，因此PCA適合用於這份資料集.
> # 我們適用princomp函式來執行PCA：
> pca<-princomp(date.stock.matrix[,2:ncol(date.stock.matrix)])
> # 我們只對第一主成份感興趣，所以只把pca載荷的第一列提取出來：
> principal.component<-pca$loadings[,1]
> # 完成這些之後，我們可以分析載荷的密度圖，直觀地瞭解第一主成份是如何形成的。
> loadings<-as.numeric(principal.component)
> ggplot(data.frame(Loadings=loadings),
+        aes(x=Loadings,fill=1))+
+   geom_density()+opts(legend.position="none")

> # 這個結果有點讓人疑惑，因為載荷有一個相當不錯的分佈，但是幾乎全是負數。它實際上是個很小的麻煩，我們用一行程式碼就能解決。
> # 到目前為止我們獲得了主成分，接下來可以把這些資料總結成一列了。可以使用predict函式完成這個目標：
> market.index<-predict(pca)[,1]
> # 如何才能知道這些預測值的效果呢？幸運的是，對這個例項我們可以很容易地判斷結果好壞

> # ，因為可以把結果和著名的市場指數做比較。在本章中，我們用道瓊斯指數（Down Jones Index DJI).
> dji.prices<-read.csv("DJI.csv")
> dji.prices<-transform(dji.prices,Date=ymd(Date))
> # 因為使用整個DJI執行的時間比我們預想的要長很多，所以需要取一個它的自己，僅僅獲得我們感興趣的那些日期。
> dji.prices<-subset(dji.prices,Date>ymd('2001-12-31'))
> dji.prices<-subset(dji.prices,Date !=ymd('2002-02-01'))
> # 然後，提取DJI中我們感興趣的部分，也就是每日收盤價格和我們記錄過的那些日期。
> # 因為它們的順序和我們現在的資料集相反，用rev函式反轉它們即可：
> dji<-with(dji.prices,rev(Close))
> dates<-with(dji.prices,rev(Date))
> # 現在我們可以繪製一些簡單的圖，將使用PCA生成的市場指數和DJI相比較：
> comparison<-data.frame(Date=dates,MarketIndex=market.index,DJI=dji)
> ggplot(comparison,aes(x=MarketIndex,y=DJI))+
+   geom_point()+geom_smooth(method="lm",se=FALSE)

> #從圖可以看出，那些之前看上去煩人的負載荷，真的成為了麻煩的源頭：我們的指數和DJI付相關。
> # 但是，我們可以很容易地解決這個麻煩。只需要對指數乘以-1，即可生成一個和DJI正相關的指數
> comparison<-transform(comparison,MarketIndex=-1*MarketIndex)
> # 現在可以再嘗試一次進行比較：
> ggplot(comparison,aes(x=MarketIndex,y=DJI))+
+   geom_point()+geom_smooth(method="lm",se=FALSE)
+   geom_point()+geom_line(
)

> #如圖，我們已經修正了指數的方向，並且它看上去和DJI真的很匹配。
> # 剩下的最後一件事情，就是獲得我們的指數隨著時間推移與DJI的趨勢保持一直的程度。
> # 首先，使用melt函式獲得一個數據框，它可以很容易地一次性對兩個指標進行視覺化。
> # 然後，我們對每個指數活出一條以日期為x軸，以價格為y軸的線。
> alt.comparison<-melt(comparison,id.vars="Date")
> names(alt.comparison)<-c("Date","Index","Price")
> ggplot(alt.comparison,aes(x=Date,y=Price,group=Index,color=Index))+
+   geom_point()+geom_line()

> # 這一次結果並不是很好，因為DJI都是很高的值，而我們的指數都是很小的值，但是可以使用scale函式解決這個問題。
> comparison$MarketIndex<-scale(comparison$MarketIndex)
> comparison$DJI<-scale(comparison$DJI)
> alt.comparison<-melt(comparison,id.vars="Date")
> names(alt.comparison)<-c("Date","Index","Price")
> ggplot(alt.comparison,aes(x=Date,y=Price,group=Index,color=Index))+
+   geom_point()+geom_line()

> # 看上去與DJI的趨勢保持得相當好。總之，用PCA真的能夠產生一副股票價格的趨勢圖。

利用主成分分析構建股票指數

作者：謝佳標中國R語言大會講師，高階資料分析師，8年以上資料探勘建模工作實戰經驗

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮各位讀者好，在這片文章中我們嘗試使用sklearn庫比較k-means聚類演算法和主成分分析（PCA）在影象壓縮上的實現和結果。壓縮影象的效果通過佔用的減少比例以及

主成分分析PCA資料降維原理及python應用（葡萄酒案例分析）

目錄主成分分析（PCA）——以葡萄酒資料集分類為例　　1、認識PCA 　　　　（1）簡介

9. 主成分分析法

城市環境生態化是城市發展的必然趁勢，表現為社會、經濟、環境與生態全方位的現代化水平，一個符合生態規律的生態城市應該是結構合理、功能高效和關係協調的城市生態系統。所謂結構合理是指適度的人口密度，合理

運用sklearn進行主成分分析(PCA)程式碼實現

運用sklearn進行主成分分析(PCA)程式碼實現　　一、前言及回顧　　二、sklearn的PCA類介紹

主成分分析PCA

1.PCA的理解一個非監督的機器學習演算法（本質：從一個座標系轉變為另外一個座標系）

機器學習中的數學（六）：線性判別分析（LDA）, 主成分分析(PCA)

前言如果學習分類演算法，最好從線性的入手，線性分類器最簡單的就是LDA，它可以看做是簡化版的SVM，如果想理解SVM這種分類器，那理解LDA就是很有必要的了。談到LDA，就不得不談談PCA，PCA是一個和LDA非

java spark 主成分分析演算法（pca）

技術標籤：sparkspark演算法大資料pca降維配置配置請看我的其他文章點選跳轉

PCA主成分分析/LDA線性判別分析/CCA典型相關分析對比

技術標籤：資料分析目錄簡介和標準相關分析的區別參考歡迎使用Markdown編輯器新的改變功能快捷鍵合理的建立標題，有助於目錄的生成如何改變文字的樣式插入連結與圖片如何插入一段漂亮的程式碼片生成一個適合

基於Pyspark進行PCA主成分分析

技術標籤：推薦演算法專欄資料探勘深度學習瞭解更多內容，歡迎關注公眾號：livandata

主成分分析學習筆記

1 主成分分析的應用主要用在資料降維、高維資料的探索與視覺化、資料壓縮、資料預處理。

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

【資料分析】基於matlab PCA主成分分析【含Matlab原始碼 466期】

一、簡介 PCA（PrincipalComponents Analysis）即主成分分析，是影象處理中經常用到的降維方法，大家知道，我們在處理有關數字影象處理方面的問題時，比如經常用的影象的查詢問題，在一個幾萬或者幾百萬甚至更大的資

14--主成分分析

主成分分析主成分分析（PCA）是一種資料降維技巧，它能將大量相關變數轉化為一組很少的不相關變量，這些無關變數稱為主成分。例如，使用PCA可將30個相關（很可能冗餘）的環境變數轉化為5個無關的成分變數，並且儘可

主成分分析

主成分分析的原理主成分分析是將眾多的變數轉換為少數幾個不相關的綜合變數，同時不影響原來變數反映的資訊，實現數學降維。

機器學習——PCA(主成分分析)(轉載)

主成分分析（Principal components analysis，以下簡稱PCA）是最常用的降維方法之一，在資料壓縮和消除冗餘方面具有廣泛的應用，本文由淺入深的對其降維原理進行了詳細總結。

3、主成分分析

主成分分析主成分分析（Principal Components Analysis，PCA）是一種資料降維技術，通過正交變換將一組相關性高的變數轉換為較少的彼此獨立、互不相關的變數，從而減少資料的維數。

Python機器學習的練習七：K-Means聚類和主成分分析

這部分練習涵蓋兩個吸引人的話題：K-Means聚類和主成分分析（PCA），K-Means和PCA都是無監督學習技術的例子，無監督學習問題沒有為我們提供任何標籤或者目標去學習做出預測，所以無監督演算法試圖從資料本身中學習一

主成分分析降維（MNIST資料集）

今天看了用主成分分析簡化資料，就順便用MNIST資料集做了下實驗，想直觀地看一下效果，並通過完成這個小demo深入理解下原理。

PCA（主成分分析）

PCA（主成分分析）預備知識線性代數：線性代數的本質樣本均值：\\(\\bar x = \\frac{1}{n}\\sum_{i=1}^n x_i\\)

利用主成分分析構建股票指數

相關推薦