用R語言預測股票價格漲跌—基於KNN分類器

阿新 • • 發佈：2022-05-04

K最近鄰(kNN，k-NearestNeighbor)分類演算法是資料探勘分類技術中最簡單的方法。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。 kNN演算法的核心思想是如果一個樣本在特徵空間相鄰的樣本中的大多數屬中的k個最於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時，只與極少量的相鄰樣本有關。由於kNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對於類域的交叉或重疊較多的待分樣本集來說，kNN方法較其他方法更為適合。

kNN演算法屬於非參方法，即不需要假設資料服從某種分佈。

kNN演算法R語言實現

載入程式包&讀入資料

library(class)

library(dplyr)

library(lubridate)

library(scatterplot3d)

stocks <- read.csv(file.choose())

資料檢視

head(stocks)

summary(stocks[,-1])

cl <- stocks$Increase 
#已知漲跌

colors <- 3-cl

scatterplot3d(stocks[,2:4],color=colors, col.axis=5,            
  col.grid="lightblue", main="scatterplot3d - stocks", pch=20)

資料包由Date、Apple、Google、MSFT、Increase五列資料構成，Increase列表示的是蘋果股價當日的漲跌情況。 3D散點圖中，紅色表示股價上漲，綠色表示下跌。

資料集劃分

stocks$Date <- ymd(stocks$Date)

stocksTrain <- year(stocks$Date) < 2014

predictors <- cbind(lag(stocks$Apple, default = 210.73), 
                    lag(stocks$Google, default = 619.98),                    lag(stocks$MSFT, default = 30.48))

colnames(predictors)=c("Apple","Google","MSFT")

train <- predictors[stocksTrain, ] 
#2014年以前的資料為訓練資料

test <- predictors[!stocksTrain, ] 
#2014年以後的資料為測試資料

par(mfrow=c(3,2))

acf(stocks$Apple)

#檢視自相關圖

pacf(stocks$Apple)

#檢視偏相關圖

acf(stocks$Google)

pacf(stocks$Google)

acf(stocks$MSFT)

pacf(stocks$MSFT)

進行KNN演算法分類

cl <- stocks$Increase[stocksTrain] 
#已知漲跌

prediction <- knn(train, test, cl, k = 1) 
  #建立kNN預測模型 

table(prediction, stocks$Increase[!stocksTrain])

  #檢視預測情況

mean(prediction == stocks$Increase[!stocksTrain])  #計算準確率

## [1] 0.5076923

k=1時，基於KNN分類器的蘋果股票價格預測準確率只有50.8%，略強於拋硬幣。

通過蒙特卡洛模擬選出最好的k值

accuracy <- rep(0, 10)

k <- 1:10for(x in k){
  prediction <- knn(predictors[stocksTrain, ], predictors[!stocksTrain, ],                    stocks$Increase[stocksTrain], k = x)


  accuracy[x] <- mean(prediction == stocks$Increase[!stocksTrain])}plot(k, accuracy, type = 'b', col=125,lwd=3)

通過模擬可以發現，當k = 5時，模型的準確率達到了52.5%。此外，我還用BP神經網路做了對比測試，BP神經網路模型的預測準確率只有51.5%，可見，基於KNN分類器的股票價格預測模型既簡單又實用。

用R語言預測股票價格漲跌—基於KNN分類器

K最近鄰(kNN，k-NearestNeighbor)分類演算法是資料探勘分類技術中最簡單的方法。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。

用R語言做鑽石價格預測

作者：夏爾康 https://ask.hellobi.com/blog/xiaerkang/4424 1.1問題描述和目標因為鑽石的價格定價取決於重量，顏色，刀工等影響，價格該如何制定合理，為公司搶佔市場制定價格提供依據。

python用線性迴歸預測股票價格的實現程式碼

線性迴歸在整個財務中廣泛應用於眾多應用程式中。在之前的教程中，我們使用普通最小二乘法（OLS）計算了公司的beta與相對索引的比較。現在，我們將使用線性迴歸來估計股票價格。

機器學習演算法的R語言實現：樸素貝葉斯分類器

1、引子樸素貝葉斯方法是一種使用先驗概率去計算後驗概率的方法，其中樸素的意思實際上指的是一個假設條件，後面在舉例中說明。本人以為，純粹的數學推導固然有其嚴密性、邏輯性的特點，但對我等非數學專業的人來

用R語言實現歐式距離的兩種標準化

第一種標準化轉換公式：x*=D-1(x-µ)，求出樣本x的期望和其協方差矩陣的對角矩陣的逆即可。

用R語言寫爬蟲收集整理所有開放期刊影響因子及審稿時長

昨天發了使用R語言寫爬蟲解析peerJ的細節教程，peerJ期刊探索但是感興趣的不多。

用R語言做邏輯迴歸

用R語言做邏輯迴歸 jmzeng([email protected]) 迴歸的本質是建立一個模型用來預測，而邏輯迴歸的獨特性在於，預測的結果是隻能有兩種，true or false

使用RNN預測股票價格系列二

在前文教程中，我們想繼續有關股票價格預測的主題，並賦予在系列1中建立的具有對多個股票做出響應能力的RNN。為了區分不同價格序列之間相關的模式，我們使用股票訊號嵌入向量作為輸入的一部分。

有趣的應用 | 使用RNN預測股票價格系列一

01 概述我們將解釋如何建立一個有LSTM單元的RNN模型來預測S＆P500指數的價格。資料集可以從Yahoo!下載。在例子中，使用了從1950年1月3日（Yahoo! Finance可以追溯到的最大日期）的S＆P 500資料到2017年6月23日。

用R語言做時間序列分析（附資料集和原始碼）

時間序列（time series）是一系列有序的資料。通常是等時間間隔的取樣資料。如果不是等間隔，則一般會標註每個資料點的時間刻度。

用R語言對城管事件資料分析

作者：夏爾康 https://ask.hellobi.com/blog/xiaerkang/3975 這次使用主成分分析主要目的並不是降維，而是分析城管資料中的事件類別之間是否存在關係，當然，城管事件型別有好幾百，這裡就只選取從去年九月到目前發生

用R語言構建神經網路模型評估銀行客戶信用的好壞

隨著銀行業務的擴充套件、P2P的出現、第三方支付提供個人貸、以及X寶等借貸平臺的出現，使得個人信用評估在銀行、第三方支付、商業借貸平臺等上的應用越來越重要。本文利用BP人工神經網路對商業銀行鍼對個人的信用等

用R語言作社群關係分析

在反映大量人群或事物之間的關係時，社交網路圖可以清晰的展示’群體’的內含和外延。例如，群體的規模、核心、與其他群體的交疊情況。

用R語言實現對不平衡資料的四種處理方法

在對不平衡的分類資料集進行建模時，機器學習演算法可能並不穩定，其預測結果甚至可能是有偏的，而預測精度此時也變得帶有誤導性。那麼，這種結果是為何發生的呢？到底是什麼因素影響了這些演算法的表現？

完整的R語言預測建模例項-從資料清理到建模預測

本文使用Kaggle上的一個公開資料集，從資料匯入，清理整理一直介紹到最後資料多個演算法建模，交叉驗證以及多個預測模型的比較全過程，注重在實際資料建模過程中的實際問題和挑戰，主要包括以下五個方面的挑戰：

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

原文連結：http://tecdat.cn/?p=17950 在本文中，我們使用了邏輯迴歸、決策樹和隨機森林模型來對信用資料集進行分類預測並比較了它們的效能。資料集是

R語言用naiveBayes進行預測時，predict顯示 factor(0) Levels:

技術標籤：r語言資料探勘 Run code： HouseVotes84 <- read.csv("xxxx.csv",header = T)

基於R語言的時間序列分析預測

資料來源： R語言自帶 Nile 資料集（尼羅河流量）分析工具：R-3.5.0 & Rstudio-1.1.453

拓端tecdat：R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資

原文連結：http://tecdat.cn/?p=24141 原文出處：拓端資料部落公眾號背景貝葉斯模型提供了變數選擇技術，確保變數選擇的可靠性。對社會經濟因素如何影響收入和工資的研究為應用這些技術提供了充分的機會，同時也為

拓端tecdat|R語言用RNN迴圈神經網路、LSTM長短期記憶網路實現時間序列長期利率預測

原文連結：http://tecdat.cn/?p=25133 原文出處：拓端資料部落公眾號 2017 年年中，R 推出了Keras包，這是一個在 Tensorflow 之上執行的綜合庫，具有 CPU 和 GPU 功能。本文將演示如何在 R 中使用LSTM實現時間序列預

用R語言預測股票價格漲跌—基於KNN分類器

kNN演算法R語言實現

相關推薦