進軍機器學習--序言

阿新 • • 發佈：2018-11-10

我們之所以建模, 主要的價值在於預測. 學習統計時, 看到各種模型,
線性迴歸,多元線性迴歸, 曲線迴歸等等, 都是為了建模.

但是模型是否好呢? 我們可以檢視R方, 調和R方.

機器學習的到來, 為統計打開了另一扇大門. 交叉驗證, 檢視預測準確度.

如果說現代統計學是一門循序漸進, 系統完善的科學, 機器學習則是各種流派,
黑貓白貓抓到老鼠就是好貓. 英雄不問出處.

機器學習的到來, 讓結果說話, 而不是所謂的邏輯或者假定. 存在的就是合理的,
路徑可能沒有發現, 終究會發現. 有可能是另一個語言系統中了.

模擬一套資料¶

In [4]:

f = function(x) 3 + 2*x
x = rnorm(100)
y = f(x) + 0.5*rnorm(100)
dat =data.frame(x=x,y=y)
head(dat)

x y

0.7656238 4.5241703
-1.2045951 0.1475003
1.8686146 6.6297829
0.7531363 4.9709326
-0.6847217 1.7381070
-0.7545989 1.4639742

使用資料還原x和y的關係¶

In [5]:

mod = lm(y~x)
summary(mod)

Call:
lm(formula = y ~ x)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.89810 -0.33549  0.01217  0.30443  1.03068 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.99220    0.04318   69.29   <2e-16 ***
x            1.90101    0.04506   42.19   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4266 on 98 degrees of freedom
Multiple R-squared:  0.9478,    Adjusted R-squared:  0.9473 
F-statistic:  1780 on 1 and 98 DF,  p-value: < 2.2e-16

模型引數

In [6]:

coef(mod)

(Intercept): 2.99220004612752
x; 1.9010058887296

公式: $$ y = 2.99 + 1.90*x $$

可以看出來, 通過資料還原x和y的關係, 和真是的x和y的關係比較接近.

作圖: 資料和模型的關係¶ {#作圖:-資料和模型的關係}

In [7]:

plot(x,y,main="this is a plot")
abline(coef(mod),col="blue")

使用構建好的模型預測¶

預測x=-1和0.5時y的值

In [8]:

predict(mod,list(x=c(-1,0.5)),se.fit = TRUE)

$fit

1: 1.09119415739792
2; 3.94270299049232

$se.fit

1: 0.0670845693041622
2; 0.0454934964906985

$df

98
$residual.scale

0.426558713436954

In [ ]:

進軍機器學習--序言

我們之所以建模, 主要的價值在於預測. 學習統計時, 看到各種模型, 線性迴歸,多元線性迴歸, 曲線迴歸等等, 都是為了建模. 但是模型是否好呢? 我們可以檢視R方, 調和R方. 機器學習的到來, 為統計打開了另一扇大門. 交叉驗證, 檢視預測準確度. 如果說現代統計學是一門循序

《機器學習-西瓜書》-周志華-學習筆記系列（1）--序言、前言和主要符號表

寫在前面的話：自己於今天（2018年9月4日）看完了機器學習-西瓜書-周志華-清華大學出版社書籍，對於這本書的評價就是：好書，自己可以在每一個字裡行間感受到作者的用心，每當看到一個不懂的名詞的時候，作者都會用通俗的例子來講解，遇到公式的時候，也會進行推導，側邊欄的一些說明資訊往往能帶給自己

機器學習第三練：為慈善機構尋找捐助者

alt earch .get 變量照相標簽 log 比較 random 這個任務同樣是在Jupyter Notebook中完成，項目目的是通過前面的所有特征列，當然去掉序號列，然後預測最後一列，收入‘income‘，究竟是大於50K，還是小於等於50K. 第一

機器學習筆記（Washington University）- Regression Specialization-week five

ril ... des stl it is idg evaluate date lec 1. Feature selection Sometimes, we need to decrease the number of features Efficiency: With f

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

機器學習筆記（Washington University）- Regression Specialization-week six

lar fec space cti different only similar ant var 1. Fit locally If the true model changes much, we want to fit our function locally to di

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用趨勢試圖重復執行很大的一個點 3.4 選擇【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

機器學習公開課筆記第九周之大數據梯度下降算法

機器學習 nbsp gradient min 三種依次再看獲得 mini 一，隨機梯度下降法(Stochastic Gradient Descent) 當訓練集很大且使用普通梯度下降法(Batch Gradient Descent)時，因為每一次$\theta$

機器學習筆記（四）機器學習可行性分析

資料表示 image 隨機訓練樣本 -s mage 例如 lin 從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：用抽取到的樣本作為訓練

機器學習筆記（六）邏輯回歸

邏輯回歸 alt 表示結果不變改變最小值 nbsp 可能性一、邏輯回歸問題二分類的問題為是否的問題，由算出的分數值，經過sign函數輸出的是（+1，-1），想要輸出的結果為一個幾率值，則需要改變函數模型，其中，，則邏輯回歸的函數為二、邏輯回歸錯誤評價線性

Ng第十一課：機器學習系統的設計(Machine Learning System Design)

未能計算公式 pos 構建我們行動 mic 哪些指標 11.1 首先要做什麽 11.2 誤差分析 11.3 類偏斜的誤差度量 11.4 查全率和查準率之間的權衡 11.5 機器學習的數據 11.1 首先要做什麽在接下來的視頻將談到機器

機器學習筆記（八）非線性變換

nbsp 線性 logs 等於線性模型 images http 自己空間一、非線性問題對於線性不可分的數據資料，用線性模型分類，Ein會很大，相應的Ein=Eout的情況下，Eout也會很大，導致模型表現不好，此時應用非線性模型進行分類，例如：分類器模型是一個圓

juedaiyuer MNIST機器學習

examples website reading 計算機 python MNIST是一個入門級的計算機視覺數據集，它包含各種手寫數字圖片：1. MNIST數據集MNIST，是不是聽起來特高端大氣，不知道這個是什麽東西？== 手寫數字分類問題所要用到的（經典）MNIST數據集 ==M

機器學習最佳入門學習資料匯總

行程 view 概率應該 mic 時有挖掘書包發現譯者：teyla 原文作者：Jasonb 發布：2014-06-05 13:54:15 挑錯這篇文章的確很難寫，因為我希望它真正地對初學者有幫助。面前放著一張空白的紙，我坐下來問自己一個難題：面對一個對機器學習

機器學習筆記（Washington University）- Classification Specialization-week 3

read was lowest already start choose class sort pty 1. Quality metric Quality metric for the desicion tree is the classification error er

Ng第十七課：大規模機器學習(Large Scale Machine Learning)

在線 src 化簡 ima 機器學習 learning 大型數據集 machine cnblogs 17.1 大型數據集的學習 17.2 隨機梯度下降法 17.3 微型批量梯度下降 17.4 隨機梯度下降收斂 17.5 在線學習 17.6 映射化簡和數據並行

機器學習的防止過擬合方法

alt int 變化 http 處理提高 pro 無法 structure 過擬合 ??我們都知道，在進行數據挖掘或者機器學習模型建立的時候，因為在統計學習中，假設數據滿足獨立同分布（i.i.d，independently and identically distribu

Spark機器學習

tin ordering 自身優點根據最好 man ray ron 這篇文章參考《Spark快速大數據分析》，歸納spark技術核心的rdd及MLlib以及其中幾個重要庫的使用。初始化操作 spark shell: bin/pyspark 每個spark應用都由一

【問答集錦】人工智能／機器學習技術在電商場景下的應用

人工智能阿裏巴巴機器學習近年來阿裏不斷運用深度學習、強化學習等人工智能領域的相關知識優化自身電商平臺的搜索引擎和推薦系統，讓其從冷冰冰的系統不斷成長為越來越懂用戶的智能購物助手。　　日前，《盡在雙11》人工智能部分執筆人&阿裏技術專家樂田與仁重就 “人工智能／機器學習技術在電

中國mooc北京理工大學機器學習第一周（一）

lib odi pen 運行 numpy 聚類準則 ++ mooc 從今天開始跟著北理工的老師走一遍sklearn，在這裏做筆記。一、聚類 1、K-Means方法先貼代碼，所有數據的下載地址：http://pan.baidu.com/s/1hrO5NW4

進軍機器學習--序言

模擬一套資料¶

使用資料還原x和y的關係¶

作圖: 資料和模型的關係¶ {#作圖:-資料和模型的關係}

使用構建好的模型預測¶

相關推薦