人工智慧學習筆記（一）

阿新 • • 發佈：2018-12-02

一、什麼是資訊？

資訊就是那些把我們不清楚的事情闡明的描述。

二、常見的演算法：

“氣泡排序”演算法，“八皇后問題”演算法，MD5演算法，ZIP2壓縮演算法

三、什麼是資料探勘？

首先是有一定量的資料作為研究物件，挖掘——顧名思義，說明有一些東西並不是放在表面上一眼就能看明白，要進行深度的研究、對比、甄別等工作，最終從中找到規律或知識，“挖掘”這個詞用的很形象。

四、什麼是機器學習—

—我們先想想人類學習的目的是什麼？是掌握知識，掌握能力，掌握技巧，最終能夠進行比較複雜或者高要求的工作。那麼類比一下機器，我們讓機器學習，不管學習什麼，最終目的都是讓它獨立或至少半獨立地進行相對複雜或者高要求的工作。我們在這裡提到的機器學習更多是讓機器幫助人類做一些大規模的資料識別、分揀、規律總結等人類做起來比較花時間的事情。

五、十大經典演算法

    一、C4.5
    C4.5，是機器學習演算法中的一個分類決策樹演算法，它是決策樹(決策樹也就是做決策的節點間的組織方式像一棵樹，其實是一個倒樹)核心演算法ID3的改進演算法，所以基本上了解了一半決策樹構造方法就能構造它。
    決策樹構造方法其實就是每次選擇一個好的特徵以及分裂點作為當前節點的分類條件。
    C4.5相比於ID3改進的地方有：
    1、用資訊增益率來選擇屬性。ID3選擇屬性用的是子樹的資訊增益，這裡可以用很多方法來定義資訊，ID3使用的是熵(entropy，熵是一種不純度度量準則),也就是熵的變化值.而C4.5用的是資訊增益率。對，區別就在於一個是資訊增益，一個是資訊增益率。一般來說率就是用來取平衡用的，就像方差起的作用差不多，比如有兩個跑步的人，一個起點是10m/s的人、其10s後為20m/s；另一個人起速是1m/s、其1s後為2m/s。如果緊緊算差值那麼兩個差距就很大了，如果使用速度增加率(加速度，即都是為1m/s^2)來衡量，2個人就是一樣的加速度。因此，C4.5克服了ID3用資訊增益選擇屬性時偏向選擇取值多的屬性的不足。
    2、在樹構造過程中進行剪枝，在構造決策樹的時候，那些掛著幾個元素的節點，不考慮最好，不然容易導致overfitting。
    3、對非離散資料也能處理。
    4、能夠對不完整資料進行處理。 
    二、The k-means algorithm 即K-Means演算法k-means algorithm演算法是一個聚類演算法，把n的物件根據他們的屬性分為k個分割(k < n)。
    它與處理混合正態分佈的最大期望演算法(本十大演算法第五條)很相似，因為他們都試圖找到資料中自然聚類的中心。
    它假設物件屬性來自於空間向量，並且目標是使各個群組內部的均方誤差總和最小。
     三、 Support vector machines支援向量機，英文為Support Vector Machine，簡稱SV機（論文中一般簡稱SVM）。
     它是一種監督式學習的方法，它廣泛的應用於統計分類以及迴歸分析中。支援向量機將向量對映到一個更高維的空間裡，在這個空間裡建立有一個最大間隔超平面。
     在分開資料的超平面的兩邊建有兩個互相平行的超平面，分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。
     一個極好的指南是C.J.C Burges的《模式識別支援向量機指南》。van der Walt 和 Barnard 將支援向量機和其他分類器進行了比較。 
     四、The Apriori algorithmApriori演算法是一種最有影響的挖掘布林關聯規則頻繁項集的演算法。
     其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布林關聯規則。
     在這裡，所有支援度大於最小支援度的項集稱為頻繁項集，簡稱頻集。 
     五、最大期望(EM)演算法
     在統計計算中，最大期望 （EM，Expectation–Maximization）演算法是在概率（probabilistic）模型中尋找引數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（Latent Variabl）。
     最大期望經常用在機器學習和計算機視覺的資料集聚（Data Clustering）領域。 
     六、 PageRank
     PageRank是Google演算法的重要內容。2001年9月被授予美國專利，專利人是Google創始人之一拉里•佩奇（Larry Page）。因此，PageRank裡的page不是指網頁，而是指佩奇，即這個等級方法是以佩奇來命名的。
     PageRank根據網站的外部連結和內部連結的數量和質量，衡量網站的價值。PageRank背後的概念是，每個到頁面的連結都是對該頁面的一次投票，被連結的越多，就意味著被其他網站投票越多。這個就是所謂的“連結流行度”——衡量多少人願意將他們的網站和你的網站掛鉤。
     PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多，一般判斷這篇論文的權威性就越高。 
     七、AdaBoost
     Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器 (強分類器)。
     其演算法本身是通過改變資料分佈來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的準確率，來確定每個樣本的權值。
     將修改過權值的新資料集送給下層分類器進行訓練，最後將每次訓練得到的分類器融合起來，作為最後的決策分類器。 
     八、 kNN: k-nearest neighbor classificationK最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。
     該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。
      九、 Naive Bayes
      在眾多的分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBC）。 
      樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的引數很少，對缺失資料不太敏感，演算法也比較簡單。
      理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為NBC模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。
      在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的效能最為良好。 
      
      十、 CART: 分類與迴歸樹
      CART, Classification and Regression Trees。
      在分類樹下面有兩個關鍵的思想：第一個是關於遞迴地劃分自變數空間的想法；第二個想法是用驗證資料進行剪枝。

六、機器學習

      1、機器學習，就是在任務T上，隨經驗E的增加，效果P隨之增加。 2、機器學習的過程是通過大量資料的輸入，生成一個模型，再利用這個生成的模型，實現對結果的預測。3、龐大的神經網路是基於神經元結構的，是輸入乘以權重，再求和，再過非線性函式的過程。 4、機器學習的演算法可以大致分為如下幾類：監督學習和非監督式學習、半監督學習，整合學習、深度學習、和強化學習

人工智慧學習筆記（一）

一、什麼是資訊？資訊就是那些把我們不清楚的事情闡明的描述。二、常見的演算法： “氣泡排序”演算法，“八皇后問題”演算法，MD5演算法，ZIP2壓縮演算法三、什麼是資料探勘？首先是有一定量的資料作為研究物件，挖掘——顧

人工智慧中小樣本問題相關的系列模型演變及學習筆記（一）：元學習、小樣本學習

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】本來只想記一下GAN的筆記，沒想到發現了一個大宇宙，很多個人並不擅長，主要是整理歸納！一、Meta Learning 元學習綜述 Meta Learning，又稱為 l

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

Scala學習筆記（一）編程基礎

大數據上一個 extends 移除 condition api arr 調用方法 tab 強烈推薦參考該課程：http://www.runoob.com/scala/scala-tutorial.html 1. Scala概述 1.1. 什麽是Scala Scala

3D Game Programming withDX11 學習筆記（一）數學知識總結

表示圖形 http 根據轉置元素 material -s com 　　在圖形學中，數學是不可或缺的一部分，所以本書最開始的部分就是數學知識的復習。在圖形學中，最常用的是矢量和矩陣，所以我根據前面三個章節的數學知識，總結一下數學知識。一、矢量　數學中的矢量，擁有

系統分析與設計學習筆記（一）

學習掌握應該溝通基本最終表示對象毫無為什麽要學習這門課程？　　“擁有一把錘子未必能成為建築師”。這門課程學習的是面向對象分析和設計的核心技能的重要工具。對於使用面向對象技術和語言來，創建設計良好、健壯且可維護的軟件來說，這門課程所

最大熵學習筆記（一）預備知識

color wrap targe dsm entropy plus 文件 eight 相關鏈接生活中我們常常聽到人們說“不要把雞蛋放到一個籃子裏”。這樣能夠減少風險。深究一下，這是為什麽呢？事實上，這裏邊包括了所謂的最大熵原理（The Maxim

Nginx模塊之Nginx-Ts-Module學習筆記（一）搶險體驗

學習筆記體驗 nginx模塊 int images clas tps gin issues 1、通過HTTP接收MPEG-TS2、生產和管理Live HLS 3、按照官方的編譯和配置，當然了我是第一次編譯沒有通過，在作者重新調整下，編譯成功，感謝：@arut https:

jq學習筆記（一）

簡單 ren 當前一個 text 互斥元素如果 property 1 .attr() 與 .removeAttr()方法 - atr()方法用來獲取和設置元素屬性 attr()有4個表達式： attr(傳入屬性名)：獲取屬性的值 attr(屬性名, 屬性

Redis學習筆記（一）關於在windows64位環境下的安裝學習使用

客戶端 mas key-value 錯誤 services 再次基準 alt 類型前言由於工作需要，目前我正在學習使用Redis。我當時學習Redis就從網上下載了點資料就開始學習了。入門看的是《REDIS入門指南》，這本書個人覺得很適合新手用來學習接觸。根據書上的引

Memcache 學習筆記（一）----Memcache — Linux部署

工作 apach sch trick 解壓 font ash 一個鍵值　　Memcache 一、Memcache簡介（內容摘自 --百度百科）　　memcache是一套分布式的高速緩存系統，由LiveJournal的Brad Fitzpatrick開發，但目前被許多網

HtmlParser學習筆記（一）-- 創建Parser對象

nco 修改英文 text aid 意思 charset 網頁第一個首先，介紹下HTMLParser的核心類，org.htmlparser.Parser類，這個類實際完成了對於HTML頁面的分析工作。主要的構造函數如下： public Parser ();

Python 學習筆記（一）

pytho oat 變量情況 class 弱類型定義寫代碼基本上為什麽學習Python?因為Python 的用處太多了。本想學會一們語言就好好的維持下去，但是最近Python太火啦，什麽人工智能、網絡爬蟲的，耳濡目染的，心想多學習一些東西總是好的，於是就抽空學習

thphp5.0學習筆記（一）

mic tel 序號 app clas world char p s 庫類 1.目錄結構：其中thinkphp子目錄是框架核心目錄 thinkphp結構： 2.入口文件默認自帶的入口文件位於public/index.php 應用目錄為application，其結構

Unity Shader學習筆記（一）坐標變換

directx 渲染系列約束 shade ace cnblogs 相機它的基本問題　　試想我們的美術做了一個3D模型，然後渲染引擎把模型渲染到屏幕上。我們還可以選定不同的視角，模擬不同的光照條件去觀察模型。現在來分析一下這個過程。如果說我們把這個過程看成一個函數，

Django學習筆記（一）——安裝，創建項目,配置

lvs csv oot url root import 方式配置文件函數瘋狂的暑假學習之 Django學習筆記（一）教材書《The Django Book》視頻：csvt Django視頻 1.創建項目

ELK學習筆記（一）安裝Elasticsearch、Kibana、Logstash和X-Pack

成功前端功能靈活日誌分析傳統開發人員收集還在最近在學習ELK的時候踩了不少的坑，特此寫個筆記記錄下學習過程。日誌主要包括系統日誌、應用程序日誌和安全日誌。系統運維和開發人員可以通過日誌了解服務器軟硬件信息、檢查配置過程中的錯誤及錯誤發生的原因。經常分析日

移動端學習筆記（一）

標簽設置裏的 none trait 關於 http width 面具屏幕 <meta name="viewport" content="width=device-width,user-scalable=no,initial-scale=.5,minimum-s

mongoDB學習筆記（一）

介紹 tle 狀態負載 tutorial dir 基於管理集合說明： MongoDB由databases組成，database由collections組成，collection由documents組成，document由fileds組成。MongoDB是異步寫數據

c 語言學習筆記（一）基礎

lac alert https 內容 con 標記 prime c++ prime c基礎近期工作上有對C語言算法上的需求，所以要學C，上學的時候沒學過，只學過半年的Java（我是專升本，本科學的材料），2015年工作後也學過C，那時候的需求是能看懂就可以，也就沒深入研究

人工智慧學習筆記（一）

相關推薦