1. 程式人生 > >Python機器學習和常見算法

Python機器學習和常見算法

下使用 案例 標準化 k-means聚類 一行 給定 ear 森林 缺失

Python機器學習

學習意味著通過學習或經驗獲得知識或技能。基於此,我們可以定義機器學習(ML)如下 -

它可以被定義為計算機科學領域,更具體地說是人工智能的應用,其為計算機系統提供了學習數據和從經驗改進而無需明確編程的能力。

基本上,機器學習的主要焦點是允許計算機自動學習而無需人為幹預。現在問題是如何開始和完成這種學習?它可以從數據的觀察開始。數據可以是一些示例,指令或一些直接經驗。然後在此輸入的基礎上,通過查找數據中的某些模式,機器可以做出更好的決策。

機器學習類型(ML)

機器學習算法幫助計算機系統學習而無需明確編程。這些算法分為監督或無監督。現在讓我們看一些算法 -

今天的分享就到此結束,如果我的分享對你有幫助,也歡迎大家轉發我的文章讓更多人受益,如果你在學習Python的過程當中有遇見任何問題,可以加入我的python交流學習qq群:250933691,多多交流問題,互幫互助,群裏有不錯的學習教程和開發工具。學習python有任何問題(學習方法,學習效率,如何就業),可以隨時來咨詢我

監督機器學習算法

這是最常用的機器學習算法。它被稱為監督,因為從訓練數據集學習算法的過程可以被認為是監督學習過程的教師。在這種ML算法中,可能的結果是已知的,訓練數據也標有正確的答案。可以理解如下

假設我們有輸入變量 x 和輸出變量 y ,我們應用算法來學習從輸入到輸出的映射函數,例如

Y= f(x)

現在,主要目標是近似映射函數,以便當我們有新的輸入數據(x)時,我們可以預測該數據的輸出變量(Y)。

主要監督學習傾向問題可分為以下兩類問題 -

分類 - 當我們有“黑色”,“教學”,“非教學”等分類輸出時,一個問題被稱為分類問題。

回歸 - 當我們有“距離”,“千克”等實際值輸出時,問題稱為回歸問題。

決策樹,隨機森林,knn,邏輯回歸是監督機器學習算法的例子。

無監督機器學習算法

顧名思義,這些機器學習算法沒有任何主管提供任何形式的指導。這就是為什麽無監督的機器學習算法與一些人稱之為真正的人工智能的方法緊密結合的原因 可以理解如下

假設我們輸入變量x,那麽在監督學習算法中就沒有相應的輸出變量。

簡單來說,我們可以說在無監督學習中,沒有正確的答案,也沒有教師可以提供指導。算法有助於發現數據中有趣的模式。

無監督學習問題可分為以下兩種問題

聚類 - 在聚類問題中,我們需要發現數據中的固有分組。 例如,按客戶的購買行為對客戶進行分組。

關聯 - 一個問題被稱為關聯問題,因為這類問題需要發現描述大部分數據的規則。 例如,找到同時購買 x 和 y 的客戶。

用於聚類的K均值,用於關聯的Apriori算法是無監督機器學習算法的示例。

加固機器學習算法

這些機器學習算法的使用非常少。這些算法訓練系統做出具體決策。基本上,機器暴露在一個環境中,在那裏它使用試錯法連續訓練自己。這些算法從過去的經驗中學習,並嘗試捕獲最佳可能的知識,以做出準確的決策。馬爾可夫決策過程是增強機器學習算法的一個例子。

最常見的機器學習算法

在本節中,我們將了解最常見的機器學習算法。算法如下所述 -

線性回歸

它是統計學和機器學習中最著名的算法之一。

基本概念 - 主要是線性回歸是一種線性模型,它假設輸入變量x和單個輸出變量y之間的線性關系。換句話說,我們可以說y可以從輸入變量x的線性組合計算。變量之間的關系可以通過擬合最佳線來建立。

線性回歸的類型

線性回歸有以下兩種類型 :

簡單線性回歸 - 線性回歸算法如果只有一個自變量,則稱為簡單線性回歸。

多元線性回歸 - 線性回歸算法如果具有多個自變量,則稱為多元線性回歸。

線性回歸主要用於基於連續變量估計實際值。例如,可以通過線性回歸來估計基於實際值的一天中商店的總銷售額。

Logistic回歸

它是一種分類算法,也稱為 logit 回歸。

主要邏輯回歸是一種分類算法,用於根據給定的一組自變量估計離散值,如0或1,真或假,是或否。基本上,它預測概率,因此其輸出介於0和1之間。

決策樹

決策樹是一種監督學習算法,主要用於分類問題。

基本上它是一個分類器,表示為基於自變量的遞歸分區。決策樹具有形成有根樹的節點。生根樹是一個帶有名為“root”的節點的有向樹。Root沒有任何傳入邊緣,所有其他節點都有一個傳入邊緣。這些節點稱為葉子或決策節點。例如,考慮以下決策樹以查看某人是否合適。

支持向量機(SVM)

它用於分類和回歸問題。但主要是用於分類問題。SVM的主要概念是將每個數據項繪制為n維空間中的點,每個特征的值是特定坐標的值。這裏將是我們將擁有的功能。以下是一個簡單的圖形表示來理解SVM的概念.

在上圖中,我們有兩個特征,因此我們首先需要在二維空間中繪制這兩個變量,其中每個點有兩個坐標,稱為支持向量。該行將數據拆分為兩個不同的分類組。這一行是分類器。

樸素貝葉斯

它也是一種分類技術。這種分類技術背後的邏輯是使用貝葉斯定理來構建分類器。假設預測變量是獨立的。簡單來說,它假定類中特定特征的存在與任何其他特征的存在無關。下面是貝葉斯定理的等式

Na?veBayes模型易於構建,特別適用於大型數據集。

K-Nearest Neighbors(KNN)

它用於問題的分類和回歸。它被廣泛用於解決分類問題。該算法的主要概念是它用於存儲所有可用的案例,並通過其k個鄰居的多數票來對新案例進行分類。然後將該情況分配給在其K- 最近鄰居中最常見的類,通過距離函數測量。距離函數可以是歐幾裏德,閔可夫斯基和漢明距離。考慮以下使用KNN

計算KNN比用於分類問題的其他算法昂貴。

變量的標準化需要更高範圍的變量,否則可能會對其產生偏差。

在KNN中,我們需要處理像噪聲消除這樣的預處理階段。

K-Means聚類

顧名思義,它用於解決聚類問題。它基本上是一種無監督學習。K-Means聚類算法的主要邏輯是通過許多聚類對數據集進行分類。按照以下步驟通過K- means形成集群

K-means為稱為質心的每個簇選擇k個點。

現在每個數據點形成具有最接近的質心的簇,即k個簇。

現在,它將根據現有的集群成員找到每個集群的質心。

我們需要重復這些步驟,直到收斂發生。

隨機森林

它是一種監督分類算法。隨機森林算法的優點是它可以用於分類和回歸類問題。基本上它是決策樹(即森林)的集合,或者你可以說決策樹的集合。隨機森林的基本概念是每棵樹都給出一個分類,森林從中選擇最佳分類。以下是隨機森林算法的優點

隨機森林分類器可用於分類和回歸任務。

他們可以處理缺失的值。

即使我們在森林中有更多的樹木,它也不會過度適應模型。

下節預告

明天我們將教大家進行在Python中進行預處理數據,數據預處理技術和標記數據。

就是要考倒你

先解昨日題:

Python中,查看一個對象是哪種類型,使用__命令

A、isinstance

B、id

C、type

D、issubclass

正確答案是:C,type查看的是某個對象是屬於哪種類型。

今日題目:

在命名Python標識符時,以下命名合理的是( )

A、list

B、for

C、users

D、type

歡迎小夥伴們寫留言要參與答題。

今天的分享就到此結束,如果我的分享對你有幫助,也歡迎大家轉發我的文章讓更多人受益,如果你在學習Python的過程當中有遇見任何問題,可以加入我的python交流學習qq群:250933691,多多交流問題,互幫互助,群裏有不錯的學習教程和開發工具。學習python有任何問題(學習方法,學習效率,如何就業),可以隨時來咨詢我

Python機器學習和常見算法