基於C#的機器學習--我應該接受這份工作嗎-使用決策樹

阿新 • • 發佈：2019-07-12

決策樹

要使決策樹完整而有效，它必須包含所有的可能性。事件序列也必須提供，並且是互斥的，這意味著如果一個事件發生，另一個就不能發生。

決策樹是監督機器學習的一種形式，因為我們必須解釋輸入和輸出應該是什麼。有決策節點和葉子。葉子是決策，不管是否是最終決策，節點是決策分裂發生的地方。

雖然有很多演算法可供我們使用，但我們將使用迭代二分法(ID3)演算法。

在每個遞迴步驟中，根據一個標準(資訊增益、增益比等)選擇對我們正在處理的輸入集進行最佳分類的屬性。

這裡必須指出的是，無論我們使用什麼演算法，都不能保證生成儘可能小的樹。因為這直接影響到演算法的效能。

請記住，對於決策樹，學習僅僅基於啟發式，而不是真正的優化標準。讓我們用一個例子來進一步解釋這一點。

下面的示例來自http://jmlr.csail.mit.edu/papers/volume8/esmeir07a/esmeir07a.pdf，它演示了XOR學習概念，我們所有的開發人員都(或應該)熟悉這個概念。稍後的例子中也會出現這種情況，但現在a3和a4與我們要解決的問題完全無關。它們對我們的答案沒有影響。也就是說，ID3演算法將選擇其中一個構建樹，事實上，它將使用a4作為根節點!記住，這是演算法的啟發式學習，而不是優化結果:

希望這張圖能讓大家更容易理解剛剛所說的內容。我們的目標並不是深入研究決策樹機制和理論。而是如何使用它，儘管存在很多問題，但決策樹仍然是許多演算法的基礎，尤其是那些需要對結果進行人工描述的演算法。這也是我們前面試試人臉檢測演算法的基礎。

決策節點

決策樹的一個節點。每個節點可能有關聯的子節點，也可能沒有關聯的子節點

決策的變數

此物件定義樹和節點可以處理的每個決策變數的性質。值可以是範圍，連續的，也可以是離散的。

決策分支節點的集合

此集合包含將一個或多個決策節點組，以及關於決策變數的附加資訊，以便進行比較。

下面是一個用於確定金融風險的決策樹示例。我們只需要在節點之間導航，就可以很容易地跟隨它，決定要走哪條路，直到得到最終的答案。在這種情況下，當有人正在申請貸款，而我們需要對他們的信用價值做出決定。這時決策樹就是解決這個問題的一個很好的方法:

我應該接受這份工作嗎？

你剛剛得到一份新工作，你需要決定是否接受它。有一些重要的事情需要考慮，所以我們將它們作為輸入變數或特性，用於決策樹。

對你來說最重要的是:薪水、福利、公司文化，當然還有，我能在家工作嗎?

我們將建立一個記憶體資料庫並以這種方式新增特性，而不是從磁碟儲存中載入資料。我們將建立DataTable並建立列，如下圖所示:

在這之後，我們將載入幾行資料，每一行都有一組不同的特性，最後一列應該是Yes或No，作為我們的最終決定:

一旦所有的資料都建立好並放入表中，我們就需要將之前的特性轉換成計算機能夠理解的表示形式。

由於數字更簡單，我們將通過一個稱為編碼的過程將我們的特性(類別)轉換為一本程式碼本。該程式碼本有效地將每個值轉換為整數。

注意，我們將傳遞我們的資料類別作為輸入:

接下來，我們需要為決策樹建立要使用的決策變數。

這棵樹會幫助我們決定是否接受新的工作邀請。對於這個決策，將有幾類輸入，我們將在決策變數陣列中指定它們，以及兩個可能的決策，是或者否。

DecisionVariable陣列將儲存每個類別的名稱以及該類別可能的屬性的總數。例如，薪水類別有三個可能的值，高、平均或低。我們指定類別名和數字3。然後，除了最後一個類別(即我們的決定)之外，我們對所有其他類別都重複這個步驟:

現在我們已經建立了決策樹，我們必須教它如何解決我們要解決的問題。為了做到這一點，我們必須為這棵樹建立一個學習演算法。由於我們只有這個示例的分類值，所以ID3演算法是最簡單的選擇。

一旦學習演算法被執行，它就會被訓練並可供使用。我們簡單地為演算法提供一個樣本資料集，這樣它就可以給我們一個答案。在這種情況下，薪水不錯，公司文化不錯，福利也不錯，我可以在家工作。如果正確地訓練決策樹，答案將會是是:

Numl

numl是一個非常著名的開源機器學習工具包。與大多數機器學習框架一樣，它的許多示例也使用Iris資料集，包括我們將用於決策樹的那個。

下面是我們的numl輸出的一個例子:

讓我們看一下這個例子背後的程式碼：

        static void Main(string[] args)
        {
            Console.WriteLine("Hello World!");
            var description = Descriptor.Create<Iris>();
            Console.WriteLine(description);
            var generator = new DecisionTreeGenerator();
            var data = Iris.Load();
            var model = generator.Generate(description, data);
            Console.WriteLine("生成的模型:");
            Console.WriteLine(model);
            Console.ReadKey();
        }

這個方法並不複雜，對吧?這就是在應用程式中使用numl的好處;它非常容易使用和整合。

上述程式碼建立描述符和DecisionTreeGenerator，載入Iris資料集，然後生成模型。這裡只是正在載入的資料的一個示例：

        public static Iris[] Load()
        {
            return new Iris[]
            {
                new Iris { SepalLength = 5.1m, SepalWidth = 3.5m, PetalLength = 1.4m, PetalWidth = 0.2m, Class = "Iris-setosa" },
                new Iris { SepalLength = 4.9m, SepalWidth = 3m, PetalLength = 1.4m, PetalWidth = 0.2m, Class = "Iris-setosa" },
                new Iris { SepalLength = 4.7m, SepalWidth = 3.2m, PetalLength = 1.3m, PetalWidth = 0.2m, Class = "Iris-setosa" },
                new Iris { SepalLength = 4.6m, SepalWidth = 3.1m, PetalLength = 1.5m, PetalWidth = 0.2m, Class = "Iris-setosa" },
                new Iris { SepalLength = 5m, SepalWidth = 3.6m, PetalLength = 1.4m, PetalWidth = 0.2m, Class = "Iris-setosa" },
                new Iris { SepalLength = 5.4m, SepalWidth = 3.9m, PetalLength = 1.7m, PetalWidth = 0.4m, Class = "Iris-setosa" }
            };
        }

Accord.NET 決策樹

Accord.NET framework也有自己的決策樹例子。它採用了一種不同的、更圖形化的方法來處理決策樹，但是您可以通過呼叫來決定您喜歡哪個決策樹，並且最習慣使用哪個決策樹。

一旦資料被載入，您就可以建立決策樹併為學習做好準備。您將看到與這裡類似的資料圖，使用了X和Y兩個類別：

下一個選項卡將讓您看到樹節點、葉子和決策。右邊還有一個自頂向下的樹的圖形檢視。最有用的資訊在左邊的樹形檢視中，你可以看到節點，它們的值，以及做出的決策:

最後，最後一個選項卡將允許您執行模型測試：

程式碼

下面是學習程式碼

            // 指定輸入變數
            DecisionVariable[] variables =
            {
                new DecisionVariable("x", DecisionVariableKind.Continuous),
                new DecisionVariable("y", DecisionVariableKind.Continuous),
            };
            // 建立C4.5學習演算法
            var c45 = new C45Learning(variables);

            // 使用C4.5學習決策樹
            tree = c45.Learn(inputs, outputs);

            // 在檢視中顯示學習樹
            decisionTreeView1.TreeSource = tree;

            // 獲取每個變數(X和Y)的範圍
            DoubleRange[] ranges = table.GetRange(0);

            // 生成一個笛卡爾座標系
            double[][] map = Matrix.Mesh(ranges[0], 200, ranges[1], 200);

            // 對笛卡爾座標系中的每個點進行分類
            double[,] surface = map.ToMatrix().InsertColumn(tree.Decide(map));
CreateScatterplot(zedGraphControl2, surface);
            //測試
            // 從整個源資料表建立一個矩陣
            double[][] table = (dgvLearningSource.DataSource as DataTable).ToJagged(out columnNames);

            //只獲取輸入向量值(前兩列)
            double[][] inputs = table.GetColumns(0, 1);

            // 獲取預期的輸出標籤(最後一列)
            int[] expected = table.GetColumn(2).ToInt32();


            // 計算實際的樹輸出
            int[] actual = tree.Decide(inputs);


            // 使用混淆矩陣來計算一些統計資料。
            ConfusionMatrix confusionMatrix = new ConfusionMatrix(actual, expected, 1, 0);
            dgvPerformance.DataSource = new[] { confusionMatrix };

            CreateResultScatterplot(zedGraphControl1, inputs, expected.ToDouble(), actual.ToDouble());

然後他的值被輸入一個混淆矩陣。對於不熟悉這一點的同學，讓我簡單解釋一下.

混淆矩陣

混淆矩陣是用來描述分類模型效能的表。它在已知真值的測試資料集上執行。這就是我們如何得出如下結論的。

真-陽性

在這個例子中，我們預測是，這是事實。

真-陰性

在這種情況下，我們預測否，這是事實。

假-陽性

在這種情況下，我們預測是，但事實並非如此。有時您可能會看到這被稱為type 1錯誤。

假-陰性

在這種情況下，我們預測“否”，但事實是“是”。有時您可能會看到這被type 2類錯誤。

現在，說了這麼多，我們需要談談另外兩個重要的術語，精確度和回憶。

讓我們這樣來描述它們。在過去的一個星期裡，每天都下雨。這是7天中的7天。很簡單。一週後，你被問到上週多久下一次雨?

回憶

它是你正確回憶下雨的天數與正確事件總數的比值。如果你說下了7天雨，那就是100%。如果你說下了四天雨，那麼57%的人記得。在這種情況下，它的意思是你的回憶不是那麼精確，所以我們有精確度來識別。

精確度

它是你正確回憶將要下雨的次數與那一週總天數的比值。

對我們來說，如果我們的機器學習演算法擅長回憶，並不一定意味著它擅長精確。有道理嗎?這就涉及到其他的事情，比如F1的分數，我們會留到以後再講。

視覺化錯誤型別

以下是一些可能會有幫助的視覺化:

識別真陽性和假陰性：

使用混淆矩陣計算統計量後，建立散點圖，識別出所有內容:

總結

在這一章中，我們花了很多時間來研究決策樹;它們是什麼，我們如何使用它們，以及它們如何使我們在應用程式中受益。在下一章中，我們將進入深度信念網路(DBNs)的世界，它們是什麼，以及我們如何使用它們。

我們甚至會談論一下計算機的夢，當它做夢的時

基於C#的機器學習--我應該接受這份工作嗎-使用決策樹

決策樹

決策節點

決策的變數

決策分支節點的集合

我應該接受這份工作嗎？

Numl

Accord.NET 決策樹

程式碼

混淆矩陣

真-陽性

真-陰性

假-陽性

假-陰性

回憶

精確度

視覺化錯誤型別

總結

基於C#的機器學習--我應該接受這份工作嗎-使用決策樹

python實現西瓜書《機器學習》習題4.4基尼指數決策樹，預剪枝及後剪枝

Python3實現機器學習經典演算法（四）C4.5決策樹

《機器學習》讀書筆記，第三章決策樹學習

機器學習經典演算法詳解及Python實現--決策樹（Decision Tree）

機器學習--手寫數字識別（KNN、決策樹）

spark機器學習庫指南[Spark 1.3.1版]——決策樹(decision trees)

（參評）機器學習筆記——鳶尾花資料集（KNN、決策樹、樸素貝葉斯分析）

機器學習回顧篇（8）：CART決策樹演算法

機器學習——十大資料探勘之一的決策樹CART演算法

基於Windows 機器學習(Machine Learning)的圖像分類(Image classification)實現

要學習機器學習，先從這十大演算法開始吧

基於傳統機器學習的推薦系統

基於Spark機器學習和實時流計算的智慧推薦系統

基於深度機器學習演算法DBNs的風險識別模型

C++機器學習庫--shark

mlpack: 一個C++機器學習庫

如何在未來的大數據和機器學習領域，獲得一份不錯的工作？

如何在未來的大資料和AI機器學習領域，獲得一份不錯的工作？

為什麼我拒絕了這份"夢寐以求"的資料科學家工作？

基於C#的機器學習--我應該接受這份工作嗎-使用決策樹

決策樹

決策節點

決策的變數

決策分支節點的集合

我應該接受這份工作嗎？

Numl

Accord.NET 決策樹

程式碼

混淆矩陣

真-陽性

真-陰性

假-陽性

假-陰性

回憶

精確度

視覺化錯誤型別

總結

相關推薦