Coursera-吳恩達-機器學習-（第11周筆記）應用例項：photo OCR

阿新 • • 發佈：2019-02-20

Week 11 ——Application Example: Photo OCR

第一我想向你展示一個複雜的機器學習系統是如何被組合起來的

第二我想介紹一下機器學習流水線（machine learning pipeline）的有關概念，以及在決定下一步做什麼時，如何分配資源。

最後,通過介紹照片OCR問題的機會來告訴你，機器學習的諸多有意思的想法和理念。其中之一是如何將機器學習應用到計算機視覺問題中，第二是有關人工資料合成（artificial data synthesis）的概念。

OCR技術主要解決的問題是讓計算機讀出照片中拍到的文字資訊。
這裡寫圖片描述
OCR pipeline的意思主要是把一個ML系統分割為幾個連續的部分，如下圖：

如果你有一個工程師的團隊在完成同樣類似的任務，那麼通常你可以讓不同的人來完成不同的模組，所以我可以假設文字檢測這個模組需要大概1到5個人，字元分割部分需要另外1到5個人，字母識別部分還需要另外1到5個人。

在複雜的機器學習系統中流水線的概念已經滲透到各種應用中

1-2 滑動窗（sliding windows）

為了更好地介紹影象的檢測，我們從一個簡單一點的例子開始，我們先看這個探測行人的例子：

在行人檢測中你希望照一張相片然後找出影象中出現的行人
這裡寫圖片描述
這個問題似乎比文字檢測的問題更簡單，原因是大部分的行人都比較相似，因此可以使用一個固定寬高比的矩形來分離出你希望找到的行人。

我們要做的是首先對這個影象取一小塊長方形，比如這是一個 82×36的影象塊，我們將這個影象塊，通過我們訓練得到的分類器來確定這個影象塊中是不是有行人。如果沒問題的話，我們的分類器應該報告這個影象塊 y=0 因為沒有行人。

做完這以後，我們再向右滑動一點視窗然後同樣地把影象塊傳入分類器，你每次滑動視窗的大小是一個引數，通常被稱為步長(step size) 。這樣一個滑動的過程就叫做：滑動窗(sliding windows)。

接下來我們轉向文字識別的例子，讓我們來看看對於照片 OCR 流水線中要檢測出文字需要怎樣的步驟。

1 第一步通過滑動窗在影象中找出有字母的部分，然後把他變白方便下一步提取。
這裡寫圖片描述

2 分割字母，使用滑動窗在上一部提取的畫素中提取分割的部分。
這裡寫圖片描述

3 字母分類
這裡寫圖片描述

1-3 獲取大量的圖片

人工合成數據
扭曲合成數據

Getting Lots of Data and Artificial Data獲取大量資料和人工合成數據。

要想獲得一個比較高效的機器學習系統，其中一種最可靠的辦法是選擇一個低偏差的學習演算法，然後用一個巨大的訓練集來訓練它。但你從哪兒得到那麼多的訓練資料呢？其實在機器學習中有一個很棒的想法叫做“人工資料合成”（artificial data synthesis）。就是說用一個小的訓練集將它擴充為一個大的訓練集，這節課中我們將對這兩種方法進行介紹。

為了介紹人工資料合成的概念讓我們還是用之前用過的照片OCR流水線中的字母識別問題，我們輸入一個影象資料然後想識別出是什麼字母。

如果你想要獲得更多的訓練樣本，其中一種方法是你可以採集同一個字元的不同種字型，
然後將這些字元加上不同的隨機背景。比如你可以取這個字母C，然後把它貼上到一個隨機背景前面
這裡寫圖片描述
因此通過使用合成的資料，你實際上已經獲得了無限的訓練樣本，這就是人工資料合成。

idea2: take an existing example and and introducing distortions通過引入扭曲合成數據
這裡寫圖片描述
注意：網格線覆蓋影象只是為了說明的目的。

如果您面臨機器學習問題，通常值得做兩件事情：
其中一個就是頭腦清楚，通過學習曲線，可以得到更多的資料。
其次，假設情況如此，請問：要獲得十倍的創造資料將需要多少時間，但有時候，您可能會感到驚訝，原因可能是幾天，幾周甚至幾天，這可以是一個很好的方式來給你的學習演算法在效能上有巨大的提升。

1-4 分析

Ceiling Analysis：What Part of the Pipeline to Work on Next 上限分析-接下來工作重心應放在pipeline哪個部分。

上限分析的想法：通過經歷這樣的分析，你試圖找出什麼是上升的潛力，改善這些元件的每一個，或者如果這些元件中的一個變得絕對完美，那麼你可能獲得多少對該系統的效能提出了一個上限。
這裡寫圖片描述
首先寫出總的專案精度為72%；然後手工把某一個模組設定為“全對”，看模型提升了多少，提升的多說明這個工作有用；提升的少，說明在這裡做工作沒什麼太大意義。

另外一個例子:Another more complex ceiling analysis example人臉識別。
這裡寫圖片描述
看每一個小塊的提升對總的精度提升的大小。

Coursera-吳恩達-機器學習-（第11周筆記）應用例項：photo OCR

Week 11 ——Application Example: Photo OCR

目錄

影象OCR（Optical Character Recognition）

1-1 問題描述

1-2 滑動窗（sliding windows）

1-3 獲取大量的圖片

1-4 分析

Coursera-吳恩達-機器學習-（第11周筆記）應用例項：photo OCR

Coursera-吳恩達-機器學習-（第5周筆記）Neural Networks——Learning

吳恩達機器學習（第十四章）---無監督學習kmeans演算法

吳恩達機器學習（第十五章）---降維PCA

吳恩達機器學習（第2周--Octave/Matlab Tutorial）【下】

Coursera-吳恩達-機器學習-（程式設計練習8）異常檢測和推薦系統（對應第9周課程）

Coursera-吳恩達-機器學習-（程式設計練習7）K均值和PCA（對應第8周課程）

吳恩達機器學習（第十三章）---支援向量機SVM

吳恩達機器學習（第十章）---神經網路的反向傳播演算法

吳恩達機器學習（第九章）---神經網路

吳恩達機器學習（第八章）---正則化

吳恩達機器學習（第七章）---邏輯迴歸

吳恩達機器學習（第五章）--特徵縮放和學習率

Coursera吳恩達機器學習課程-第五章

Coursera-吳恩達-機器學習-第七週-測驗-Support Vector Machines

Coursera-吳恩達-機器學習-第七週-程式設計作業: Support Vector Machines

Coursera-吳恩達-機器學習-第十一週-測驗-Application: Photo OCR

Coursera-吳恩達-機器學習-第十週-測驗-Large Scale Machine Learning

Coursera-吳恩達-機器學習-第九周-程式設計作業-Anomaly Detection and Recommender Systems

Coursera-吳恩達-機器學習-第九周-測驗-Recommender Systems

Coursera-吳恩達-機器學習-（第11周筆記）應用例項：photo OCR

Week 11 ——Application Example: Photo OCR

目錄

影象OCR（Optical Character Recognition）

1-1 問題描述

1-2 滑動窗（sliding windows）

1-3 獲取大量的圖片

1-4 分析

相關推薦