阿里天池競賽分享

阿新 • • 發佈：2019-01-12

最近參加阿里天池的“網路影象的文字檢測”挑戰賽，終於結束，最終排名第181，總共是1424只隊伍參加。第一次參加機器學習挑戰賽，成績不是很理想，今天把一些體悟寫一下，希望對後來參加的人有用。

一、賽題簡介

在網際網路世界中，圖片是傳遞資訊的重要媒介。特別是電子商務，社交，搜尋等領域，每天都有數以億兆級別的影象在傳播。圖片文字識別（OCR）在商業領域有重要的應用價值，是資料資訊化和線上線下打通的基礎，也是學術界的研究熱點。然而，研究領域尚沒有基於網路圖片的、以中文為主的OCR資料集。本競賽將公開基於網路圖片的中英混合資料集，該資料集資料量充分，涵蓋幾十種字型，幾個到幾百畫素字號，多種版式，較多幹擾背景。期待學術界可以在本資料集上作深入的研究，工業界可以藉此發展基於OCR的圖片管控，搜尋，資訊錄入等AI領域的工作。

二、資料集

我們提供20000張影象作為本次比賽的資料集。其中50%用來作為訓練集，50%用來作為測試集。該資料集全部來源於網路影象，主要由合成影象，產品描述，網路廣告構成。典型的圖片如圖1所示：

圖1：典型圖片

這些影象是網路上最常見的影象型別。每一張影象或者包含複雜排版，或者包含密集的小文字或多語言文字，或者包含水印，這對文字檢測和識別均提出了挑戰。

對於每一張影象，都會有一個相應的文字檔案（.txt）（UTF-8編碼與名稱：[影象檔名] .txt）。文字檔案是一個逗號分隔的檔案，其中每行對應於影象中的一個文字串，並具有以下格式：

X1，Y1，X2，Y2，X3，Y3，X4，Y4，“文字”

其中X1，Y1，Y2，X2，X3，X4，Y3，Y4分別代表文字的外接四邊形四個頂點座標。而“文字”是四邊形包含的實際文字內容。

圖2是標註的圖片，紅色的框代表標註的文字框。

圖3是標註圖片對應的文字檔案。標註時我們對所有語言，所有看不清的文字串均標註了外接框（比如圖2中的小字），但對於除了中文，英文以外的其它語言以及看不清的字元並未標註文字內容，而是以“###”代替。

圖2：image.jpg

圖3：image.txt

三、任務描述

網路影象的文字檢測：

檢測並定點陣圖像中的文字行位置，允許使用其它資料集或者生成資料，允許Fine-tuning 模型或者其他模型。入圍團隊提交報告中須對額外使用的資料集，或非本資料集訓練出的模型做出說明。

訓練集：

對於每個影象，只需要用[影象檔名] .txt裡的座標資訊。即： X1，Y1，X2，Y2，

X3，Y3，X4，Y4。

測試集：

輸入：整圖

輸出：對於每一個檢測到的文字框，按行將其頂點座標輸出到對應的[影象檔名] .txt中。

提交：

將所有影象對應的[影象檔名] .txt放到一個zip壓縮包中，然後提交。

四、團隊組建

團隊的力量真的很重要，第一次參加機器學習挑戰賽並完成資料提交，主要是組員一起分解任務，頭腦風暴，群力群策分不開。

組隊由4人組成，分別負責環境搭建、模型訓練和優化、模型測試等。

五、應用工具

Ubuntu 14.04、Python3.5、TensorFlow、Shapely 1.5.13、Flask 0.10.1、Matplotlib 1.5.1、Scipy 0.19.0、Plumbum 1.6.2、Numpy 1.12.1、Ipython 6.1.0、Pillow 4.2.1等。

六、實現

從接觸大資料及機器學習以來，學習了較多理論知識，但接觸專案不多，大多都是課程的project。抱著重在參與、學習的態度，準備在天池大資料平臺試試水。

A、環境搭建

Ubuntu、TensorFlow的安裝，網上教程很多，參考：

B、參考Github上的專案進行模型訓練

模型訓練：

pythonmultigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=14--checkpoint_path=/tmp/east_icdar2015_resnet_v1_50_rbox/ \

--text_scale=512--training_data_path=/data/ocr/icdar2015/ --geometry=RBOX--learning_rate=0.0001 --num_readers=24 \

--pretrained_model_path=/tmp/resnet_v1_50.ckpt

模型測試：

python eval.py --test_data_path=/tmp/images/ --gpu_list=0 --checkpoint_path=/tmp/east_icdar2015_resnet_v1_50_rbox/ \

--output_dir=/tmp/

七、存在問題與總結

問題1：由於時間問題，使用Github別人的專案進行訓練和測試，未進行任何優化，輸出的結果正確率比較低。

問題2：訓練的電腦GPU不好，造成訓練時間很長，效率非常低。

問題3：機器學習TensorFlow方面的知識不夠，還需要加強。

阿里天池競賽分享

阿里天池競賽分享

阿里天池競賽 A股上市公司營收預測使用LSTM模型做時序預測

阿里天池之江杯零樣本影象目標識別Top1%方案分享

【天池競賽系列】阿里移動推薦演算法思路解析

阿里天池FashionAI服裝屬性標籤識別Top1%方案分享

阿里天池大資料競賽

阿里天池大資料競賽——口碑商家客流量預測 A

深度學習高手該怎樣煉成？這位拿下阿里天池大賽冠軍的中科院博士為你規劃了一份專業成長路徑

七面阿里：現在分享一下阿里最全面試120道題目

七面阿里：現在分享一下阿里最全面試116題：阿里天貓、螞蟻金服、阿里巴巴面試題含答案

十年高階程式設計師從阿里離職，分享這些年的面試經驗——offer篇

(轉)阿里Java工程師分享3年工作經驗的程式設計師應該具備的技能

阿里Java工程師分享3年工作經驗的程式設計師應該具備的技能

阿里架構師分享：一執行緒序員該如何面對中年危機？

【天池競賽系列】淘寶穿衣搭配演算法第二賽季12名思路

【天池競賽系列】資金流入流出預測思路

阿里天池大資料之移動推薦演算法大賽總結及程式碼全公佈

[數論] 2017 計蒜之道初賽第一場阿里天池的新任務

計蒜之道初賽第一場-阿里天池的新任務（簡單）

『天池競賽』O2O優惠券使用預測思路總結

阿里天池競賽分享

相關推薦