阿里天池競賽分享
最近參加阿里天池的“網路影象的文字檢測”挑戰賽,終於結束,最終排名第181,總共是1424只隊伍參加。第一次參加機器學習挑戰賽,成績不是很理想,今天把一些體悟寫一下,希望對後來參加的人有用。
一、賽題簡介
在網際網路世界中,圖片是傳遞資訊的重要媒介。特別是電子商務,社交,搜尋等領域,每天都有數以億兆級別的影象在傳播。圖片文字識別(OCR)在商業領域有重要的應用價值,是資料資訊化和線上線下打通的基礎,也是學術界的研究熱點。然而,研究領域尚沒有基於網路圖片的、以中文為主的OCR資料集。本競賽將公開基於網路圖片的中英混合資料集,該資料集資料量充分,涵蓋幾十種字型,幾個到幾百畫素字號,多種版式,較多幹擾背景。期待學術界可以在本資料集上作深入的研究,工業界可以藉此發展基於OCR的圖片管控,搜尋,資訊錄入等AI領域的工作。
二、資料集
我們提供20000張影象作為本次比賽的資料集。其中50%用來作為訓練集,50%用來作為測試集。該資料集全部來源於網路影象,主要由合成影象,產品描述,網路廣告構成。典型的圖片如圖1所示:
圖1:典型圖片
這些影象是網路上最常見的影象型別。每一張影象或者包含複雜排版,或者包含密集的小文字或多語言文字,或者包含水印,這對文字檢測和識別均提出了挑戰。
對於每一張影象,都會有一個相應的文字檔案(.txt)(UTF-8編碼與名稱:[影象檔名] .txt)。文字檔案是一個逗號分隔的檔案,其中每行對應於影象中的一個文字串,並具有以下格式:
X1,Y1,X2,Y2,X3,Y3,X4,Y4,“文字”
其中X1,Y1,Y2,X2,X3,X4,Y3,Y4分別代表文字的外接四邊形四個頂點座標。而“文字”是四邊形包含的實際文字內容。
圖2是標註的圖片,紅色的框代表標註的文字框。
圖3是標註圖片對應的文字檔案。標註時我們對所有語言,所有看不清的文字串均標註了外接框(比如圖2中的小字),但對於除了中文,英文以外的其它語言以及看不清的字元並未標註文字內容,而是以“###”代替。
圖2:image.jpg
圖3:image.txt
三、任務描述
網路影象的文字檢測:
檢測並定點陣圖像中的文字行位置,允許使用其它資料集或者生成資料,允許Fine-tuning 模型或者其他模型。入圍團隊提交報告中須對額外使用的資料集,或非本資料集訓練出的模型做出說明。
訓練集:
對於每個影象,只需要用[影象檔名] .txt裡的座標資訊。即: X1,Y1,X2,Y2,
測試集:
輸入:整圖
輸出:對於每一個檢測到的文字框,按行將其頂點座標輸出到對應的[影象檔名] .txt中。
提交:
將所有影象對應的[影象檔名] .txt放到一個zip壓縮包中,然後提交。
四、團隊組建
團隊的力量真的很重要,第一次參加機器學習挑戰賽並完成資料提交,主要是組員一起分解任務,頭腦風暴,群力群策分不開。
組隊由4人組成,分別負責環境搭建、模型訓練和優化、模型測試等。
五、應用工具
Ubuntu 14.04、Python3.5、TensorFlow、Shapely 1.5.13、Flask 0.10.1、Matplotlib 1.5.1、Scipy 0.19.0、Plumbum 1.6.2、Numpy 1.12.1、Ipython 6.1.0、Pillow 4.2.1等。
六、實現
從接觸大資料及機器學習以來,學習了較多理論知識,但接觸專案不多,大多都是課程的project。抱著重在參與、學習的態度,準備在天池大資料平臺試試水。
A、 環境搭建
Ubuntu、TensorFlow的安裝,網上教程很多,參考:
B、 參考Github上的專案進行模型訓練
模型訓練:
pythonmultigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=14--checkpoint_path=/tmp/east_icdar2015_resnet_v1_50_rbox/ \
--text_scale=512--training_data_path=/data/ocr/icdar2015/ --geometry=RBOX--learning_rate=0.0001 --num_readers=24 \
--pretrained_model_path=/tmp/resnet_v1_50.ckpt
模型測試:
python eval.py --test_data_path=/tmp/images/ --gpu_list=0 --checkpoint_path=/tmp/east_icdar2015_resnet_v1_50_rbox/ \
--output_dir=/tmp/
七、存在問題與總結
問題1:由於時間問題,使用Github別人的專案進行訓練和測試,未進行任何優化,輸出的結果正確率比較低。
問題2:訓練的電腦GPU不好,造成訓練時間很長,效率非常低。
問題3:機器學習TensorFlow方面的知識不夠,還需要加強。
相關推薦
阿里天池競賽分享
最近參加阿里天池的“網路影象的文字檢測”挑戰賽,終於結束,最終排名第181,總共是1424只隊伍參加。第一次參加機器學習挑戰賽,成績不是很理想,今天把一些體悟寫一下,希望對後來參加的人有用。一、賽題簡介在網際網路世界中,圖片是傳遞資訊的重要媒介。特別是電子商務
阿里天池競賽 A股上市公司營收預測 使用LSTM模型做時序預測
參賽結束了,最後結果一百多名,先把清洗好的資料和預測演算法檔案記錄下來。 使用的完全程式碼和資料 程式碼註釋如下 # -*- encoding:utf-8 -*- import pandas as pd import numpy as np import sys f
阿里天池之江杯零樣本影象目標識別Top1%方案分享
比賽結束了一週多了,歷時近三個月,也是我第一次做零樣本識別。名次是32/3224,雖然不太滿意,但學到了很多東西。在這篇博文做一次總結,並將公開我們的程式碼。 零樣本識別概念 零樣本識別不同於傳統的分類識別,傳統的分類識別所有的label以及每個label對應的
【天池競賽系列】阿里移動推薦演算法思路解析
賽題地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1 登入即可下載資料 從4月到7月,學習了很多也收穫了很多 題目就不多說了,一句話表達就是根據過去一個月的行為預測14年12月19
阿里天池FashionAI服裝屬性標籤識別Top1%方案分享
前言 上週六剛剛結束FashionAI2018服裝屬性標籤識別的複賽,比賽競爭十分激烈。比賽總共報名近3000支隊伍,經過3個月的比拼,我們隊伍最終獲得了第11名的成績。雖然離第十名只有一步之遙,但是我不遺憾,畢竟這是我第一次參加天池比賽,對於這個結果我感覺對
阿里天池大資料競賽
《阿里移動推薦演算法》 2014年是阿里巴巴集團移動電商業務快速發展的一年,例如2014雙11大促中移動端成交佔比達到42.6%。相比PC時代,移動端網路的訪問是隨時隨地的,具有更豐富的場景資料,比如使用者的位置資訊、使用者訪問的時間規律等。本次大賽以阿里巴巴移動電商平
阿里天池大資料競賽——口碑商家客流量預測 A
阿里天池大資料競賽——口碑商家客流量預測的競賽已經結束了,作為一個剛參加這種專案競賽的純小白來說,走了不少的彎路,在資料處理的過程上花費了大量的時間和功夫,最後得到的效果也不好,不過從這個過程還是學習到
深度學習高手該怎樣煉成?這位拿下阿里天池大賽冠軍的中科院博士為你規劃了一份專業成長路徑
作者 | 劉昕 責編 | 胡永波 深度學習本質上是深層的人工神經網路,它不是一項孤立的技術,而是數學、統計機器學習、電腦科學和人工神經網路等多個領域的綜合。深度學習的理解,離不開本科數學中最為基礎的數學分析(高等數學)、線性代數、概率論和凸優化;深度
七面阿里:現在分享一下阿里最全面試120道題目
貌似這一點適應的行業最廣,但是我可以很肯定的說:當你從事Java一年後,重新找工作時,才會真實的感受到這句話。 工作第一年,往往是什麼都充滿新鮮感,什麼都學習,衝勁十足的一年;WEB行業知識更新特別快,今天一個框架的新版本,明天又是另一個新框架,有時往往根據專案的需要來不斷學習新東西;所有,
七面阿里:現在分享一下阿里最全面試116題:阿里天貓、螞蟻金服、阿里巴巴面試題含答案
貌似這一點適應的行業最廣,但是我可以很肯定的說:當你從事Java一年後,重新找工作時,才會真實的感受到這句話。 工作第一年,往往是什麼都充滿新鮮感,什麼都學習,衝勁十足的一年;WEB行業知識更新特別快,今天一個框架的新版本,明天又是另一個新框架,有時往往根據專案的需要來
十年高階程式設計師從阿里離職,分享這些年的面試經驗——offer篇
時隔兩年再一次的面臨離職找工作,這一次換工作有些許的不捨,也有些許的無奈。個人所在的技術團隊不錯,兩年時間成長了很多,也很不捨這個團隊。但是,由於公司的某些原因和對於自身未來發展的綜合考慮,又不得不得離去,去尋找更合適的地方成長和發展。相比於兩年前,現在找工作沒有那麼的著急,也沒有那麼的迫切,也沒有特別想去的
(轉)阿里Java工程師分享3年工作經驗的程式設計師應該具備的技能
點選上方“程式人生”,選擇“置頂公眾號” 第一時間關注程式猿(媛)身邊的故事 每個程式設計師、或者說每個工作者都應該有自己的職業規劃,如果你不是富二代,不是官二代,也沒有職業規劃,希望你可以思考一下自己的將來。今天小編給大家分享的是一篇來自阿里Java工程師對3年工作經驗程式設計師的職業建議,希望對
阿里Java工程師分享3年工作經驗的程式設計師應該具備的技能
每個程式設計師、或者說每個工作者都應該有自己的職業規劃,如果你不是富二代,不是官二代,也沒有職業規劃,希望你可以思考一下自己的將來。今天小編給大家分享的是一篇來自阿里Java工程師對3年工作經驗程式設計師的職業建議,希望對你有啟發。 程式設計師的三個階段
阿里架構師分享:一執行緒序員該如何面對中年危機?
中年危機是真實存在的,即便有技術傍身,在一些特定階段及環境下,還是難免對未來產生質疑與焦慮。一執行緒序員該如何面對中年危機呢?這是絕大多數程式設計師的困惑,這也是絕大多數職場人的困惑。希望大家能通過此篇找到一些方法。 一、程式設計師中年危機的焦慮 說到程式設計師的“中年危機”,這四個
【天池競賽系列】淘寶穿衣搭配演算法第二賽季12名思路
給的資料集有4部分 達人搭配組合 商品資訊 購買記錄 線上測試集 在第一賽季中的思路和阿里星小江分享的差不多 http://datartist.cn/?p=5 第二賽季自己實力不夠,思路陷入迷信模型中,導致被幹出了前10 那麼我就來講講12名的思路吧 首先根據達人搭配
【天池競賽系列】資金流入流出預測思路
賽題地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3 登入即可下載資料 題目一句話:根據13年7月到14年8月的申購贖回資
阿里天池大資料之移動推薦演算法大賽總結及程式碼全公佈
移動推薦演算法比賽已經結束了一個多星期了,現在寫一篇文章來回顧一下自己的參賽歷程。 首先,對不瞭解這個比賽的同學們介紹一下這個比賽(引用自官網): 賽題簡介 2014年是阿里巴巴集團移動電商業務快速發展的一年,例如2014雙11大促中移動端成交佔比達到42.6%,超過240億元。相比PC時代,移動端網路的訪
[數論] 2017 計蒜之道 初賽 第一場 阿里天池的新任務
我們令子串Ss,t對應的ws為這個子串的b 因為互質 所以b是互不相同的 轉為求有幾個b滿足條件 然後每一位看作一個限制 把所有限制離散化取交即可 注意處理奇偶性 還有一個細節 s≤n−m+1 我們還要倒著把最後m−1個b中合法的減掉 #includ
計蒜之道初賽第一場-阿里天池的新任務(簡單)
阿里“天池”競賽平臺近日推出了一個新的挑戰任務:對於給定的一串 DNA 鹼基序列 tt,判斷它在另一個根據規則生成的 DNA 鹼基序列 ss 中出現了多少次。 首先,定義一個序列 ww:
『 天池競賽』O2O優惠券使用預測思路總結
目錄 解決方案 資料劃分 特徵工程 線下評估 回顧 正式開始做是從十月底開始的,我之前參加了新手賽,而這一次正式賽可以說是真正認真做的一次,中間和隊友一起學習了很多,也有小小的收穫,不管這次成績如何,以後還有機會。