數據標註的作用及行業現狀
下面簡單講一下在算法模型中訓練集,測試集,驗證集的概念。比如我們有一批標註好的數據我們可以拿出60%作為訓練集交給機器識別學習初步建立算法模型,再拿出20%的數據作為驗證集驗證機器識別的準確性對模型進行初步評估並根據識別結果調整模型參數重新建立模型。最後再拿出20%的數據作為測試集用來評估模最終模型的泛化能力,最終結果不能作為調參的依據。
訓練集-----------學生的課本;學生 根據課本裏的內容來掌握知識。
驗證集------------作業,通過作業可以知道 不同學生學習情況、進步的速 度快慢。
測試集-----------考試,考的題是平常都沒有見過,考察學生舉一反三的能力。
以上三種集的劃分比例不是固定的,對於百萬級別的數據集,我們可以采用98%/1%/1%的規則來劃分數據集。
最早這些標註數據需要那些研究AI算法的工程師在實驗室中完成,但是隨著人工智能在商用場景的落地這些待標註的數據呈“指數型”增長,工程師們根本無力完成那麽多數據,基於此一些專門的數據標註眾包平臺和數據標註公司應運而生,如百度眾測,京東眾智,數據堂,龍貓數據等。
×××發布的《新一代人工智能發展規劃》顯示,到2020年,我國人工智能核心產業規模超過1500億元,帶動相關產業規模超過1萬億元。AI行業的快速發展需要海量高質量的標註數據作為支撐,截止目前國內已有大小近千家數據標註公司,共20余萬名數據標註員。
數據標註行業發展到現在已經不是簡單的拉框打點就能滿足的了,市場提出了更高的要求首先從標註的復雜程度看,以無人駕駛的汽車框標註為例,以前是只需要標註基本輪廓就可以了,現在不只是從2D平面進化到3D立體,還要標註車頭的方向。從人員要求方面看,之前是有初高中文化足以勝任數據標註這份工作,現在則普遍要求專科本科的學歷,而且有些標註項目還需要專業人士來進行,比如涉及金融,醫療等行業的數據標註項目。
數據標註這個行業本質上講是一個勞動密集型行業,大部分人從事著簡單勞動,只不過披上了人工智能這件光鮮的外衣。人工智能的發展將會取代很多行業,未來數據標註行業會不會也被取代也還未知。
數據標註的作用及行業現狀