1. 程式人生 > 其它 >第七屆黑客鬆的參賽收穫

第七屆黑客鬆的參賽收穫

收穫:

(1) 學會了使用pip的引數解決包的安裝問題,當用pip安裝包因為網路問題導致安裝失敗時可用pip中的引數--default-timeout設定安裝時間,也可以用-i引數設定映象源,選擇適合自己網路的映象源去下載。

(2) ai解決問題時資料是基礎如果資料質量較差可能導致模型出現一系列問題。問題1.一條語句一個人說了倆遍錄製了倆條語音,一條放在訓練集中一條放在驗證集中,模型可以識別訓練集中的語句卻在識別驗證集中相同text的語句犯錯。解決方案向訓練集中加入不同人讀相同句子的語音以此提高模型的泛化能力。問題2.錄製訓練集中的句子基本為:請檢測出...,當模型過度擬合數據時,模型識別

”瓶子”這一語音時導致模型會輸出”請檢測出...的結果(見圖1)。解決方案向訓練集中加入其他型別的句子(見圖2)並減少訓練輪數

(3) ai是一個實際操作很強的學科,通過此次競賽讓我瞭解到,如果模型訓練時出了問題可以假設出引發問題的原因,設計解決方案進行實驗去解決此問題。過程一.當我遇到訓練集質量差導致模型泛化能力弱,假設是因為訓練集中的資料單一導致模型泛化能力差,我向訓練集中新增入更多語句從而提高了模型在驗證集的準確率。過程二.當只錄制一遍語句放在訓練集時會導致模型識別驗證集中不同人錄製相同語句出錯,我對此做出了假設因為資料錄製的較少導致模型無法很好的學到該語句的特徵,因此我收集了不同人讀相同語句錄製的語音,將語音加入到訓練集中,以此提高了模型識別語音的準確率。

(4) 在物體探測領域資料標註是至關重要的,因為它讓模型學會要識別哪些物體和如何去標註他們。我們需要根據比賽中可能出現的圖片來選擇訓練圖片,選擇不必要的圖片只會增加訓練成本,而選擇出合適的訓練圖片就要詳細瞭解比賽中可能出現各種圖片。

(5)由於我們使用雲平臺去完成競賽,網路不好容易出現連線中斷,因此執行程式時後臺執行和斷點續傳功能很重要。用windows系統向linux系統傳檔案選用winscp軟體,只需輸入雲伺服器的公網,埠號22,使用者名稱和密碼即可進行檔案的傳輸。如果網路不好導致程式中斷可以nohup+命令列操作。

(6)學會了linux的一些基本語法unzip是解壓,cd進入檔案,rm是刪除。

(7)書寫json檔案時要保持檔案不能有多餘的空行否則會出現json.decoder.JSONDecodeError: Expecting value: line 2 column 1 (char 1)錯誤。

(8)Nemo1.4查詢模型的語句nemo_asr.models.EncDecCTCModel.list_available_models()。

(9)一個字如果拉長音可能會讓模型識別出多個相同的字。

(10)出現wheel for pesq error這樣的錯誤,需要輸入以下程式碼1.pip3 install --upgrade pip      2. sudo apt-get install python3-dev

(11)用騰訊雲安裝docker時可能出現公鑰問題可以採用https://cloud.tencent.com/developer/article/2076348做法去解決此問題。

                                                     

圖1 資料質量較差的訓練集。

                                                      

圖2 加入不同型別語音資料後的訓練集