1. 程式人生 > >一些關於蛋白質序列分類的總結

一些關於蛋白質序列分類的總結

畢設題目是“基於神經網路的蛋白質分類器設計”

經過一些努力現在分類的精度到達了98%,但其實仍然不理想,導師其實希望我能做個100%精度的。

總結一下那2%失敗的原因:

GPCR家族LEVEL2的分類裡,有兩類序列特別少,只有3條。我如果拿兩條建模,一條測試,就會導致建模不準確,測試序列也無法正確分類,如果我拿全部的3條序列進行建模,模型是準確了,但沒有用來測試的序列,誰會信你的模型是精確的呢?

但是好就好在,,別的類數量都挺多,我可以把別的類多抽出點,錯誤的這兩條錯就錯吧,那樣的話,正確分類的序列數量就多了,精度也就高了,,,雖然沒有解決實際問題,但是吧,,最起碼好看了些。

關於我具體是怎麼提取蛋白序列特徵段,以及如何使用神經網路工具製作分類器,等我最後答辯完了,我把論文放出來。也和大家相互學習進步吧。