自然語言處理——文字分類平臺功能及UI設計
阿新 • • 發佈:2018-11-10
內容提要
本文件介紹我開發的自然語言處理——文字處理實驗平臺的系統功能及UI設計。大量實驗都是基於本工具平臺完成。
歡迎頁面
語料分析
功能:簡單統計語料類別下樣本的分佈情況,用餅圖顯示比例。可進一步增加其他詳細的分析功能,如詞分佈分析,文件長度分析等。
語料處理
功能:
- 通過選擇的原始語料目錄和分詞方法,點選“開始分詞”,分詞將輸出到制定路徑。右下側輸出資訊框會顯示完成資訊。
- 通過分詞結果,將本語料樣本含有的詞進行詞典化,用於詞文件矩陣的生成。
- 構建詞文件矩陣,通過點選“構建詞文件”按鈕,詞文件輸出到制定路徑。
- “輸入文字”文字框可以輸入文字或開啟檔案,測試觀察各分詞器的分詞效果。
詞文件矩陣格式如下:
英文支援
功能:本系統能夠支援英文語料的處理。
特徵選擇
左側功能:根據需要構建測試用例,分為比例行和數量型。
右側功能:根據配置引數和詞文件矩陣進行特徵選擇,輸入資訊見輸出列印。支援libSVM格式輸出。
特徵選擇輸出形式如下圖:
工作空間配置
功能:
- 配置測試用例路徑;
- 配置測試方式;
- 配置特徵選擇範圍;
- 配置特徵選擇方式;
- 配置特徵維度;
- 配置測試型別;
單一分類測試
功能:測試單個分類器單次的分類結果,列印分類混淆矩陣。
分類器速度對比
功能:通過選擇“時間對比”測試,複選多種分類演算法,測試分類器時間效能。輸出結果如上圖所示。
分類演算法對比
功能:通過選擇“演算法對比”測試,複選多種分類演算法,測試各分類器精度與時間效能。輸出結果如上圖所示。
特徵選擇對比
功能:通過選擇“特徵比較”測試,複選多種特徵選擇演算法,測試各分類器在不同特徵選擇演算法上的精度。
NLV引數調優
功能:根據上圖,選擇引數,點選NLV演算法域內的開始,輸出結果如圖。
kNN引數調優
功能:根據上圖,選擇引數,點選kNN演算法域內的開始,輸出結果如圖,其他圖形結果請點選相應標籤檢視。
SVM引數調優
功能:根據上圖,選擇c-SVM引數,點選c-SVM演算法域內的開始,輸出結果如圖,其他圖形結果需點選相應標籤檢視。
演示效果
總結說明
本平臺可根據不同的語料、不同的分詞工具、不同的特徵選擇方法,不同的分類方法和引數選擇,組成各種測試用例。
版權宣告:個人原創,請勿抄襲,轉載引用請註明出處.