自然語言處理——文字分類平臺功能及UI設計

阿新 • • 發佈：2018-11-10

內容提要

歡迎頁面
語料分析
語料處理
英文支援
特徵選擇
工作空間配置
單一分類測試
分類器速度對比
分類演算法對比
特徵選擇對比
NLV引數調優
kNN引數調優
SVM引數調優
演示效果
總結說明

本文件介紹我開發的自然語言處理——文字處理實驗平臺的系統功能及UI設計。大量實驗都是基於本工具平臺完成。

歡迎頁面

在這裡插入圖片描述

語料分析

在這裡插入圖片描述
功能：簡單統計語料類別下樣本的分佈情況，用餅圖顯示比例。可進一步增加其他詳細的分析功能，如詞分佈分析，文件長度分析等。

語料處理

在這裡插入圖片描述
功能：

通過選擇的原始語料目錄和分詞方法，點選“開始分詞”，分詞將輸出到制定路徑。右下側輸出資訊框會顯示完成資訊。
通過分詞結果，將本語料樣本含有的詞進行詞典化，用於詞文件矩陣的生成。
構建詞文件矩陣，通過點選“構建詞文件”按鈕，詞文件輸出到制定路徑。
“輸入文字”文字框可以輸入文字或開啟檔案，測試觀察各分詞器的分詞效果。

詞文件矩陣格式如下：
在這裡插入圖片描述

英文支援

在這裡插入圖片描述
功能：本系統能夠支援英文語料的處理。

特徵選擇

在這裡插入圖片描述
左側功能：根據需要構建測試用例，分為比例行和數量型。

在這裡插入圖片描述
右側功能：根據配置引數和詞文件矩陣進行特徵選擇，輸入資訊見輸出列印。支援libSVM格式輸出。
特徵選擇輸出形式如下圖：

工作空間配置

在這裡插入圖片描述
功能：

配置測試用例路徑；
配置測試方式；
配置特徵選擇範圍；
配置特徵選擇方式；
配置特徵維度；
配置測試型別；

單一分類測試

在這裡插入圖片描述
功能：測試單個分類器單次的分類結果，列印分類混淆矩陣。

分類器速度對比

在這裡插入圖片描述
功能：通過選擇“時間對比”測試，複選多種分類演算法，測試分類器時間效能。輸出結果如上圖所示。

分類演算法對比

在這裡插入圖片描述
功能：通過選擇“演算法對比”測試，複選多種分類演算法，測試各分類器精度與時間效能。輸出結果如上圖所示。

特徵選擇對比

在這裡插入圖片描述
功能：通過選擇“特徵比較”測試，複選多種特徵選擇演算法，測試各分類器在不同特徵選擇演算法上的精度。

NLV引數調優

在這裡插入圖片描述
功能：根據上圖，選擇引數，點選NLV演算法域內的開始，輸出結果如圖。

kNN引數調優

在這裡插入圖片描述
功能：根據上圖，選擇引數，點選kNN演算法域內的開始，輸出結果如圖，其他圖形結果請點選相應標籤檢視。

SVM引數調優

在這裡插入圖片描述
功能：根據上圖，選擇c-SVM引數，點選c-SVM演算法域內的開始，輸出結果如圖，其他圖形結果需點選相應標籤檢視。

演示效果

在這裡插入圖片描述

總結說明

本平臺可根據不同的語料、不同的分詞工具、不同的特徵選擇方法，不同的分類方法和引數選擇，組成各種測試用例。

版權宣告：個人原創，請勿抄襲，轉載引用請註明出處.

自然語言處理——文字分類平臺功能及UI設計

內容提要歡迎頁面語料分析語料處理英文支援特徵選擇工作空間配置單一分類測試分類器速度對比分類演算法對比特徵選擇對比 NLV引數調優 kNN引數調優

自然語言處理——文字分類概述

內容提要分類概述分類流程資料採集爬蟲技術頁面處理文字預處理英文處理中文處理去停用詞文字表示特徵選擇分類模型分類概述

Python自然語言處理—文字分類—樸素貝葉斯

一貝葉斯公式公式很好理解，當我們相求已知狀態X下打上Y標籤的概率的時候，可以將問題分以下三個問題 1，求標籤Y下X狀態的概率 2，求標籤Y的概率 3，求X狀態的概率以上三個問題可以簡單的統計已知樣本就可以獲取得到，這個工作是可以大規模並行處理的。我們再數學一點的

自然語言處理——文字分類

文字分類是自然語言處理中的一個重要應用。也是學習了機器學習各種模型後，最好的一個實際運用。之前也寫了一些文章，但是都是斷斷續續，從來沒有寫成系列。這兩年的工作，總算是有機會輪到我做一些應用NLP技術的工

基於百度AI的自然語言處理文字分類

前言：需要在百度AI平臺註冊登入並建立專案。爬蟲程式碼 1 import scrapy 2 from BaiDuAi.items import BaiduaiItem 3 4 class AiSpider(scrapy.Spider): 5 name =

Spark2.0 特征提取、轉換、選擇之二：特征選擇、文本處理，以中文自然語言處理(情感分類)為例

true 方便 linear value taf 文檔 ota ati inter 特征選擇 RFormula RFormula是一個很方便，也很強大的Feature選擇（自由組合的）工具。輸入string 進行獨熱編碼（見下面例子country）輸入數值型轉換為dou

自然語言處理——中文分詞原理及分詞工具介紹

本文首先介紹下中文分詞的基本原理，然後介紹下國內比較流行的中文分詞工具，如jieba、SnowNLP、THULAC、NLPIR，上述分詞工具都已經在github上開源，後續也會附上github連結，以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述中文分詞(Chinese Word Seg

NLP自然語言處理常用的Python庫及安裝方法

1、NLTK Natural Language Toolkit，自然語言處理工具包，在NLP領域中，最常使用的一個Python庫。安裝：pip install nltk 2、Gensim 可以用來從文件中自勱提取語義主題。它包含了很多非監督學習演算法如：TF/IDF，潛在語義分

Python自然語言處理 5 分類和標註詞彙

目標：（１）什麼是詞彙分類，在自然語言處理中它們如何使用？（２）對於儲存詞彙和它們的分類來說什麼是好的Python資料結構？（３）如何自動標註文字中每個詞彙的詞類？基本技術，包括序列標註，N-gram模型，回退和評估一　使用詞性標註器 text = nltk.w

自然語言處理—文字情感分析

自然語言處理（NLP）中的文字情感分析是一個重要的應用領域，多用於評價性的使用者資訊回饋，如電影影評和購物後的評價。而情感分析主要是通過使用者的回答文字資料（中文），進行文字情感量化分析，現有的情感分析方法：1.情感詞典分析方法。2.機器學習分析方法。情

Pyhon 自然語言處理（一）NLTK及語料庫下載

Python 自然語言處理（一）NLTK及語料庫下載 NLTK是用來進行自然語言處理很強大的包，本文介紹Python下安裝NLTK及語料下載 1. 安裝 NLTK pip install nltk 如果已經安裝了 Anaconda 則預設

斯坦福大學-自然語言處理入門筆記第六課文字分類與樸素貝葉斯

一、文字分類任務概述 1、應用領域歸類垃圾郵件識別作者識別性別/年齡識別等等 2、定義輸入：一個文件d，一系列固定的型別C={c1,c2,…,cj} 輸出：預測類別c ∈ C 3、分類方法

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

摘要：本文講的是用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯等，自然語言處理領域正在從統計學方法轉向神經網路方法。在自然語言中，仍然存在許多具有挑戰性的問題。但是，深度學習方法在某些特定的語言問題上取得了state-of-the-art的結果。本文講的是用深度學習解決自

自然語言處理系列-2-文字分類-傳統機器學習方法

文件分類是指給定文件p（可能含有標題t），將文件分類為n個類別中的一個或多個，本文以人機寫作為例子，針對有監督學習簡單介紹傳統機器學習方法。文件分類的常見應用: 新聞分類: 也就是給新聞打標籤，一般標籤有幾千個，然後要選取k個標籤，多分類問題，可見2017知乎

自然語言處理系列-2-文字分類-深度學習-2

3. 正文與標題文件分為正文和標題兩部分，一般兩部分分開處理，可以共享Embedding層也可以不共享，人機寫作分類問題中我們沒有共享Embedding。 3.1 正文多層CNN，未使用標題 CNN需要設定不同大小的卷積核，並且多層卷積才能較好的捕獲文字的特徵

自然語言處理課程作業中文文字情感分類

摘要：20世紀初以來，文字的情感分析在自然語言處理領域成為了研究的熱點，吸引了眾多學者越來越多的關注。對於中文文字的情感傾向性研究在這樣一大環境下也得到了顯著的發展。本文主要是基於機器學習方法的中文文字情感分類，主要包括：使用開源的Markup處理程式對XML檔案進行分析處理、中科院計算所開源的中文分詞處理

自然語言處理(NLP) 三：詞袋模型 + 文字分類

1.詞袋模型（BOW,bag of words) 用詞頻矩陣作為每個樣本的特徵 Are you curious about tokenization ? Let’s see how it works! we need to analyze a coupl

自然語言處理之文字分類

一、前言　　文字分類(Text Classification或Text Categorization，TC)，或者稱為自動文字分類(Automatic Text Categorization)，是指計算機將載有資訊的一篇文字對映到預先給定的某一類別或某幾類別主題的過程。文字分類另外也屬於自然語言處理領域。文

自然語言處理中的Attention Model：是什麽及為什麽

NLP系列(1)_從破譯外星人文字淺談自然語言處理的基礎

應用展現發現 func 文本詞幹 pos 中文分詞漢語作者：龍心塵 &&寒小陽時間：2016年1月。出處： http://blog.csdn.net/longxinchen_ml/article/details/505

自然語言處理——文字分類平臺功能及UI設計

內容提要

歡迎頁面

語料分析

語料處理

英文支援

特徵選擇

工作空間配置

單一分類測試

分類器速度對比

分類演算法對比

特徵選擇對比

NLV引數調優

kNN引數調優

SVM引數調優

演示效果

總結說明

相關推薦