Pytext實戰-構建一個文字分類器有多快

阿新 • • 發佈：2018-12-23

1 資料集準備

資料集包括兩個檔案： train.tsv和 test.tsv，內容是從網上搜集的情感文字資料，簡單地經過分詞後用空格拼接起來。訓練集和測試集各有10000條資料

2 構建文字分類器

Pytext框架包括了Task, Trainer, Model, DataHandler, Exporter 元件，分別對應了任務切換、模型訓練、模型結構、資料處理、模型匯出的作用，它們都繼承自名Component的類

(圖片來自: pytext-pytext.readthedocs-hosted.com/en/latest/o…

Component可以讀取JSON型別的配置檔案，配置檔案可以設定訓練過程中使用的輸入和學習率等引數。按照官方文字分類教程，我們幾乎可以不需要實現模型，輸入，輸出等程式碼，只需要準備好資料集即可。

docnn.json的內容如下：

{
  "task": {
    "DocClassificationTask": {
      "data_handler": {
        "train_path": "train.tsv",
        "eval_path": "test.tsv",
        "test_path": "test.tsv"
      }
    }
  }
}
複製程式碼

步驟1 訓練模型：

pytext train < docnn.json 
複製程式碼

經過3-4分鐘後，10 epoch訓練完畢，在沒有使用詞向量以及直接使用預設設定，在測試集的預測效果如下，

步驟2 匯出模型

CONFIG=docnn.json 
pytext export --output-path model.c2 < "$CONFIG"
複製程式碼

在桌面上我們可以看到匯出的模型 model.c2

步驟3 模型預測參考意圖識別的例子，我寫了下面的測試程式碼

# !/usr/bin/env python3
# -*- coding:utf-8 _*-
"""
@Author:yanqiang
@File: demo.py
@Time: 2018/12/21 19:06
@Software: PyCharm
@Description:
" 
""
import sys
import pytext
import jieba

config_file = sys.argv[1]
model_file = sys.argv[2]
text = sys.argv[3]
text = " ".join([word for word in jieba.cut(text)])
config = pytext.load_config(config_file)
predictor = pytext.create_predictor(config, model_file)
# Pass the inputs to PyText's prediction API
result = predictor({"raw_text": text})

# Results is a list of output blob names and their scores.
# The blob names are different for joint models vs doc models
# Since this tutorial is for both, let's check which one we should look at.
doc_label_scores_prefix = (
    'scores:' if any(r.startswith('scores:') for r in result)
    else 'doc_scores:'
)

# For now let's just output the top document label!
best_doc_label = max(
    (label for label in result if label.startswith(doc_label_scores_prefix)),
    key=lambda label: result[label][0],
    # Strip the doc label prefix here
)[len(doc_label_scores_prefix):]
print("輸入句子的情感為：%s" % best_doc_label)

複製程式碼

我們看看效果：

python main.py "$CONFIG" model.c2 "超級喜歡蒙牛這個味 道"
複製程式碼

python main.py "$CONFIG" model.c2 "這是什麼商品啊！太 差了吧？"
複製程式碼

3 總結

我們上面過程可以看到，pytext加速了模型從訓練到落地的速度，省去了很多繁瑣的工程。不過，我們上面的例子模型需要有待提高，需要研究下自定義模型和詞向量使用，提高分類效果。

Pytext實戰-構建一個文字分類器有多快

1 資料集準備資料集包括兩個檔案： train.tsv和 test.tsv，內容是從網上搜集的情感文字資料，簡單地經過分詞後用空格拼接起來。訓練集和測試集各有10000條資料 2 構建文字分類器 Pytext框架包括了Task, Trainer, Model, DataHandler,

使用gensim和sklearn搭建一個文字分類器（一）：流程概述

總的來講，一個完整的文字分類器主要由兩個階段，或者說兩個部分組成：一是將文字向量化，將一個字串轉化成向量形式；二是傳統的分類器，包括線性分類器，SVM, 神經網路分類器等等。之前看的THUCTC的技術棧是使用 tf-idf 來進行文字向量化，使用卡方校驗(c

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋 #從sklearn.datasets中匯入20類新聞文字抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #抓取新

基於 Raspberry Pi 構建一個飛機觀察器

步驟 inux 進展定義 lan 擁有 hit mbo helper 此項目使用帶超低成本軟件無線電 (SDR) 硬件的 Raspberry Pi，來接收數百萬裏之外的機載 S 模式應答器發送的跟蹤信息。Raspberry Pi 配備了靈巧的 3.5 英寸 TFT 顯示屏

使用.net core在Ubuntu構建一個TCP服務器

ask 技術分享 string 行程 art write star 可能工作介紹和背景 TCP編程是網絡編程領域最有趣的部分之一。在Ubuntu環境中，我喜歡使用.NET Core進行TCP編程，並使用本機Ubuntu腳本與TCP服務器進行通信。以前，我在.NET框架本

【火爐煉AI】機器學習039-NLP文字分類器

【火爐煉AI】機器學習039-NLP文字分類器 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2， NLTK 3.3) 前面我們學習了很多用NLP進行文字的分詞，文字分塊，建立詞袋模型等，這些步驟可以

Scikit-learn在Python中構建機器學習分類器

機器學習是電腦科學、人工智慧和統計學的研究領域。機器學習的重點是訓練演算法以學習模式並根據資料進行預測。機器學習特別有價值，因為它讓我們可以使用計算機來自動化決策過程。在本教程中，您將使用Scikit-learn（Python的機器學習工具）在Python中實現一個簡單的機器學習演算法。您將使用Naive

TensorFlow構建Random Forest分類器

""" Random Forest. Implement Random Forest algorithm with TensorFlow, and apply it to classify handwritten digit images. This example is using the M

3.8 Softmax迴歸 3.9 訓練一個softmax分類器

3.7Softmax迴歸（1）Softmax迴歸的功能：答案：分類（2）舉例：答案：系統中輸入一張圖片P，通過Softmax層，系統會

TensorFlow構建K-Means分類器

""" K-Means. Implement K-Means algorithm with TensorFlow, and apply it to classify handwritten digit images. This example is using the MN

用PyTorch建立一個影象分類器？So easy！（Part 1）

經過了幾個月的學習和實踐，我完成了優達學城網站上《Python Programming with Python Nanodegree》課程的學習，該課程的終極專案就是使用Pytorch為102種不同型別的花建立一個影象分類器。在完成這個專案的過程中，我和其他學員一樣，都碰到了各種問題

用PyTorch建立一個影象分類器？So easy！（Part 2）

在第一部分中，我們知道了為什麼以及如何載入預先訓練好的神經網路，我們可以用自己的分類器代替已有神經網路的分類器。那麼，在這篇文章中，我們將學習如何訓練分類器。訓練分類器首先，我們需要為分類器提供待分類的影象。本文使用ImageFolder載入影象，預訓練神經網路的輸入有特定的格

機器學習(9)--構建一個KNN迴歸器

構建一個KNN迴歸器程式碼如下: # -*- coding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt f

樸素貝葉斯分類演算法理解及文字分類器實現

貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本文作為分類演算法的第一篇，將首先介紹分類問題，對分類問題進行一個正式的定義。然後，介紹貝葉斯分類演算法的基礎——貝葉斯定理。最後，通過例項討論貝葉斯分類中最簡單的一種：樸素貝葉斯分類。

用Python實現一個SVM分類器策略

支援向量機(SVM)是什麼意思？正好最近自己學習機器學習，看到reddit上 Please explain Support Vector Machines (SVM) like I am a 5 year old 的帖子，一個字贊！於是整理一下和大家分享。(如有錯歡迎指教！) 什麼

使用Tensorflow自定義一個線性分類器對‘良/惡性乳腺癌腫瘤’進行預測

1 Tensorflow作為一個開源框架，在深度學習與機器學習方面有著很大的應用。對於Tensorflw就不作介紹，僅僅對其應用簡單的實現一下利用tensorflow自定義一個線性分類器對‘良/惡性乳腺癌腫瘤’進行預測2 程式碼實現及結果截圖#coding:utf-8#

grpc實戰——構建一個簡單的名稱解析服務

借用一下官方文件中的圖示，大家大概就能懂整個流程了，這個圖示也很好地展現了grpc語言無關的特性，服務端和客戶端可以是完全不一樣的兩個語言（但是必須是grpc支援的語言，目前主流的語言grpc都已經提供了支援）。第一步：建立專案這裡我們主要是建立一個多模組專案名稱為grpc，然後在其中建立兩個模組grpc-s

基於樸素貝葉斯的中文文字分類器(python實現，非呼叫)

本文將用樸素貝葉斯原理做一箇中文文字分類器。樸素貝葉斯完全可以勝任多分類任務。為了方便，這裡就先做個2分類的。理論部分：https://blog.csdn.net/montecarlostyle/article/details/79870860 我們事先準備兩

FastText：快速的文字分類器

一、簡介 fasttext是facebook開源的一個詞向量與文字分類工具，在2016年開源，典型應用場景是“帶監督的文字分類問題”。提供簡單而高效的文字分類和表徵學習的方法，效能比肩深度學習而且速度更快。 fastText結合了自然語言處理和

Pytext實戰-構建一個文字分類器有多快

1 資料集準備

2 構建文字分類器

3 總結

相關推薦