文字分類（二）：使用Pytorch進行文字分類——TextCNN

阿新 • • 發佈：2021-08-09

一、架構圖

二、程式碼實現

class TextCNN(nn.Module):

    def __init__(self,
                 config:TCNNConfig,
                 char_size = 5000, pinyin_size=5000):
        super(TextCNN, self).__init__()
        self.learning_rate = config.learning_rate
        self.keep_dropout = config.keep_dropout
        self.sequence_length  
= config.sequence_length
        self.char_embedding_size = config.char_embedding_size
        self.pinyin_embedding_size = config.pinyin_embedding_size
        self.filter_list = config.filter_list
        self.out_channels = config.out_channels
        self.l2_reg_lambda = config.l2_reg_lambda
        self.model_dir  
= config.model_dir
        self.data_save_frequency = config.data_save_frequency
        self.model_save_frequency = config.model_save_frequency
        self.char_size = char_size
        self.pinyin_size = pinyin_size
        self.embedding_size = self.char_embedding_size
        self.total_filters_size  
= self.out_channels * len(self.filter_list)
        self.build_model()

    def build_model(self):
        # 初始化字向量
        self.char_embeddings = nn.Embedding(self.char_size, self.char_embedding_size)
        # 字向量參與更新
        self.char_embeddings.weight.requires_grad = True
        # 初始化拼音向量
        self.pinyin_embeddings = nn.Embedding(self.pinyin_size, self.pinyin_embedding_size)
        self.pinyin_embeddings.weight.requires_grad = True
        self.conv_list = nn.ModuleList()

        conv_list = [nn.Sequential(
            nn.Conv1d(self.embedding_size, self.out_channels, filter_size),
            nn.BatchNorm1d(self.out_channels),
            nn.ReLU(inplace=True)
        ) for filter_size in self.filter_list]
        # 卷積列表
        self.conv_lists_layer = nn.ModuleList(conv_list)



        self.output_layer = nn.Sequential(
            nn.Dropout(self.keep_dropout),
            nn.Linear(self.total_filters_size, self.total_filters_size),
            nn.ReLU(inplace=True),
            nn.Linear(self.total_filters_size, 2)
        )

    def forward(self, char_id, pinyin_id):
        # char_id = torch.from_numpy(np.array(input[0])).long()
        # pinyin_id = torch.from_numpy(np.array(input[1])).long()
        pooled_outputs = []
        sen_char = self.char_embeddings(char_id)
        sen_pinyin = self.pinyin_embeddings(pinyin_id)
        sen_embed = torch.cat((sen_char, sen_pinyin), dim=1)
        # 轉換成 (N C SEN_LEN) 的形式
        sen_embed = sen_embed.permute(0, 2, 1)
        for conv in self.conv_lists_layer:
            # print(sen_embed.shape)
            conv_output = conv(sen_embed)
            max_polling_output = torch.max(conv_output, dim=2)
            pooled_outputs.append(max_polling_output[0])

        total_pool = torch.cat(pooled_outputs, 1)
        flatten_pool = total_pool.view(-1, self.total_filters_size)
        fc_output = self.output_layer(flatten_pool)
        return fc_output

三、經驗值

TextCNN優點是模型簡單、訓練和預測的速度快；缺點是超參（主要是卷積核列表）不易確定，效果不如BiLSTM+Attention；
https://blog.csdn.net/dendi_hust/article/details/98211144

文字分類（二）：使用Pytorch進行文字分類——TextCNN

一、架構圖二、程式碼實現 class TextCNN(nn.Module): def __init__(self, config:TCNNConfig, char_size = 5000, pinyin_size=5000):

文字分類（六）：不平衡文字分類，Focal Loss理論及PyTorch實現

轉載於：https://zhuanlan.zhihu.com/p/361152151 轉載於：https://www.jianshu.com/p/30043bcc90b6 摘要：本篇主要從理論到實踐解決文字分類中的樣本不均衡問題。首先講了下什麼是樣本不均衡現象以及可能帶來的問題

文字分類（一）：使用Pytorch進行文字分類——BiLSTM+Attention

一、架構圖二、程式碼 class TextBILSTM(nn.Module): def __init__(self, config:TRNNConfig, char_size = 5000,

文字分類（三）：使用Pytorch進行文字分類——Transformer

一、前言文字分類不是生成式的任務，因此只使用Transformer的編碼部分（Encoder）進行特徵提取。如果不熟悉Transformer模型的原理請移步。

Bert文字分類實踐（二）：魔改Bert，融合TextCNN的新思路

寫在前面文字分類是nlp中一個非常重要的任務，也是非常適合入坑nlp的第一個完整專案。雖然文字分類看似簡單，但裡面的門道好多好多，博主水平有限，只能將平時用到的方法和trick在此做個記錄和分享，希望各位看

第三天學習進度--文字情感分類（二）

昨天在情感處理的學習中瞭解到了關於word2vec的用法，今天我們繼續康康doc2vec究竟在情感分類的過程中是如何使用的。

機器學習演算法-樸素貝葉斯（二）：模擬離散資料集--貝葉斯分類（程式碼附詳細註釋）

技術標籤：樸素貝葉斯機器學習 step 1：庫函式匯入 import random import numpy as np # 使用基於類目特徵的樸素貝葉斯

【異常檢測】DAGMM：結合深度自編碼器器和GMM的端到端無監督網路（二）：程式碼實戰（PyTorch）

技術標籤：paper研讀機器學習異常檢測無監督學習程式碼部分基於PyTorch1.6.0，使用網路入侵異常檢測資料集KDDCUP99來訓練和評測，完整程式碼見：GitHub。

Pytorch實戰學習（二）：用Pytorch實現邏輯迴歸

《PyTorch深度學習實踐》完結合集_嗶哩嗶哩_bilibili 用Pytorch實現邏輯迴歸 Logistic Regression

文字分類（五）：transformers庫BERT實戰，基於BertForSequenceClassification

一、程式碼一 import pandas as pd import codecs from config.root_path import root import os from utils.data_process import get_label,text_preprocess

svm例項———使用libsvm進行分類（二）

一、資料 label：漢明重量作為標籤 mix：明文和金鑰異或後的資料【？】二、程式碼流程

伯陽的網路筆記（二）：HTTP基礎

因為疫情期間在外當志願者，晚上回家無聊翻翻網路知識，權當記錄了。初始動筆：2019-02-03

Java SE基礎鞏固（二）：String類

String使用頻率非常高，無論是在大型還是小型的應用程式都會大量的使用String類。所以，理解並以高效能的方式使用String是非常重要的。

Spring Boot （二）：模版引擎 Thymeleaf 渲染 Web 頁面

在《Spring Boot（一）：快速開始》中介紹瞭如何使用 Spring Boot 構建一個工程，並且提供 RESTful API ，本節我們繼續介紹如何使用 Spring Boot 渲染 Web 頁面。

從零寫一個編譯器（二）：語法分析之前置知識

前言在之前完成了詞法分析之後，得到了Token流，那麼接下來就是實現語法分析器來輸入Token流得到抽象語法樹（Abstract Syntax Tree，AST）。但是在完成這個語法分析器不像詞法分析器，直接手擼就好了，還是需要一些

RocketMQ深度解析（二）：NameServer

NamerServer NameServer是一個非常簡單的Topic路由註冊中心，其角色類似Dubbo中的zookeeper，支援Broker的動態註冊與發現。主要包括兩個功能：Broker管理，NameServer接受Broker叢集的註冊資訊並且儲存下來作為路由資

我是如何學習寫一個作業系統（二）：作業系統的啟動之Bootloader

前言今天本來的任務看書和把之前寫的FragileOS整理一下，但是到現在還在摸魚，書也只看一點。後來整理了一下寫這個系列的思路，原本的目的是對作業系統原理性的學習和對之前寫的一個玩具型作業系統的回顧，就是想對

Spring Boot實戰（二）：Spring Boot連線MySQL資料庫

上篇Spring Boot實戰（一）：只需兩步！Eclipse+Maven快速構建第一個Spring Boot專案已經構建了一個Spring Boot專案，本文在此基礎上使用Hibernate進行連線MySQL資料庫的操作。

Spring data jpa 的使用與詳解（二）：複雜動態查詢及分頁，排序

上一篇介紹了spring data jpa在spring boot中的基本搭建和整合，以及較為簡單的查詢，這一篇來說spring data jpa中如何實現較為複雜的查詢及分頁，排序。

MySQL複習（二）：MySQL鎖、MySQL事務、SQL優化、資料庫分庫分表

五、MySQL鎖根據加鎖的範圍，MySQL裡面的鎖大致可以分成全域性鎖、表級鎖和行鎖三類

文字分類（二）：使用Pytorch進行文字分類——TextCNN

一、架構圖

二、程式碼實現

三、經驗值

相關推薦