【NLP】CNN文字分類原理及python程式碼實現

阿新 • • 發佈：2019-01-10

CNN分類模型架構

python程式碼實現：

#!/usr/bin/python
# -*- coding: utf-8 -*-

import tensorflow as tf
class TCNNConfig(object):
#class TCNNConfig(filename):
    """CNN配置引數"""

    embedding_dim = 64      # 詞向量維度
    seq_length = 600        # 序列長度
    num_classes = 2   # 類別數
    num_filters = 256        # 卷積核數目
    kernel_size = 5         # 卷積核尺寸
    vocab_size = 5000       # 字典大小
    # vocab_size = 5000       # 字典大小

    hidden_dim = 128        # 全連線層神經元

    dropout_keep_prob = 0.5 # dropout保留比例
    learning_rate = 1e-3    # 學習率

    batch_size = 128       # 每批訓練大小
    num_epochs = 1        # 總迭代輪次

    print_per_batch = 10   # 每多少輪輸出一次結果
    save_per_batch = 10      # 每多少輪存入tensorboard


class TextCNN(object):
    """文字分類，CNN模型"""
    def __init__(self, config):
        self.config = config

        # 三個待輸入的資料
        self.input_x = tf.placeholder(tf.int32, [None, self.config.seq_length], name='input_x')
        self.input_y = tf.placeholder(tf.float32, [None, self.config.num_classes], name='input_y')
        self.keep_prob = tf.placeholder(tf.float32, name='keep_prob')

        self.cnn()

    def cnn(self):
        """CNN模型"""
        # 詞向量對映
        with tf.device('/cpu:0'):
            embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
            embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
            # self.embedding_inputs = embedding_inputs

        with tf.name_scope("cnn"):
            # CNN layer
            conv = tf.layers.conv1d(embedding_inputs, self.config.num_filters, self.config.kernel_size, name='conv')
            # self._conv = conv
            # global max pooling layer
            gmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')

        with tf.name_scope("score"):
            # 全連線層，後面接dropout以及relu啟用
            fc = tf.layers.dense(gmp, self.config.hidden_dim, name='fc1')
            fc = tf.contrib.layers.dropout(fc, self.keep_prob)
            fc = tf.nn.relu(fc)

            # 分類器
            self.logits = tf.layers.dense(fc, self.config.num_classes, name='fc2')
            self.props=tf.nn.softmax(self.logits)
            self.y_pred_cls = tf.argmax(tf.nn.softmax(self.logits), 1)  # 預測類別

        with tf.name_scope("optimize"):
            # 損失函式，交叉熵
            cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.input_y)
            self.loss = tf.reduce_mean(cross_entropy)
            # 優化器
            self.optim = tf.train.AdamOptimizer(learning_rate=self.config.learning_rate).minimize(self.loss)

        with tf.name_scope("accuracy"):
            # 準確率
            correct_pred = tf.equal(tf.argmax(self.input_y, 1), self.y_pred_cls)
            self.acc = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

【NLP】CNN文字分類原理及python程式碼實現

CNN分類模型架構 python程式碼實現： #!/usr/bin/python # -*- coding: utf-8 -*- import tensorflow as tf class TCNNConfig(object): #class TCNNConfig(

PSNR-峰值信噪比(原理及python程式碼實現)

PSNR的全稱為“Peak Signal-to-Noise Ratio”，直譯為中文就是峰值信噪比。是一種衡量影象質量的指標。在很多領域都會需要這個指標，比如在超解析度重建影象的時候，PSNR就是很重要的指標了。 WIKI解釋峰值信噪比（英語：Peak signal-to

【NLP】Tika 文字預處理：抽取各種格式檔案內容

作者白寧超 2016年3月30日18:57:08 摘要：本文主要針對自然語言處理（NLP）過程中，重要基礎部分抽取文字內容的預處理。首先我們要意識到預處理的重要性。在大資料的背景下，越來越多的非結構化半結構化文字。如何從海量文字中抽取我們需要的有價值的知識顯得尤為重要。另外文字格式常常不一，諸

【Java】Java8 HashMap工作原理及實現

1 、概述從本文你可以學到什麼時候會使用HashMap？他有什麼特點？你知道HashMap的工作原理嗎？你知道get和put的原理嗎？equals()和hashCode()的都有什麼作用？你知道hash的實現嗎？

樸素貝葉斯分類原理及Python實現簡單文字分類

貝葉斯定理：這個定理解決了現實生活裡經常遇到的問題：已知某條件概率，如何得到兩個事件交換後的概率，也就是在已知P(A|B)的情況下如何求得P(B|A)。這裡先解釋什麼是條件概率：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。

【MyBatis】MyBatis Tomcat JNDI原理及原始碼分析

一、 Tomcat JNDI JNDI(java nameing and drectory interface)，是一組在Java應用中訪問命名和服務的API，所謂命名服務，即將物件和名稱聯絡起來，使得可以通過名稱訪問並獲取物件。簡單

【原】高清顯示屏原理及設計方案

接近年底了，又到產品們趕KPI的時間，開發也跟著辛苦，於是連續加班了4個星期，專案總算有點起色，也終於擠出點時間，寫篇文章，just for fun ~ 高清顯示屏原理，之前在團隊內做過的一個類似的分享，因為上次有園友問了我手機端css sprite 的設計原理，不知道手機端的圖片為什麼是用2倍大，背景

【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)

這個演算法中文名為k均值聚類演算法，首先我們在二維的特殊條件下討論其實現的過程，方便大家理解。第一步.隨機生成質心由於這是一個無監督學習的演算法，因此我們首先在一個二維的座標軸下隨機給定一堆點，並隨即給定兩個質心，我們這個演算法的目的就是將這一堆點根據它們自身的座標特徵分為兩類，因此選取了兩個質心，什麼時

【珍藏】積攢的高逼格Python程式碼，持續更新中......

用Python程式設計很久了，總感覺寫的很low，可不能總這樣呢。程式設計師逼格很重要，特別是以後還得不斷進階。於是學習一下別人Pythonic的風格，以備不時之需............. 1.簡潔的編碼彙總 1.1 快速生成字典 >>>

利用霍夫變換做直線檢測的原理及OpenCV程式碼實現

說白了，以直線檢測為例，霍夫變換實際上就是把使每個畫素座標點經過變換都變成都直線特質有貢獻的統一度量(這種度量以我目前的理解與笛卡爾(極坐系)並無區別，即極半徑和極角)，並對轉換後的度量進行累計(可以理解為投票)，當一個波峰出現時候，說明有直線存在。如果要了解更詳細的，大

隨機森林的原理分析及Python程式碼實現

轉載地址：https://blog.csdn.net/flying_sfeng/article/details/64133822/在講隨機森林前，我先講一下什麼是整合學習。整合學習通過構建並結合多個分類器來完成學習任務。整合學習通過將多個學習器進行結合，常可獲得比單一學習器更

引導濾波原理及C++程式碼實現

前置內容在學習引導濾波，最好對高斯濾波和雙邊濾波有過理解，對於高斯濾波: W i

增強影象對比度演算法原理及matlab程式碼實現

clc; close all; clear all; % -------------Gamma Transformations----------------- %f = imread('Fig0316(4)(bottom_left).tif');

利用Canny邊緣檢測運算元進行邊緣檢測的原理及OpenCV程式碼實現

Canny運算元是John Canny在1986年發表的論文中首次提出的邊緣檢測運算元，該運算元檢測效能比較好，應用廣泛。 Canny運算元進行邊緣檢測的原理和步驟如下： ⑴消除噪聲。邊緣檢測的演算法主要是基於影象強度的一階和二階微分操作，但導數通常對噪聲很敏感，邊緣檢測

影象去霧之何凱明暗通道先驗去霧演算法原理及c++程式碼實現

http://blog.csdn.net/s12244315/article/details/50292049 何凱明博士，2007年清華大學畢業，2011年香港中文大學博士畢業，可謂是功力深厚，感嘆於國內一些所謂博士的水平，何這樣的博士才可以真正叫做

最短路徑A*演算法原理及java程式碼實現（看不懂是我的失敗）

package astar; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.List; imp

[技術棧]CRC校驗原理及C#程式碼實現CRC16、CRC32計算FCS校驗碼

1.CRC、FCS是什麼 CRC，全稱Cyclic Redundancy Check，中文名稱為迴圈冗餘校驗，是一種根據網路資料包或計算機檔案等資料產生簡短固定位數校驗碼的一種通道編碼技術，主要用來檢測或校驗資料傳輸或者儲存後可能出現的錯誤。它是利用除法及餘數的原理來作錯誤偵測的。 FCS，全稱Frame C

常見排序演算法原理及JS程式碼實現

[toc] `建立時間：2020-08-07` 本文只是將作者學習的過程以及演算法理解進行簡單的分享，提供多一個角度的理解說明，或許讓你的困惑能得以解決（**程式碼或說明若有問題，歡迎留言、聯絡更正！以免造成更多困惑**）如果要更深入研究這些演算法的同學，社群中同類型更優秀，單個演算法更深入剖析的文章

關於高斯模糊的詳細介紹及python程式碼實現

講的是Gaussian Blur,講的很詳細，值得仔細閱讀！ python最常用的影象處理庫是PIL（PythonImaging Library），它內建了高斯模糊方法，簡單程式碼如下： import Image import ImageFilter im=Ima

Pearson相關係數公式的四種形式及Python程式碼實現

原文：http://blog.csdn.net/zhangjunjie789/article/details/51737366 兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商。第一種形式（也就是定義的形式）：第二種形式：第三種形式：第四種形

【NLP】CNN文字分類原理及python程式碼實現

相關推薦