tensorflow(二)文字分類

阿新 • • 發佈：2018-11-13

文字分類是自然語言處理中的一個重要領域。在神經網路未興起之前，svm在分類方面獨領風騷。j即使在現在，svm在很多場景下也很有用。但是神經網路提高了準確率，使其迅速火了起來。下面是tensorflow官網給出的例子（https://tensorflow.google.cn/tutorials/keras/basic_text_classification）

import tensorflow as tf
from tensorflow import keras
import numpy as np

#1.下載資料
imdb=keras.datasets.imdb
#num_words=10000表示保留前10000個出現頻率最高的詞,頻率在此之後的可能被丟棄 

(train_data,train_labels),(test_data,test_labels)=imdb.load_data(num_words=10000)
print("Training entries:{},labels:{}".format(len(train_data),len(train_labels)))\
#每行是一個數字陣列，類似於1, 14, 22, 16, 43, 530, 973]其中每個數字代表唯一的一個詞
print(train_data[0])
#由於每個評論的長度長短都不一樣，所以陣列的長度也不一樣
print(str(len(train_data[0]))+"/"+str 
(len(train_data[1])))
#2.轉換資料
#由於網路的輸入的維數是固定的，因此需要將陣列轉化為統一的長度
word_index=imdb.get_word_index()

# The first indices are reserved
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2  # unknown
word_index["<UNUSED>" 
] = 3

#train_data代表要處理的資料,value代表要用什麼資料填充，這裡是０,padding代表在前還是在後填充,pre代表前,post代表後.
# maxlen代表最大長度，超過該長度將會被截斷
train_data = keras.preprocessing.sequence.pad_sequences(train_data,
                                                        value=word_index["<PAD>"],
                                                        padding='post',
                                                        maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data,
                                                       value=word_index["<PAD>"],
                                                       padding='post',
                                                       maxlen=256)
#3.build model

vocab_size=10000
model=keras.Sequential()
model.add(keras.layers.Embedding(vocab_size,16))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16,activation=tf.nn.relu))
model.add(keras.layers.Dense(1,activation=tf.nn.sigmoid))
model.summary()

model.compile(optimizer=tf.train.AdamOptimizer(),
              loss="binary_crossentropy")

#4.建立校驗集
x_val=train_data[:10000]
partial_x_train=train_data[10000:]

y_val=train_labels[:10000]
partial_y_train=train_labels[10000:]

model.fit(
    partial_x_train,
    partial_y_train,
    epochs=40,
    batch_size=512,
    validation_data=(x_val,y_val),
    verbose=1
 )

results=model.evaluate(test_data,test_labels)


print(results)

tensorflow(二)文字分類

文字分類是自然語言處理中的一個重要領域。在神經網路未興起之前，svm在分類方面獨領風騷。j即使在現在，svm在很多場景下也很有用。但是神經網路提高了準確率，使其迅速火了起來。下面是tensorflow官網給出的例子（https://tensorflow.google.cn/tutorials

tensorflow 教程文字分類 IMDB電影評論

昨天配置了tensorflow的gpu版本，今天開始簡單的使用一下主要是看了一下tensorflow的tutorial 裡面的 IMDB 電影評論二分類這個教程教程裡面主要包括了一下幾個內容：下載IMDB資料集，顯示資料（將陣列轉換回評論文字），準備資料，建立模型（隱層設定，優化器和損失函式的配置），

tensorflow實現文字分類

Tensorflow文字分類練習初學tensorflow，借鑑了很多別人的經驗，參考部落格對評論分類(感謝博主的一系列好文)，本人也嘗試著實現了對文字資料的分類。 1、資料這裡借用此部落格提供的負類資料和正類資料對程式進行驗證(再次感謝此博主)。這些資

圖解機器學習：神經網路和 TensorFlow 的文字分類

開發人員經常說，如果你想開始機器學習，你應該首先學習演算法。但是我的經驗則不是。我說你應該首先了解：應用程式如何工作。一旦瞭解了這一點，深入探索演算法的內部工作就會變得更加容易。那麼，你如何開發直覺學習，並實現理解機器學習這個目的？一個很好的方法是建立機器學習模型。假設

如何用 Spark 深度整合 Tensorflow 實現文字分類

這篇文章會分成以下 7 個部分：開發環境準備PySpark 基礎：基於 Dataframe 的 wordcount 實現PySpark MLlib 基礎-自動化特徵工程Tensorflow 基礎：Tensorflow 的編碼套路深度學習與 NLP 基礎：如何用深度學習完成 N

文字分類之CNN模型（TensorFlow實現版本）

前言最近在琢磨文字分類相關的深度學習模型，也研讀了以下三篇使用卷積神經網路CNN實現的文字分類論文：（1）《Convolutional Neural Networks for Sentence Classification》（2）《Character-level Convo

TensorFlow之tf.keras的文字分類

這段時間在學習TensorFlow，這些都是一些官網上的例子，在這裡和大家分享記錄一下。此教程使用評論文字將電影評論分類為正面或負面。這是二元或兩類分類的一個例子，這是一種重要且廣泛適用的機器學習問題。我們將使用包含來自Internet電影資料庫的50

CNN字元級中文文字分類-基於TensorFlow實現

本章旨在使用TensorFlow API實現卷積神經網路文字分類。如今，TensorFlow大版本已經升級到了1.3，對很多的網路層實現了更高層次的封裝和實現，甚至還整合瞭如Keras這樣優秀的一些高層次框架，使得其易用性大大提升

基於RNN的文字分類模型（Tensorflow）

基於LSTM（Long-Short Term Memory，長短時記憶人工神經網路，RNN的一種）搭建一個文字意圖分類的深度學習模型（基於Python3和Tensorflow1.2），其結構圖如下：如圖1所示，整個模型包括兩部分第一部分：句子特徵提取 Step1 讀

tensorflow實現基於LSTM的文字分類方法

引言學習一段時間的tensor flow之後，想找個專案試試手，然後想起了之前在看Theano教程中的一個文字分類的例項，這個星期就用tensorflow實現了一下，感覺和之前使用的theano還是有很大的區別，有必要總結mark一下模型說明這個

文字分類（二）：scrapy爬取網易新聞

文字分類的第一項應該就是獲取文字了吧。在木有弄懂scrapy的情況下寫的，純應用，或許後續會補上scrapy的原理。首先說一下我的環境：ubuntu14.10 scrapy安裝指南（肯定官網的最權威了）：[傳送門](http://scrapy-chs.rea

TensorFlow使用CNN實現中文文字分類

讀研期間使用過TensorFlow實現過簡單的CNN情感分析（分類），當然這是比較low的二分類情況，後來進行多分類情況。但之前的學習基本上都是在英文詞庫上訓練的。斷斷續續，想整理一下手頭的專案資料，於是就拾起讀研期間的文字分類的小專案，花了一點時間，把原來英文文字分類的專案，應用在中文文字分類，效

Tensorflow實現的CNN文字分類

翻譯自部落格：IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW 在這篇文章中，我們將實現一個類似於Kim Yoon的卷積神經網路語句分類的模型。本文提出的模型在一系列文字分類任務（如情感分析

用Tensorflow實現CNN文字分類(詳細解釋及TextCNN程式碼解釋)

Ox00: Motivation最近在研究Yoon Kim的一篇經典之作Convolutional Neural Networks for Sentence Classification，這篇文章可以說是cnn模型用於文字分類的開山之作（其實第一個用的不是他，但是Ki

機器學習（二十）——文字分類的事件模型（Event models for text classification）

為了結束我們對生成性學習演算法的討論，讓我們再來談談一個專門用於文字分類的模型。雖然我們已經介紹了樸素貝葉斯，但它在許多分類問題例如文字分類上都會很好地工作，會有一個相關的模型做得更好。在文字分類的具體背景下，提出的樸素貝葉斯採用所謂的多元伯努利事件模型。在這個模型中，我們假

【備忘】2017年深度學習之Tensorflow專案實戰視訊課程-文字分類

1課程任務與環境簡介2Tensorflow安裝 03:313資料與任務簡介 04:144如何使用卷積神經網路進行文字分類 13:085配置專案所涉及引數 15:026資料讀取 11:017資料切分 11:268構造session計算域 09:079卷積網路模組定義 12:5

基於tensorflow 的cnn實現文字分類

# coding: utf-8 # In[72]: import os, xlrd import codecs, re import jieba import rarfile import os import jieba.analyse # In[22]:

基於LSTM和遷移學習的文字分類模型說明(Tensorflow)

考慮到在實際應用場景中，資料有可能後續增加，另外，類別也有可能重新分配，比如銀行業務中的[取款兩萬以下]和[取款兩萬以上]後續可能合併為一類[取款]，而重新訓練模型會浪費大量時間，因此我們考慮使用遷移學習來縮短訓練時間。即保留LSTM層的各權值變數，然後重新構建全連線層，

基於Tensorflow的LSTM-CNN文字分類模型

題記前段時間再看QA方面的文章，讀了一篇paper（《LSTM-based deep learning model for non-factoid answer selection》）中，使用了LSTM-CNN模型來做answer與question的語義抽取。受此啟發

cnn、rnn實現中文文字分類（基於tensorflow）

tensorflow版本： In[33]: tf.__version__Out[33]:'1.2.1' 首先是資料獲取： curl -O "ht

tensorflow(二)文字分類

相關推薦