1. 程式人生 > >Tenserflow常用api彙總

Tenserflow常用api彙總

api1: tf.contrib.learn.preprocessing.VocabularyProcessor

import tensorflow as tf
tf.contrib.learn.preprocessing.VocabularyProcessor (max_document_length, min_frequency=0, vocabulary=None, tokenizer_fn=None)

引數:

max_document_length: 文件的最大長度。如果文字的長度大於最大長度,那麼它會被剪下,反之則用0填充。 
min_frequency: 詞頻的最小值,出現次數小於最小詞頻則不會被收錄到詞表中。 
vocabulary:
CategoricalVocabulary 物件。 tokenizer_fn:分詞函式

程式碼:

from tensorflow.contrib import learn
import numpy as np
max_document_length = 4
x_text =[
    'i love you',
    'me too'
]
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
vocab_processor.fit(x_text)
print(next(vocab_processor.
transform(['i me too'])).tolist()) x = np.array(list(vocab_processor.fit_transform(x_text))) print(x)

結果:

[1, 4, 5, 0]
[[1 2 3 0]
 [4 5 0 0]]