01 整體模組劃分
02 資料處理模組
03 特徵處理模組
04 模型構建模組
05 模型執行模組
06 其他模組
01 整體模組劃分
圖1 BERT分類器整體模組劃分
02 資料處理模組
1. 資料讀入方式
2. 資料預處理
圖2 資料處理器類圖
1 class DataProcessor(object): 2 """Base class for data converters for sequence classification data sets.""" 3 def get_train_examples(self, data_dir): 4 """Gets a collection of `InputExample`s for the train set.""" 5 raise NotImplementedError() 6 def get_dev_examples(self, data_dir): 7 """Gets a collection of `InputExample`s for the dev set.""" 8 raise NotImplementedError() 9 def get_test_examples(self, data_dir): 10 """Gets a collection of `InputExample`s for prediction.""" 11 raise NotImplementedError() 12 def get_labels(self): 13 """Gets the list of labels for this data set.""" 14 raise NotImplementedError() 15 @classmethod 16 def _read_tsv(cls, input_file, quotechar=None): 17 """Reads a tab separated value file.""" 18 with tf.gfile.Open(input_file, "r") as f: 19 reader = csv.reader(f, delimiter="\t", quotechar=quotechar) 20 lines = [] 21 for line in reader: 22 lines.append(line) 23 return lines
1 def _create_examples(self, lines, set_type): 2 """Creates examples for the training and dev sets.""" 3 examples = [] 4 print("length of lines:", len(lines)) 5 for (i, line) in enumerate(lines): 6 # print('#i:',i,line) 7 if i == 0: 8 continue 9 guid = "%s-%s" % (set_type, i) 10 try: 11 label = tokenization.convert_to_unicode(line[2]) 12 text_a = tokenization.convert_to_unicode(line[0]) 13 text_b = tokenization.convert_to_unicode(line[1]) 14 examples.append( 15 InputExample(guid=guid, text_a=text_a, text_b=text_b, label=label)) 16 except Exception: 17 print('###error.i:', i, line) 18 return examples
03 特徵處理模組
1 """ 2 將資料處理模組得到的資料轉化成TFRecord檔案 3 input: 4 examples:資料格式為[(guid,text_a,text_b,label),(guid,text_a,text_b,label),....] 5 label_list:標籤列表 6 max_seq_length:允許的句子最大長度 7 tokenizer:分詞器 8 output_file:TFRecord檔案儲存路徑 9 output:持久化到TFRecord格式檔案 10 """ 11 def file_based_convert_examples_to_features( 12 examples, 13 label_list, 14 max_seq_length, 15 tokenizer, output_file):
1. 預處理資料轉化成特徵
1 """ 2 將預處理資料加工成模型需要的特徵 3 input: 4 ex_index:資料條數索引 5 example:資料格式為[(guid,text_a,text_b,label),(guid,text_a,text_b,label),....] 6 label_list:標籤列表 7 max_seq_length:允許的句子最大長度,這裡如果輸入句子長度不足則補0 8 tokenizer:分詞器 9 output: feature = InputFeatures( 10 input_ids=input_ids:token embedding:表示詞向量,第一個詞是CLS,分隔詞有SEP,是單詞本身 11 input_mask=input_mask:position embedding:為了令transformer感知詞與詞之間的位置關係 12 segment_ids=segment_ids:segment embedding:text_a與text_b的句子關係 13 label_id=label_id:標籤 14 is_real_example=True) 15 """ 16 def convert_single_example(ex_index, example, 17 label_list, max_seq_length,tokenizer): 18 .... 19 feature = InputFeatures( 20 input_ids=input_ids, 21 input_mask=input_mask, 22 segment_ids=segment_ids, 23 label_id=label_id, 24 is_real_example=True) 25 return feature
圖3 句子輸入轉化成三層Embedding
這裡需要注意下對text_a和text_b的預處理操作。首先會進行標記化將text_a和text_b轉化成tokens_a和tokens_b。如果tokens_b存在,那麼tokens_a和tokens_b的長度就不能超過max_seq_length-3,因為需要加入cls,sep,seq三個符號;如果tokens_b不存在,那麼tokens_a的長度不能超過 max_seq_length -2 ,因為需要加入 cls 和 sep符號。
text_a: 這種圖片是用什麼軟體製作的?
text_b: 這種圖片製作是用什麼軟體呢?
label: 1
tokens: [CLS] 這 種 圖 片 是 用 什 麼 軟 件 制 作 的 ? [SEP] 這 種 圖 片 制 作 是 用 什 麼 軟 件 呢 ? [SEP]
input_ids:101 6821 4905 1745 4275 3221 4500 784 720 6763 816 1169 868 46388043 102 6821 4905 1745 4275 1169 868 3221 4500 784 720 6763 816 1450 8043 1020 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask:1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0
segment_ids:0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0
2. 特徵儲存在TFRecord格式檔案
04 模型構建模組
1. 模型構建
1 """ 2 自定義模型估計器(model_fn_builder) 3 input:bert_config:bert相關的配置 4 num_labels:標籤的數量 5 init_checkpoint:預訓練模型 6 learning_rate:學習率 7 num_train_steps:模型訓練輪數 = (訓練集總數/batch_size)*epochs 8 num_warmup_steps:線性地增加學習率,num_warmup_steps = num_train_steps * warmup_proportion 9 use_tpu:是否使用TPU 10 output:構建好的模型 11 """ 12 def model_fn_builder(bert_config, num_labels, init_checkpoint, learning_rate, 13 num_train_steps, num_warmup_steps, use_tpu, 14 use_one_hot_embeddings): 15 """Returns `model_fn` closure for TPUEstimator.""" 16 ...... 17 return model_fn
1 """ 2 建立模型,主要完成兩件事:第一件事是呼叫modeling.py中國的BertModel類建立模型; 3 第二件事事計算交叉熵損失loss。交叉熵的值越小,兩個概率分佈就越接近。 4 """ 5 def create_model(bert_config, is_training, input_ids, input_mask, segment_ids, 6 labels, num_labels, use_one_hot_embeddings): 7 """Creates a classification model.""" 8 # 建立一個BERT分類模型(create_model) 9 model = modeling.BertModel( 10 config=bert_config, 11 is_training=is_training, 12 input_ids=input_ids, 13 input_mask=input_mask, 14 token_type_ids=segment_ids, 15 use_one_hot_embeddings=use_one_hot_embeddings) 16 ...... 17 return (loss, per_example_loss, logits, probabilities)
2. 模型標準輸入
1 """ 2 模型標準輸入 3 從TFRecord格式檔案中讀取特徵並轉化成TensorFlow標準的資料輸入格式 4 input:input_file: 5 input_file=train_file:輸入檔案,可以是訓練集、驗證集和預測集 6 seq_length=FLAGS.max_seq_length:句子最大長度 7 is_training=True:是否訓練標誌 8 drop_remainder=True:表示在少於batch_size元素的情況下是否應刪除最後一批 ; 預設是不刪除。 9 output:TensorFlow標準的格式輸入 10 """ 11 def file_based_input_fn_builder(input_file, seq_length, is_training, 12 drop_remainder): 13 name_to_features = { 14 "input_ids": tf.FixedLenFeature([seq_length], tf.int64), 15 "input_mask": tf.FixedLenFeature([seq_length], tf.int64), 16 "segment_ids": tf.FixedLenFeature([seq_length], tf.int64), 17 "label_ids": tf.FixedLenFeature([], tf.int64), 18 "is_real_example": tf.FixedLenFeature([], tf.int64), 19 } 20 ...... 21 return input_fn
05 模型執行模組
1 """ 2 Estimator物件包裝由model_fn指定的模型 3 input:給定輸入和其他一些引數 4 use_tpu:是否使用TPU 5 model_fn:前面構建好的模型 6 config:模型執行相關的配置 7 train_batch_size:訓練batch大小 8 eval_batch_size:驗證batch大小 9 predict_batch_size:預測batch大小 10 output:需要進行訓練、計算,或預測的操作 11 """ 12 estimator = tf.contrib.tpu.TPUEstimator( 13 use_tpu=FLAGS.use_tpu, 14 model_fn=model_fn, 15 config=run_config, 16 train_batch_size=FLAGS.train_batch_size, 17 eval_batch_size=FLAGS.eval_batch_size, 18 predict_batch_size=FLAGS.predict_batch_size)
1. 模型訓練
1 if FLAGS.do_train: 2 train_input_fn = file_based_input_fn_builder( 3 input_file=train_file, 4 seq_length=FLAGS.max_seq_length, 5 is_training=True, 6 drop_remainder=True) 7 .... 8 estimator.train(input_fn=train_input_fn, max_steps=num_train_steps)
2. 模型驗證
1 if FLAGS.do_eval: 2 eval_input_fn = file_based_input_fn_builder( 3 input_file=eval_file, 4 seq_length=FLAGS.max_seq_length, 5 is_training=False, 6 drop_remainder=eval_drop_remainder) 7 .... 8 result = estimator.evaluate(input_fn=eval_input_fn, steps=eval_steps, checkpoint_path=filename)
3. 模型預測
1 if FLAGS.do_predict: 2 predict_input_fn = file_based_input_fn_builder( 3 input_file=predict_file, 4 seq_length=FLAGS.max_seq_length, 5 is_training=False, 6 drop_remainder=predict_drop_remainder) 7 .... 8 result = estimator.predict(input_fn=predict_input_fn)
06 其他模組
1. tf日誌模組
1 import tensorflow as tf 2 # 日誌的顯示等級 3 tf.logging.set_verbosity(tf.logging.INFO) 4 # 列印提示日誌 5 tf.logging.info("***** Runningtraining *****") 6 # 列印傳參日誌 7 tf.logging.info(" Num examples = %d", len(train_examples))
2. 外部傳參模組
1 import tensorflow as tf 2 flags = tf.flags 3 FLAGS = flags.FLAGS 4 flags.DEFINE_string( 5 "data_dir", None, 6 "The input data dir. Should contain the .tsv files (or other datafiles) " 7 "for thetask.") 8 # 設定哪些引數是必須要傳入的 9 flags.mark_flag_as_required("data_dir")