3 yıl önce · 8cec1accb7
--- a/BiddingKG/dl/entityLink/entityLink.py
+++ b/BiddingKG/dl/entityLink/entityLink.py
@@ -75,8 +75,10 @@ def link_entitys(list_entitys,on_value=0.8):
 
															                 if _ent.if_dict_match == 1:
														
 
															                     if len(_ent.entity_text) > len(_entity.entity_text):
														
 
															                         # print("字典替换", _entity.entity_text, "->", _ent.entity_text)
														
 
															+                        _entity.origin_entity_text = _entity.entity_text
														
 
															                         _entity.entity_text = _ent.entity_text
														
 
															                         used_linked_entitys.append(_ent)
														
 
															+            # print(_entity.origin_entity_text, _entity.entity_text)
														
 
															 def getEnterprisePath():
														
--- a/BiddingKG/dl/interface/Entitys.py
+++ b/BiddingKG/dl/interface/Entitys.py
@@ -172,6 +172,7 @@ class Entity():
 
															         self.if_dict_match = 0  # 2021/12/21 新增，判断公司实体是否由字典识别得到
														
 
															         self.is_total_money = 0  # 2021/12/29 新增，判断金额是否总价
														
 
															         self.is_unit_money = 0  # 2021/12/29 新增，判断金额是否单价
														
 
															+        self.origin_entity_text = ''  # 2022/1/5 新增，记录字典替换的原来的实体名
														
 
															     def set_Role(self,role_label,role_values):
														
 
															         self.label = int(role_label)
														
--- a/BiddingKG/dl/table_head/loss.py
+++ b/BiddingKG/dl/table_head/loss.py
@@ -2,12 +2,12 @@ import tensorflow as tf
 
															 import keras as K
														
 
															-def focal_loss(gamma=2., alpha=.5):
														
 
															-    def focal_loss_fixed(y_true, y_pred):
														
 
															+def focal_loss(gamma=3., alpha=.25):
														
 
															+    def f_loss(y_true, y_pred):
														
 
															         pt_1 = tf.where(tf.equal(y_true, 1), y_pred, tf.ones_like(y_pred))
														
 
															         pt_0 = tf.where(tf.equal(y_true, 0), y_pred, tf.zeros_like(y_pred))
														
 
															         return - K.backend.sum(alpha * K.backend.pow(1. - pt_1, gamma)
														
 
															                                * K.backend.log(K.backend.epsilon()+pt_1))\
														
 
															                - K.backend.sum((1-alpha) * K.backend.pow(pt_0, gamma)
														
 
															                                * K.backend.log(1. - pt_0 + K.backend.epsilon()))
														
 
															-    return focal_loss_fixed
														
 
															+    return f_loss
														
--- a/BiddingKG/dl/table_head/metrics.py
+++ b/BiddingKG/dl/table_head/metrics.py
@@ -0,0 +1,85 @@
 
															+from keras import backend as K
														
 
															+
														
 
															+
														
 
															+def mcor(y_true, y_pred):
														
 
															+    # matthews_correlation
														
 
															+    y_pred_pos = K.round(K.clip(y_pred, 0, 1))
														
 
															+    y_pred_neg = 1 - y_pred_pos
														
 
															+
														
 
															+    y_pos = K.round(K.clip(y_true, 0, 1))
														
 
															+    y_neg = 1 - y_pos
														
 
															+
														
 
															+    tp = K.sum(y_pos * y_pred_pos)
														
 
															+    tn = K.sum(y_neg * y_pred_neg)
														
 
															+
														
 
															+    fp = K.sum(y_neg * y_pred_pos)
														
 
															+    fn = K.sum(y_pos * y_pred_neg)
														
 
															+
														
 
															+    numerator = (tp * tn - fp * fn)
														
 
															+    denominator = K.sqrt((tp + fp) * (tp + fn) * (tn + fp) * (tn + fn))
														
 
															+    return numerator / (denominator + K.epsilon())
														
 
															+
														
 
															+
														
 
															+def precision(y_true, y_pred):
														
 
															+    """Precision metric.
														
 
															+
														
 
															+    Only computes a batch-wise average of precision.
														
 
															+
														
 
															+    Computes the precision, a metric for multi-label classification of
														
 
															+    how many selected items are relevant.
														
 
															+    """
														
 
															+    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
														
 
															+    predicted_positives = K.sum(K.round(K.clip(y_pred, 0, 1)))
														
 
															+    _precision = true_positives / (predicted_positives + K.epsilon())
														
 
															+    return _precision
														
 
															+
														
 
															+
														
 
															+def recall(y_true, y_pred):
														
 
															+    """Recall metric.
														
 
															+
														
 
															+    Only computes a batch-wise average of recall.
														
 
															+
														
 
															+    Computes the recall, a metric for multi-label classification of
														
 
															+    how many relevant items are selected.
														
 
															+    """
														
 
															+    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
														
 
															+    possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
														
 
															+    _recall = true_positives / (possible_positives + K.epsilon())
														
 
															+    return _recall
														
 
															+
														
 
															+
														
 
															+def f1(y_true, y_pred):
														
 
															+    def recall(y_true, y_pred):
														
 
															+        """Recall metric.
														
 
															+
														
 
															+        Only computes a batch-wise average of recall.
														
 
															+
														
 
															+        Computes the recall, a metric for multi-label classification of
														
 
															+        how many relevant items are selected.
														
 
															+        """
														
 
															+        true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
														
 
															+        possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
														
 
															+        _recall = true_positives / (possible_positives + K.epsilon())
														
 
															+        return _recall
														
 
															+
														
 
															+    def precision(y_true, y_pred):
														
 
															+        """Precision metric.
														
 
															+
														
 
															+        Only computes a batch-wise average of precision.
														
 
															+
														
 
															+        Computes the precision, a metric for multi-label classification of
														
 
															+        how many selected items are relevant.
														
 
															+        """
														
 
															+        true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
														
 
															+        predicted_positives = K.sum(K.round(K.clip(y_pred, 0, 1)))
														
 
															+        _precision = true_positives / (predicted_positives + K.epsilon())
														
 
															+        return _precision
														
 
															+    _precision = precision(y_true, y_pred)
														
 
															+    _recall = recall(y_true, y_pred)
														
 
															+    return 2*((_precision*_recall)/(_precision+_recall+K.epsilon()))
														
 
															+
														
 
															+
														
 
															+#you can use it like this
														
 
															+# model.compile(loss='binary_crossentropy',
														
 
															+#               optimizer= "adam",
														
 
															+#               metrics=[mcor,recall, f1])
														
--- a/BiddingKG/dl/table_head/models/model.py
+++ b/BiddingKG/dl/table_head/models/model.py
@@ -1,6 +1,8 @@
 
															+import sys
														
 
															+import os
														
 
															+sys.path.append(os.path.abspath("../.."))
														
 
															 from keras import layers, models
														
 
															-from keras.layers import Lambda
														
 
															-
														
 
															+import tensorflow as tf
														
 
															 from BiddingKG.dl.table_head.models.my_average_pooling import MyAveragePooling1D
														
 
															 from BiddingKG.dl.table_head.models.self_attention import SeqSelfAttention
														
@@ -9,31 +11,34 @@ def get_model(input_shape, output_shape):
 
															     # Input
														
 
															     input_1 = layers.Input(shape=input_shape[1:], dtype="float32")
														
 
															     input_2 = layers.Input(shape=input_shape[1:], dtype="float32")
														
 
															+    input_3 = layers.Input(shape=input_shape[1:], dtype="float32")
														
 
															     # Embedding
														
 
															-    embed_1 = layers.Embedding(input_dim=6624, output_dim=32,
														
 
															-                               input_length=input_shape[1], mask_zero=True)(input_1)
														
 
															-    embed_2 = layers.Embedding(input_dim=6624, output_dim=32,
														
 
															-                               input_length=input_shape[1], mask_zero=True)(input_2)
														
 
															+    # embed_1 = layers.Embedding(input_dim=6624, output_dim=32,
														
 
															+    #                            input_length=input_shape[1], mask_zero=True)(input_1)
														
 
															+    # embed_2 = layers.Embedding(input_dim=6624, output_dim=32,
														
 
															+    #                            input_length=input_shape[1], mask_zero=True)(input_2)
														
 
															     # Bi-LSTM
														
 
															-    bi_lstm_1 = layers.Bidirectional(layers.LSTM(16, return_sequences=True))(embed_1)
														
 
															-    bi_lstm_2 = layers.Bidirectional(layers.LSTM(16, return_sequences=True))(embed_2)
														
 
															+    bi_lstm_1 = layers.Bidirectional(layers.LSTM(16, return_sequences=True))(input_1)
														
 
															+    bi_lstm_2 = layers.Bidirectional(layers.LSTM(16, return_sequences=True))(input_2)
														
 
															+    bi_lstm_3 = layers.Bidirectional(layers.LSTM(16, return_sequences=True))(input_3)
														
 
															     # Self-Attention
														
 
															     self_attention_1 = SeqSelfAttention(attention_activation='sigmoid')(bi_lstm_1)
														
 
															     self_attention_2 = SeqSelfAttention(attention_activation='sigmoid')(bi_lstm_2)
														
 
															+    self_attention_3 = SeqSelfAttention(attention_activation='sigmoid')(bi_lstm_3)
														
 
															     # Concat
														
 
															-    concat = layers.concatenate([self_attention_1, self_attention_2])
														
 
															+    concat = layers.concatenate([self_attention_1, self_attention_2, self_attention_3])
														
 
															     # Dense + Softmax
														
 
															-    output = layers.Dense(output_shape[0], activation="softmax")(concat)
														
 
															+    output = layers.Dense(output_shape[0], activation="sigmoid")(concat)
														
 
															     # mask mean pooling
														
 
															-    output = MyAveragePooling1D(axis=1)(output)
														
 
															+    output = MyAveragePooling1D(axis=1, name='my_average_pooling_1d')(output)
														
 
															-    model = models.Model(inputs=[input_1, input_2], outputs=output)
														
 
															+    model = models.Model(inputs=[input_1, input_2, input_3], outputs=output)
														
 
															     model.summary()
														
 
															     return model
														
--- a/BiddingKG/dl/table_head/pre_process.py
+++ b/BiddingKG/dl/table_head/pre_process.py
@@ -1,9 +1,8 @@
 
															-import sys
														
 
															-import os
														
 
															-sys.path.append(os.path.abspath("../.."))
														
 
															 import psycopg2
														
 
															 import numpy as np
														
 
															+from BiddingKG.dl.common.Utils import embedding_word
														
 
															+
														
 
															 def get_sentence_index_list(sentence, dict_path='utils/ppocr_keys_v1.txt'):
														
 
															     with open(dict_path, 'r') as f:
														
@@ -47,14 +46,14 @@ def get_data_from_sql(dim=10):
 
															     select table_text, pre_label, post_label, id
														
 
															     from label_table_head_info 
														
 
															     where update_user <> 'test27' and table_box_cnt >= 4 and table_box_cnt <= 200 
														
 
															-    limit 1000;
														
 
															+    ;
														
 
															     """
														
 
															     # sql = """
														
 
															     # select table_text, pre_label, post_label, id
														
 
															     # from label_table_head_info
														
 
															     # where id = 843
														
 
															     # """
														
 
															-    result_list = postgresql_util(sql, limit=10000)
														
 
															+    result_list = postgresql_util(sql, limit=1000000)
														
 
															     all_data_list = []
														
 
															     all_data_label_list = []
														
@@ -90,22 +89,54 @@ def get_data_from_sql(dim=10):
 
															         else:
														
 
															             data_list, data_label_list = [], []
														
 
															-        for data in data_list:
														
 
															-            # 中文字符映射为index
														
 
															-            data[0] = get_sentence_index_list(data[0])
														
 
															-            data[1] = get_sentence_index_list(data[1])
														
 
															-
														
 
															-            # 维度不够，填充掩码0
														
 
															-            if len(data[0]) < dim:
														
 
															-                data[0] = data[0] + [0]*(dim-len(data[0]))
														
 
															-            elif len(data[0]) > dim:
														
 
															-                data[0] = data[0][:dim]
														
 
															-            if len(data[1]) < dim:
														
 
															-                data[1] = data[1] + [0]*(dim-len(data[1]))
														
 
															-            elif len(data[1]) > dim:
														
 
															-                data[1] = data[1][:dim]
														
 
															         all_data_list += data_list
														
 
															         all_data_label_list += data_label_list
														
 
															+
														
 
															+    print("len(all_data_list)", len(all_data_list))
														
 
															+
														
 
															+        #
														
 
															+        # new_data_list = []
														
 
															+        # for data in data_list:
														
 
															+        #     # 中文字符映射为index
														
 
															+        #     # data[0] = get_sentence_index_list(data[0])
														
 
															+        #     # data[1] = get_sentence_index_list(data[1])
														
 
															+        #     # 维度不够，填充掩码0
														
 
															+        #     # if len(data[0]) < dim:
														
 
															+        #     #     data[0] = data[0] + [0]*(dim-len(data[0]))
														
 
															+        #     # elif len(data[0]) > dim:
														
 
															+        #     #     data[0] = data[0][:dim]
														
 
															+        #     # if len(data[1]) < dim:
														
 
															+        #     #     data[1] = data[1] + [0]*(dim-len(data[1]))
														
 
															+        #     # elif len(data[1]) > dim:
														
 
															+        #     #     data[1] = data[1][:dim]
														
 
															+        #
														
 
															+        #     # 中文字符映射为Embedding
														
 
															+        #     data = embedding_word(data, input_shape)
														
 
															+        #     new_data_list.append(data)
														
 
															+        #
														
 
															+        # new_data_list = np.array(new_data_list)
														
 
															+        # data_label_list = np.array(data_label_list)
														
 
															+        # if np.array(new_data_list).shape[1:] == input_shape:
														
 
															+        #     all_data_list.append(new_data_list)
														
 
															+        #     all_data_label_list.append(data_label_list)
														
 
															+
														
 
															+    # # 防止concat太慢
														
 
															+    # split_len = 1000
														
 
															+    # _len = int(len(all_data_list) / split_len)
														
 
															+    # all_data_list_1 = []
														
 
															+    # all_data_list_2 = []
														
 
															+    # for i in range(_len):
														
 
															+    #     if i == _len - 1:
														
 
															+    #         array1 = np.concatenate(all_data_list[i*split_len:])
														
 
															+    #         array2 = np.concatenate(all_data_label_list[i*split_len:])
														
 
															+    #     else:
														
 
															+    #         array1 = np.concatenate(all_data_list[i*split_len:i*split_len+split_len])
														
 
															+    #         array2 = np.concatenate(all_data_label_list[i*split_len:i*split_len+split_len])
														
 
															+    #     all_data_list_1.append(array1)
														
 
															+    #     all_data_list_2.append(array2)
														
 
															+    # all_data_list = np.concatenate(all_data_list_1)
														
 
															+    # all_data_label_list = np.concatenate(all_data_list_2)
														
 
															+
														
 
															     return all_data_list, all_data_label_list
														
@@ -121,6 +152,13 @@ def table_process(text_list, label_list, _id):
 
															         row = text_list[i]
														
 
															         row_label = label_list[i]
														
 
															+        if i > 0:
														
 
															+            last_row = text_list[i-1]
														
 
															+            last_row_label = label_list[i-1]
														
 
															+        else:
														
 
															+            last_row = []
														
 
															+            last_row_label = []
														
 
															+
														
 
															         if i < len(text_list) - 1:
														
 
															             next_row = text_list[i+1]
														
 
															             next_row_label = label_list[i+1]
														
@@ -132,47 +170,86 @@ def table_process(text_list, label_list, _id):
 
															             col = row[j]
														
 
															             col_label = row_label[j]
														
 
															+            # 超出表格置为None, 0
														
 
															+            if j > 0:
														
 
															+                last_col = row[j-1]
														
 
															+                last_col_label = row_label[j-1]
														
 
															+            else:
														
 
															+                last_col = None
														
 
															+                last_col_label = 0
														
 
															+
														
 
															             if j < len(row) - 1:
														
 
															                 next_col = row[j+1]
														
 
															                 next_col_label = row_label[j+1]
														
 
															             else:
														
 
															-                next_col = ""
														
 
															-                next_col_label = ""
														
 
															+                next_col = None
														
 
															+                next_col_label = 0
														
 
															+
														
 
															+            if last_row:
														
 
															+                last_row_col = last_row[j]
														
 
															+                last_row_col_label = last_row_label[j]
														
 
															+            else:
														
 
															+                last_row_col = None
														
 
															+                last_row_col_label = 0
														
 
															             if next_row:
														
 
															                 next_row_col = next_row[j]
														
 
															                 next_row_col_label = next_row_label[j]
														
 
															             else:
														
 
															-                next_row_col = ""
														
 
															-                next_row_col_label = ""
														
 
															-
														
 
															-            if next_col:
														
 
															-                if col != next_col:
														
 
															-                    data_list.append([col, next_col])
														
 
															-                    data_label_list.append([int(col_label), int(next_col_label)])
														
 
															-            if next_row_col:
														
 
															-                if col != next_row_col:
														
 
															-                    data_list.append([col, next_row_col])
														
 
															-                    data_label_list.append([int(col_label), int(next_row_col_label)])
														
 
															+                next_row_col = None
														
 
															+                next_row_col_label = 0
														
 
															+
														
 
															+            # 三元组有一对不相等就作为数据
														
 
															+            # if col != next_col or col != last_col:
														
 
															+            data_list.append([last_col, col, next_col])
														
 
															+            data_label_list.append([int(last_col_label), int(col_label),
														
 
															+                                    int(next_col_label)])
														
 
															+
														
 
															+            # if col != next_row_col or col != last_row_col:
														
 
															+            data_list.append([last_row_col, col, next_row_col])
														
 
															+            data_label_list.append([int(last_row_col_label), int(col_label),
														
 
															+                                    int(next_row_col_label)])
														
 
															     return data_list, data_label_list
														
 
															-def get_data_from_file():
														
 
															-    data_path = 'train_data/data.txt'
														
 
															-    data_label_path = 'train_data/data_label.txt'
														
 
															+def get_data_from_file(file_type):
														
 
															+    if file_type == 'np':
														
 
															+        data_path = 'train_data/data_3.npy'
														
 
															+        data_label_path = 'train_data/data_label_3.npy'
														
 
															-    with open(data_path, 'r') as f:
														
 
															-        data_list = f.readlines()
														
 
															-    with open(data_label_path, 'r') as f:
														
 
															-        data_label_list = f.readlines()
														
 
															+        array1 = np.load(data_path)
														
 
															+        array2 = np.load(data_label_path)
														
 
															+        return array1, array2
														
 
															+    elif file_type == 'txt':
														
 
															+        data_path = 'train_data/data.txt'
														
 
															+        data_label_path = 'train_data/data_label.txt'
														
 
															-    for i in range(len(data_list)):
														
 
															-        data_list[i] = eval(data_list[i][:-1])
														
 
															-        data_label_list[i] = eval(data_label_list[i][:-1])
														
 
															+        with open(data_path, 'r') as f:
														
 
															+            data_list = f.readlines()
														
 
															+        with open(data_label_path, 'r') as f:
														
 
															+            data_label_list = f.readlines()
														
 
															-    print(len(data_list))
														
 
															-    return data_list, data_label_list
														
 
															+        # for i in range(len(data_list)):
														
 
															+        #     data_list[i] = eval(data_list[i][:-1])
														
 
															+        #     data_label_list[i] = eval(data_label_list[i][:-1])
														
 
															+        return data_list, data_label_list
														
 
															+    else:
														
 
															+        print("file type error! only np and txt supported")
														
 
															+        raise Exception
														
 
															+
														
 
															+
														
 
															+def processed_save_to_np():
														
 
															+    array1, array2 = get_data_from_sql()
														
 
															+    np.save('train_data/data_3.npy', array1)
														
 
															+    np.save('train_data/data_label_3.npy', array2)
														
 
															+
														
 
															+    # with open('train_data/data.txt', 'w') as f:
														
 
															+    #     for line in list1:
														
 
															+    #         f.write(str(line) + "\n")
														
 
															+    # with open('train_data/data_label.txt', 'w') as f:
														
 
															+    #     for line in list2:
														
 
															+    #         f.write(str(line) + "\n")
														
 
															 def processed_save_to_txt():
														
@@ -185,5 +262,62 @@ def processed_save_to_txt():
 
															             f.write(str(line) + "\n")
														
 
															+def data_balance():
														
 
															+    array1, array2 = get_data_from_file()
														
 
															+    data_list = array2.tolist()
														
 
															+    all_cnt = len(data_list)
														
 
															+    cnt_0 = 0
														
 
															+    cnt_1 = 0
														
 
															+    for data in data_list:
														
 
															+        if data[0] == 1 or data[1] == 1:
														
 
															+            cnt_1 += 1
														
 
															+        else:
														
 
															+            cnt_0 += 1
														
 
															+    print("all_cnt", all_cnt)
														
 
															+    print("label has 1", cnt_1)
														
 
															+    print("label all 0", cnt_0)
														
 
															+
														
 
															+
														
 
															+def test_embedding():
														
 
															+    output_shape = (2, 1, 60)
														
 
															+    data = [[None], [None]]
														
 
															+    result = embedding_word(data, output_shape)
														
 
															+    print(result)
														
 
															+
														
 
															+
														
 
															+def my_data_loader(data_list, data_label_list, batch_size):
														
 
															+    data_num = len(data_list)
														
 
															+
														
 
															+    # 定义Embedding输出
														
 
															+    output_shape = (3, 10, 60)
														
 
															+
														
 
															+    # batch循环取数据
														
 
															+    i = 0
														
 
															+    while True:
														
 
															+        new_data_list = []
														
 
															+        for j in range(batch_size):
														
 
															+            if i >= data_num:
														
 
															+                i = 0
														
 
															+
														
 
															+            # 中文字符映射为Embedding
														
 
															+            data = eval(data_list[i][:-1])
														
 
															+            data = embedding_word(data, output_shape)
														
 
															+            if data.shape == output_shape:
														
 
															+                new_data_list.append(data)
														
 
															+            i += 1
														
 
															+
														
 
															+        new_data_list = np.array(new_data_list)
														
 
															+        data_label_list = np.array(data_label_list)
														
 
															+        X = new_data_list
														
 
															+        Y = data_label_list
														
 
															+        # (table_num, 3 sentences, dim characters, embedding) -> (3, table_num, dim, embedding)
														
 
															+        X = np.transpose(X, (1, 0, 2, 3))
														
 
															+
														
 
															+        yield [X[0], X[1], X[2]], Y
														
 
															+
														
 
															+
														
 
															 if __name__ == '__main__':
														
 
															-    get_data_from_file()
														
 
															+    processed_save_to_txt()
														
 
															+    # data_balance()
														
 
															+
														
 
															+    # test_embedding()
														
--- a/BiddingKG/dl/table_head/train.py
+++ b/BiddingKG/dl/table_head/train.py
@@ -1,38 +1,44 @@
 
															 import sys
														
 
															 import os
														
 
															-sys.path.append(os.path.abspath("../.."))
														
 
															-from keras import optimizers
														
 
															-from tensorflow.contrib.metrics import f1_score
														
 
															-from tensorflow.python.ops.metrics_impl import precision, recall
														
 
															+sys.path.append(os.path.abspath("../../.."))
														
 
															+os.environ['KERAS_BACKEND'] = 'tensorflow'
														
 
															+import keras
														
 
															+from BiddingKG.dl.table_head.metrics import precision, recall, f1
														
 
															+from keras import optimizers, Model
														
 
															 from BiddingKG.dl.table_head.models.model import get_model
														
 
															 from BiddingKG.dl.table_head.loss import focal_loss
														
 
															-from keras.callbacks import ModelCheckpoint
														
 
															-from BiddingKG.dl.table_head.pre_process import get_data_from_file
														
 
															+from keras.callbacks import ModelCheckpoint, ReduceLROnPlateau
														
 
															+from BiddingKG.dl.table_head.pre_process import get_data_from_file, get_data_from_sql, my_data_loader
														
 
															 import numpy as np
														
 
															+from keras import backend as K
														
 
															-input_shape = (2, 10)
														
 
															-output_shape = (2,)
														
 
															-pretrained_path = ""
														
 
															+input_shape = (3, 10, 60)
														
 
															+output_shape = (3,)
														
 
															+batch_size = 1024
														
 
															+epochs = 1000
														
 
															+pretrained_path = "checkpoints/best.hdf5"
														
 
															 checkpoint_path = "checkpoints/"
														
 
															 PRETRAINED = False
														
 
															 CHECKPOINT = False
														
 
															 def train():
														
 
															+    # GPU available
														
 
															+    print("gpus", K.tensorflow_backend._get_available_gpus())
														
 
															+
														
 
															     # Data
														
 
															-    data_x, data_y = get_data_from_file()
														
 
															-    data_x = np.array(data_x)
														
 
															-    data_y = np.array(data_y)
														
 
															+    data_x, data_y = get_data_from_file('txt')
														
 
															+    print("finish read data", len(data_x))
														
 
															     # Split -> Train, Test
														
 
															     split_size = int(len(data_x)*0.1)
														
 
															     test_x, test_y = data_x[:split_size], data_y[:split_size]
														
 
															     train_x, train_y = data_x[split_size:], data_y[split_size:]
														
 
															-    # (table_num, 2 sentences, dim characters) -> (2, table_num, dim)
														
 
															-    train_x = np.transpose(train_x, (1, 0, 2))
														
 
															-    test_x = np.transpose(test_x, (1, 0, 2))
														
 
															+    # Data Loader
														
 
															+    train_data_loader = my_data_loader(train_x, train_y, batch_size=batch_size)
														
 
															+    test_data_loader = my_data_loader(test_x, test_y, batch_size=batch_size)
														
 
															     # Model
														
 
															     model = get_model(input_shape, output_shape)
														
@@ -47,18 +53,40 @@ def train():
 
															     else:
														
 
															         print("no checkpoint")
														
 
															-    filepath = '{epoch:02d}-{val_loss:.2f}.h5'
														
 
															-    checkpoint = ModelCheckpoint(checkpoint_path+filepath+".hdf5", monitor=focal_loss(),
														
 
															-                                 verbose=1, save_best_only=True, mode='min')
														
 
															-    model.compile(optimizer=optimizers.Adam(lr=0.0005), loss=focal_loss(),
														
 
															-                  metrics=[focal_loss()])
														
 
															+    filepath = 'e-{epoch:02d}-loss-{val_loss:.2f}'
														
 
															+    checkpoint = ModelCheckpoint(checkpoint_path+filepath+".hdf5", monitor='val_f1',
														
 
															+                                 verbose=1, save_best_only=True, mode='max')
														
 
															+
														
 
															+    model.compile(optimizer=optimizers.Adam(lr=0.0005), loss='binary_crossentropy',
														
 
															+                  metrics=['binary_crossentropy', 'acc',
														
 
															+                           precision, recall, f1])
														
 
															+
														
 
															+    rlu = ReduceLROnPlateau(monitor='val_f1', factor=0.1, patience=5,
														
 
															+                            verbose=1, mode='max', cooldown=0, min_lr=0)
														
 
															+
														
 
															+    model.fit_generator(train_data_loader,
														
 
															+                        steps_per_epoch=max(1, len(train_x) // batch_size),
														
 
															+                        callbacks=[checkpoint, rlu],
														
 
															+                        validation_data=test_data_loader,
														
 
															+                        validation_steps=max(1, len(test_x) // batch_size),
														
 
															+                        epochs=epochs)
														
 
															+
														
 
															+    # model.fit(x=[train_x[0], train_x[1], train_x[2]], y=train_y,
														
 
															+    #           validation_data=([test_x[0], test_x[1], test_x[2]], test_y),
														
 
															+    #           epochs=epochs, batch_size=256, shuffle=True,
														
 
															+    #           callbacks=[checkpoint, rlu])
														
 
															+
														
 
															+    return model, test_x
														
 
															+
														
 
															+
														
 
															+def print_layer_output(model, data):
														
 
															+    middle_layer = Model(inputs=model.inputs,
														
 
															+                         outputs=model.get_layer('input_2').output)
														
 
															-    print(train_x.shape, train_y.shape)
														
 
															-    model.fit(x=[train_x[0], train_x[1]], y=train_y,
														
 
															-              validation_data=([test_x[0], test_x[1]], test_y),
														
 
															-              epochs=100, batch_size=128, shuffle=True,
														
 
															-              callbacks=[checkpoint])
														
 
															+    middle_layer_output = middle_layer.predict([data[0], data[1]])
														
 
															+    print(middle_layer_output)
														
 
															+    return
														
 
															 if __name__ == '__main__':
														
 
															-    train()
														
 
															+    model, data = train()