před 4 roky · 44b04b7e29
--- a/.gitignore
+++ b/.gitignore
@@ -6,3 +6,4 @@
 
				 /BiddingKG/dl/projectCode/traindata/
			
 
				 /BiddingKG/dl/role/traindata/
			
 
				 /BiddingKG/dl/test/traindata/
			
 
				+/BiddingKG/dl/product/data/
			
--- a/.idea/encodings.xml
+++ b/.idea/encodings.xml
@@ -2,5 +2,6 @@
 
				 <project version="4">
			
 
				   <component name="Encoding">
			
 
				     <file url="file://$PROJECT_DIR$/BiddingKG/dl/form/websource_67000_table.csv" charset="GBK" />
			
 
				+    <file url="file://$PROJECT_DIR$/BiddingKG/dl/product/test/2021-01-29-2021-01-29公告信息.xlsx" charset="GBK" />
			
 
				   </component>
			
 
				 </project>
			
--- a/BiddingKG/app.py
+++ b/BiddingKG/app.py
@@ -7,15 +7,13 @@ Created on 2019年12月3日
 
				 import allspark
			
 
				 import sys
			
 
				 import os
			
 
				+os.environ["KERAS_BACKEND"] = "tensorflow"
			
 
				 import json
			
 
				 import re
			
 
				 import time
			
 
				 import uuid
			
 
				 from BiddingKG.dl.common.Utils import log
			
 
				-import BiddingKG.dl.interface.predictor as predictor
			
 
				-import BiddingKG.dl.interface.Preprocessing as Preprocessing
			
 
				-import BiddingKG.dl.interface.getAttributes as getAttributes
			
 
				-import BiddingKG.dl.entityLink.entityLink as entityLink
			
 
				+from BiddingKG.dl.interface.extract import predict
			
 
				 import numpy as np
			
 
				 import ctypes
			
 
				 import inspect
			
@@ -129,7 +127,7 @@ class MyProcessor(allspark.BaseProcessor):
 
				                         print(entity.entity_text,entity.entity_type,entity.sentence_index,entity.begin_index,entity.label,entity.values)
			
 
				                 '''
			
 
				                 #print(prem)
			
 
				-                data_res = Preprocessing.union_result(codeName, prem)[0][1]
			
 
				+                data_res = predict(docid)
			
 
				                 data_res["cost_time"] = cost_time
			
 
				                 data_res["success"] = True
			
 
				                 #return json.dumps(Preprocessing.union_result(codeName, prem)[0][1],cls=MyEncoder,sort_keys=True,indent=4,ensure_ascii=False)
			
@@ -151,10 +149,6 @@ class MyProcessor(allspark.BaseProcessor):
 
				              do service intialization and load models in this function.
			
 
				         """'''
			
 
				         '''
			
 
				-        self.codeNamePredict = predictor.CodeNamePredict()
			
 
				-        self.premPredict = predictor.PREMPredict()
			
 
				-        self.epcPredict = predictor.EPCPredict()
			
 
				-        self.roleRulePredict = predictor.RoleRulePredictor()
			
 
				         self.timeout = 60
			
 
				         self.status_types = 5
			
 
				         self.timeOfType = self.timeout//self.status_types
			
@@ -176,102 +170,28 @@ class MyProcessor(allspark.BaseProcessor):
 
				         """
			
 
				         data = data.decode("utf8")
			
 
				         data = json.loads(data,encoding="utf8")
			
 
				-        # k = str(uuid.uuid4())
			
 
				-        # cost_time = dict()
			
 
				-        # if "doc_id" in data:
			
 
				-        #   _doc_id = data['doc_id']
			
 
				-        # else:
			
 
				-        #   _doc_id = ""
			
 
				-        # if "title" in data:
			
 
				-        #   _title = data["title"]
			
 
				-        # else:
			
 
				-        #   _title = ""
			
 
				-        # data_res = ""
			
 
				-        # try:
			
 
				-        #     if "content" in data:
			
 
				-        #         log("get request of doc_id:%s"%(_doc_id))
			
 
				-        #         k = str(uuid.uuid4())
			
 
				-        #         cost_time = dict()
			
 
				-        #         content = data['content']
			
 
				-        #         start_time = time.time()
			
 
				-        #         list_articles,list_sentences,list_entitys,_cost_time = Preprocessing.get_articles_processed([[k,content,"",_doc_id,_title]],useselffool=True)
			
 
				-        #         log("get preprocessed done of doc_id%s"%(_doc_id))
			
 
				-        #         cost_time["preprocess"] = time.time()-start_time
			
 
				-        #         cost_time.update(_cost_time)
			
 
				-        #         '''
			
 
				-        #         for articles in list_articles:
			
 
				-        #             print(articles.content)
			
 
				-        #
			
 
				-        #         '''
			
 
				-        #         start_time = time.time()
			
 
				-        #         codeName = self.codeNamePredict.predict(list_articles,MAX_AREA=2000)
			
 
				-        #         log("get codename done of doc_id%s"%(_doc_id))
			
 
				-        #         cost_time["codename"] = time.time()-start_time
			
 
				-        #
			
 
				-        #         start_time = time.time()
			
 
				-        #         self.premPredict.predict(list_sentences,list_entitys)
			
 
				-        #         log("get prem done of doc_id%s"%(_doc_id))
			
 
				-        #         cost_time["prem"] = time.time()-start_time
			
 
				-        #         start_time = time.time()
			
 
				-        #         self.roleRulePredict.predict(list_articles,list_sentences, list_entitys,codeName)
			
 
				-        #         cost_time["rule"] = time.time()-start_time
			
 
				-        #         start_time = time.time()
			
 
				-        #         self.epcPredict.predict(list_sentences,list_entitys)
			
 
				-        #         log("get epc done of doc_id%s"%(_doc_id))
			
 
				-        #         cost_time["person"] = time.time()-start_time
			
 
				-        #         start_time = time.time()
			
 
				-        #         entityLink.link_entitys(list_entitys)
			
 
				-        #         '''
			
 
				-        #         for list_entity in list_entitys:
			
 
				-        #             for _entity in list_entity:
			
 
				-        #                 for _ent in _entity.linked_entitys:
			
 
				-        #                     print(_entity.entity_text,_ent.entity_text)
			
 
				-        #         '''
			
 
				-        #         prem = getAttributes.getPREMs(list_sentences,list_entitys,list_articles)
			
 
				-        #         log("get attributes done of doc_id%s"%(_doc_id))
			
 
				-        #         cost_time["attrs"] = time.time()-start_time
			
 
				-        #
			
 
				-        #
			
 
				-        #         '''
			
 
				-        #
			
 
				-        #
			
 
				-        #         for entitys in list_entitys:
			
 
				-        #             for entity in entitys:
			
 
				-        #                 print(entity.entity_text,entity.entity_type,entity.sentence_index,entity.begin_index,entity.label,entity.values)
			
 
				-        #         '''
			
 
				-        #         #print(prem)
			
 
				-        #         data_res = Preprocessing.union_result(codeName, prem)[0][1]
			
 
				-        #         data_res["cost_time"] = cost_time
			
 
				-        #         data_res["success"] = True
			
 
				-        #         #return json.dumps(Preprocessing.union_result(codeName, prem)[0][1],cls=MyEncoder,sort_keys=True,indent=4,ensure_ascii=False)
			
 
				-        #     else:
			
 
				-        #         data_res = {"success":False,"msg":"content not passed"}
			
 
				-        #
			
 
				-        #
			
 
				-        # except Exception as e:
			
 
				-        #     data_res = {"success":False,"msg":str(e)}
			
 
				-        # # 以json形式返回结果
			
 
				-        # _resp = json.dumps(data_res,cls=MyEncoder)
			
 
				-        # #log(str(data["flag"])+str(data))
			
 
				-        # log("done for doc_id:%s with result:%s"%(_doc_id,str(data_res)))
			
 
				-        _timeout = self.timeout
			
 
				+
			
 
				+        _doc_id = data.get("doc_id","")
			
 
				+        _title = data.get("title","")
			
 
				+        _content = data.get("content","")
			
 
				 
			
 
				         status_code = 200
			
 
				-        if "timeout" in data:
			
 
				-            _timeout = data["timeout"]
			
 
				+        # if "timeout" in data:
			
 
				+        #     _timeout = data["timeout"]
			
 
				         list_result = []
			
 
				-        t = Thread(target=self.run_thread,args=(data,list_result))
			
 
				-        start_time = time.time()
			
 
				-        t.start()
			
 
				-        t.join(_timeout)
			
 
				-        if t.is_alive():
			
 
				-            stop_thread(t)
			
 
				-            status_code = 302#超时被kill
			
 
				-            data_res = {"success":False,"msg":"timeout"}
			
 
				-        else:
			
 
				-            status_code += int((time.time()-start_time)//self.timeOfType+1)
			
 
				-            data_res = list_result[0]
			
 
				-        _resp = json.dumps(data_res,cls=MyEncoder)
			
 
				+        # t = Thread(target=self.run_thread,args=(data,list_result))
			
 
				+        # start_time = time.time()
			
 
				+        # t.start()
			
 
				+        # t.join(_timeout)
			
 
				+        # if t.is_alive():
			
 
				+        #     stop_thread(t)
			
 
				+        #     status_code = 302#超时被kill
			
 
				+        #     data_res = {"success":False,"msg":"timeout"}
			
 
				+        # else:
			
 
				+        #     status_code += int((time.time()-start_time)//self.timeOfType+1)
			
 
				+        #     data_res = list_result[0]
			
 
				+        # _resp = json.dumps(data_res,cls=MyEncoder)
			
 
				+        _resp = predict(doc_id=_doc_id,text=_content,title=_title)
			
 
				 
			
 
				         return self.post_process(_resp),status_code
			
 
				         
			
--- a/BiddingKG/dl/interface/Preprocessing.py
+++ b/BiddingKG/dl/interface/Preprocessing.py
@@ -1060,6 +1060,9 @@ def segment(soup,final=True):
 
				 
			
 
				     #替换连续的标点
			
 
				 
			
 
				+    if final:
			
 
				+        text = re.sub("##space##"," ",text)
			
 
				+
			
 
				     punc_pattern = "(?P<del>[。，；：:,\s]+)"
			
 
				 
			
 
				     list_punc = re.findall(punc_pattern,text)
			
@@ -1098,8 +1101,6 @@ def segment(soup,final=True):
 
				             LOOP_BEGIN += LOOP_LEN
			
 
				         text = _text
			
 
				 
			
 
				-    if final:
			
 
				-        text = re.sub("##space##"," ",text)
			
 
				 
			
 
				     return text
			
 
				 
			
--- a/BiddingKG/dl/interface/extract.py
+++ b/BiddingKG/dl/interface/extract.py
@@ -0,0 +1,82 @@
 
				+'''
			
 
				+Created on 2019年1月4日
			
 
				+
			
 
				+@author: User
			
 
				+'''
			
 
				+
			
 
				+from bs4 import BeautifulSoup, Comment
			
 
				+import copy
			
 
				+import re
			
 
				+import sys
			
 
				+import os
			
 
				+import codecs
			
 
				+import requests
			
 
				+import time
			
 
				+
			
 
				+_time1 = time.time()
			
 
				+sys.path.append(os.path.abspath("../.."))
			
 
				+from BiddingKG.dl.common.Utils import *
			
 
				+import BiddingKG.dl.interface.predictor as predictor
			
 
				+import BiddingKG.dl.interface.Preprocessing as Preprocessing
			
 
				+import BiddingKG.dl.interface.getAttributes as getAttributes
			
 
				+import BiddingKG.dl.entityLink.entityLink as entityLink
			
 
				+import BiddingKG.dl.complaint.punish_predictor as punish_rule
			
 
				+import json
			
 
				+
			
 
				+
			
 
				+
			
 
				+''''''
			
 
				+codeNamePredict = predictor.CodeNamePredict()
			
 
				+premPredict = predictor.PREMPredict()
			
 
				+epcPredict = predictor.EPCPredict()
			
 
				+roleRulePredict = predictor.RoleRulePredictor()
			
 
				+timePredict = predictor.TimePredictor()
			
 
				+punish = punish_rule.Punish_Extract()
			
 
				+productPredict = predictor.ProductPredictor()
			
 
				+
			
 
				+#自定义jsonEncoder
			
 
				+class MyEncoder(json.JSONEncoder):
			
 
				+    def default(self, obj):
			
 
				+        if isinstance(obj, np.ndarray):
			
 
				+            return obj.tolist()
			
 
				+        elif isinstance(obj, bytes):
			
 
				+            return str(obj, encoding='utf-8')
			
 
				+        elif isinstance(obj, (np.float_, np.float16, np.float32,
			
 
				+                              np.float64)):
			
 
				+            return float(obj)
			
 
				+        elif isinstance(obj,str):
			
 
				+            return obj
			
 
				+        return json.JSONEncoder.default(self, obj)
			
 
				+
			
 
				+def predict(doc_id,text,title=""):
			
 
				+    list_articles,list_sentences,list_entitys,_ = Preprocessing.get_preprocessed([[doc_id,text,"","",title]],useselffool=True)
			
 
				+
			
 
				+    codeName = codeNamePredict.predict(list_sentences,list_entitys=list_entitys)
			
 
				+
			
 
				+    premPredict.predict(list_sentences,list_entitys)
			
 
				+    productPredict.predict(list_sentences,list_entitys)
			
 
				+
			
 
				+    roleRulePredict.predict(list_articles,list_sentences, list_entitys,codeName)
			
 
				+    epcPredict.predict(list_sentences,list_entitys)
			
 
				+    timePredict.predict(list_sentences, list_entitys)
			
 
				+    entityLink.link_entitys(list_entitys)
			
 
				+    prem = getAttributes.getPREMs(list_sentences,list_entitys,list_articles)
			
 
				+    list_punish_dic = punish.get_punish_extracts(list_articles,list_sentences, list_entitys)
			
 
				+
			
 
				+    return json.dumps(Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic)[0],cls=MyEncoder,sort_keys=True,indent=4,ensure_ascii=False)
			
 
				+
			
 
				+
			
 
				+def test(name,content):
			
 
				+    user = {
			
 
				+        "content": content,
			
 
				+        "id":name
			
 
				+    }
			
 
				+    myheaders = {'Content-Type': 'application/json'}
			
 
				+    _resp = requests.post("http://192.168.2.101:15015" + '/article_extract', json=user, headers=myheaders, verify=True)
			
 
				+    resp_json = _resp.content.decode("utf-8")
			
 
				+    print(resp_json)
			
 
				+    return resp_json
			
 
				+
			
 
				+
			
 
				+if __name__=="__main__":
			
 
				+    pass
			
--- a/BiddingKG/dl/interface/predictor.py
+++ b/BiddingKG/dl/interface/predictor.py
@@ -17,7 +17,7 @@ from BiddingKG.dl.common.Utils import *
 
				 from BiddingKG.dl.interface.modelFactory import *
			
 
				 import tensorflow as tf
			
 
				 from tensorflow.python.framework import graph_util
			
 
				-from BiddingKG.dl.product.data_util import decode, process_data, result_to_json
			
 
				+from BiddingKG.dl.product.data_util import decode, process_data
			
 
				 from BiddingKG.dl.interface.Entitys import Entity
			
 
				 
			
 
				 from threading import RLock
			
@@ -524,7 +524,9 @@ class PREMPredict():
 
				         data_x = []
			
 
				         points_entitys = []
			
 
				         for list_entity,list_sentence in zip(list_entitys,list_sentences):
			
 
				-            
			
 
				+
			
 
				+            list_entity.sort(key=lambda x:x.sentence_index)
			
 
				+            list_sentence.sort(key=lambda x:x.sentence_index)
			
 
				             p_entitys = 0
			
 
				             p_sentences = 0
			
 
				             while(p_entitys<len(list_entity)):
			
@@ -559,7 +561,9 @@ class PREMPredict():
 
				         data_x = []
			
 
				         points_entitys = []
			
 
				         for list_entity,list_sentence in zip(list_entitys,list_sentences):
			
 
				-            
			
 
				+
			
 
				+            list_entity.sort(key=lambda x:x.sentence_index)
			
 
				+            list_sentence.sort(key=lambda x:x.sentence_index)
			
 
				             p_entitys = 0
			
 
				     
			
 
				             while(p_entitys<len(list_entity)):
			
@@ -585,10 +589,12 @@ class PREMPredict():
 
				     
			
 
				     def predict_role(self,list_sentences, list_entitys):
			
 
				         datas = self.search_role_data(list_sentences, list_entitys)
			
 
				+
			
 
				         if datas is None:
			
 
				             return
			
 
				         points_entitys = datas[1]
			
 
				-        
			
 
				+
			
 
				+
			
 
				         if USE_PAI_EAS:
			
 
				             _data = datas[0]
			
 
				             _data = np.transpose(np.array(_data),(1,0,2))
			
@@ -1038,36 +1044,36 @@ class RoleRulePredictor():
 
				 
			
 
				 
			
 
				                 #确定性强的特殊修改
			
 
				-                for s_index in range(len(list_sentence)):
			
 
				-                    if p_entity.doc_id==list_sentence[s_index].doc_id and p_entity.sentence_index==list_sentence[s_index].sentence_index:
			
 
				-                        tokens = list_sentence[s_index].tokens
			
 
				-                        begin_index = p_entity.begin_index
			
 
				-                        end_index = p_entity.end_index
			
 
				-                        size = 15
			
 
				-                        spans = spanWindow(tokens, begin_index, end_index, size, center_include=True, word_flag=True, use_text=False)
			
 
				-                        #距离
			
 
				-                        list_distance = [100,100,100,100,100]
			
 
				-                        _flag = False
			
 
				-                        for _key in self.dict_list_pattern.keys():
			
 
				-                            for pattern in self.dict_list_pattern[_key]:
			
 
				-                                if pattern[0]=="W":
			
 
				-                                    spans = spanWindow(tokens, begin_index, end_index, size=30, center_include=True, word_flag=True, use_text=False)
			
 
				-                                    for _iter in re.finditer(pattern[1], spans[0][-10:]+spans[1]+spans[2]):
			
 
				-                                        _flag = True
			
 
				-                                        if _iter.span()[0]<list_distance[int(_key)]:
			
 
				-                                            list_distance[int(_key)] = _iter.span()[0]
			
 
				-                        #得到结果
			
 
				-                        _label = np.argmin(list_distance)
			
 
				-                        if _flag:
			
 
				-                            if _label==2 and min(list_distance[3:])<100:
			
 
				-                                _label += np.argmin(list_distance[3:])+1
			
 
				-                            if _label in [2,3,4]:
			
 
				-                                if p_entity.entity_type in ["company","org"]:
			
 
				+                if p_entity.entity_type in ["company","org"]:
			
 
				+                    for s_index in range(len(list_sentence)):
			
 
				+                        if p_entity.doc_id==list_sentence[s_index].doc_id and p_entity.sentence_index==list_sentence[s_index].sentence_index:
			
 
				+                            tokens = list_sentence[s_index].tokens
			
 
				+                            begin_index = p_entity.begin_index
			
 
				+                            end_index = p_entity.end_index
			
 
				+                            size = 15
			
 
				+                            spans = spanWindow(tokens, begin_index, end_index, size, center_include=True, word_flag=True, use_text=False)
			
 
				+                            #距离
			
 
				+                            list_distance = [100,100,100,100,100]
			
 
				+                            _flag = False
			
 
				+                            for _key in self.dict_list_pattern.keys():
			
 
				+                                for pattern in self.dict_list_pattern[_key]:
			
 
				+                                    if pattern[0]=="W":
			
 
				+                                        spans = spanWindow(tokens, begin_index, end_index, size=30, center_include=True, word_flag=True, use_text=False)
			
 
				+                                        for _iter in re.finditer(pattern[1], spans[0][-10:]+spans[1]+spans[2]):
			
 
				+                                            _flag = True
			
 
				+                                            if _iter.span()[0]<list_distance[int(_key)]:
			
 
				+                                                list_distance[int(_key)] = _iter.span()[0]
			
 
				+                            #得到结果
			
 
				+                            _label = np.argmin(list_distance)
			
 
				+                            if _flag:
			
 
				+                                if _label==2 and min(list_distance[3:])<100:
			
 
				+                                    _label += np.argmin(list_distance[3:])+1
			
 
				+                                if _label in [2,3,4]:
			
 
				+                                        p_entity.label = _label
			
 
				+                                        p_entity.values[int(_label)] = on_value+p_entity.values[int(_label)]/10
			
 
				+                                else:
			
 
				                                     p_entity.label = _label
			
 
				                                     p_entity.values[int(_label)] = on_value+p_entity.values[int(_label)]/10
			
 
				-                            else:
			
 
				-                                p_entity.label = _label
			
 
				-                                p_entity.values[int(_label)] = on_value+p_entity.values[int(_label)]/10
			
 
				                 if p_entity.entity_type in ["money"]:
			
 
				                     if str(p_entity.label)=="2":
			
 
				                         for _sentence in list_sentence:
			
--- a/BiddingKG/dl/product/data_util.py
+++ b/BiddingKG/dl/product/data_util.py
@@ -5,7 +5,6 @@
 
				 import re
			
 
				 import math
			
 
				 import random
			
 
				-import psycopg2
			
 
				 import numpy as np
			
 
				 from tensorflow.contrib.crf import viterbi_decode
			
 
				 from BiddingKG.dl.common.Utils import getVocabAndMatrix,getModel_word
			
@@ -15,10 +14,12 @@ word_model = getModel_word()
 
				 vocab, matrix = getVocabAndMatrix(word_model, Embedding_size=60)
			
 
				 word2id = {k: v for v, k in enumerate(vocab)}
			
 
				 max_id = len(vocab)
			
 
				-conn = psycopg2.connect(dbname='iepy_product', user='postgres', password='postgres', host='192.168.2.101')
			
 
				-cursor = conn.cursor()
			
 
				+
			
 
				 
			
 
				 def get_label_data():
			
 
				+    import psycopg2
			
 
				+    conn = psycopg2.connect(dbname='iepy_product', user='postgres', password='postgres', host='192.168.2.101')
			
 
				+    cursor = conn.cursor()
			
 
				     sql = "select human_identifier, text from corpus_iedocument where edittime NOTNULL AND jump_signal=0 \
			
 
				       and creation_date > to_timestamp('2021-01-14 00:00:00','yyyy-MM-dd HH24:mi:ss');"
			
 
				     cursor.execute(sql)
			
@@ -77,6 +78,7 @@ def input_from_line(line):
 
				     ids = [word2id.get(k, max_id) for k in string]
			
 
				     tags = []
			
 
				     return [[string], [ids], [tags]]
			
 
				+
			
 
				 def process_data(sentences):
			
 
				     '''
			
 
				     字符串数字化并统一长度
			
--- a/BiddingKG/dl/product/test/__init__.py
+++ b/BiddingKG/dl/product/test/__init__.py
--- a/BiddingKG/dl/product/test/testProduct.py
+++ b/BiddingKG/dl/product/test/testProduct.py
@@ -0,0 +1,23 @@
 
				+
			
 
				+
			
 
				+import requests
			
 
				+import json
			
 
				+import numpy as np
			
 
				+
			
 
				+def predictProduct():
			
 
				+    url = "http://192.168.2.101:15030"
			
 
				+    myheaders = {'Content-Type': 'application/json'}
			
 
				+    doc_id = "12"
			
 
				+    title = ""
			
 
				+    content = "123123"
			
 
				+
			
 
				+    data = {"doc_id":doc_id,"title":title,"content":content}
			
 
				+
			
 
				+    resp = requests.post(url,json=data,headers=myheaders, verify=True)
			
 
				+
			
 
				+    print(resp.content.decode("utf8"))
			
 
				+    print(json.loads(resp.content.decode("utf8"),"utf8"))
			
 
				+
			
 
				+
			
 
				+if __name__=="__main__":
			
 
				+    predictProduct()
			
--- a/BiddingKG/dl/test/test4.py
+++ b/BiddingKG/dl/test/test4.py
@@ -16,91 +16,10 @@ import time
 
				 _time1 = time.time()
			
 
				 sys.path.append(os.path.abspath("../.."))
			
 
				 import fool
			
 
				-from BiddingKG.dl.interface.Connection import *
			
 
				 from BiddingKG.dl.common.Utils import *
			
 
				-from BiddingKG.dl.interface.Connection import getConnection
			
 
				-import BiddingKG.dl.interface.predictor as predictor
			
 
				-import BiddingKG.dl.interface.Preprocessing as Preprocessing
			
 
				-import BiddingKG.dl.interface.getAttributes as getAttributes
			
 
				-import BiddingKG.dl.entityLink.entityLink as entityLink
			
 
				-# import BiddingKG.dl.complaint.punish_rule as punish_rule
			
 
				-import BiddingKG.dl.complaint.punish_predictor as punish_rule
			
 
				+from BiddingKG.dl.interface.extract import predict
			
 
				 import json
			
 
				 
			
 
				-
			
 
				-'''
			
 
				-doc_id = '3537ed94-9c7e-11e8-aed5-44a84246dbba'
			
 
				-
			
 
				-conn = psycopg2.connect(dbname="BiddingKG",user="postgres",password="postgres",host="192.168.2.101")
			
 
				-
			
 
				-cursor = conn.cursor()
			
 
				-
			
 
				-cursor.execute(" select content from articles where id='"+doc_id+"' ")
			
 
				-
			
 
				-row = cursor.fetchall()[0]
			
 
				-
			
 
				-
			
 
				-#text = codecs.open("C:\\Users\\User\\Desktop\\1.html","r",encoding="utf8").read()
			
 
				-
			
 
				-#content = segment(tableToText(BeautifulSoup(row[0],"lxml")))
			
 
				-'''
			
 
				-
			
 
				-'''''' 
			
 
				-codeNamePredict = predictor.CodeNamePredict()
			
 
				-premPredict = predictor.PREMPredict()
			
 
				-epcPredict = predictor.EPCPredict()
			
 
				-roleRulePredict = predictor.RoleRulePredictor()
			
 
				-timePredict = predictor.TimePredictor()
			
 
				-punish = punish_rule.Punish_Extract()
			
 
				-productPredict = predictor.ProductPredictor()
			
 
				-
			
 
				-#自定义jsonEncoder
			
 
				-class MyEncoder(json.JSONEncoder):
			
 
				-    def default(self, obj):
			
 
				-        if isinstance(obj, np.ndarray):
			
 
				-            return obj.tolist()
			
 
				-        elif isinstance(obj, bytes):
			
 
				-            return str(obj, encoding='utf-8')
			
 
				-        elif isinstance(obj, (np.float_, np.float16, np.float32, 
			
 
				-        np.float64)):
			
 
				-            return float(obj)
			
 
				-        elif isinstance(obj,str):
			
 
				-            return obj
			
 
				-        return json.JSONEncoder.default(self, obj)
			
 
				-
			
 
				-
			
 
				-def predict(doc_id,text,title=""):
			
 
				-    list_articles,list_sentences,list_entitys,_ = Preprocessing.get_preprocessed([[doc_id,text,"","",title]],useselffool=True)
			
 
				-    for articles in list_articles:
			
 
				-        print(articles.content)
			
 
				-
			
 
				-
			
 
				-    ''''''
			
 
				-        
			
 
				-    codeName = codeNamePredict.predict(list_sentences,list_entitys=list_entitys)
			
 
				-    print(codeName)
			
 
				-    premPredict.predict(list_sentences,list_entitys)
			
 
				-    productPredict.predict(list_sentences,list_entitys)
			
 
				-    # roleRulePredict.predict(list_articles,list_sentences, list_entitys,codeName)
			
 
				-    print("epcPredict")
			
 
				-    epcPredict.predict(list_sentences,list_entitys)
			
 
				-    print("entityLink")
			
 
				-    timePredict.predict(list_sentences, list_entitys)
			
 
				-    print("timePredict")
			
 
				-    entityLink.link_entitys(list_entitys)
			
 
				-    print("getPREMs")
			
 
				-    prem = getAttributes.getPREMs(list_sentences,list_entitys,list_articles)
			
 
				-    print("getPREMs")
			
 
				-    list_punish_dic = punish.get_punish_extracts(list_articles,list_sentences, list_entitys)
			
 
				-
			
 
				-
			
 
				-    for entitys in list_entitys:
			
 
				-        for entity in entitys:
			
 
				-            print(entity.entity_text,entity.entity_type,entity.label,entity.values,entity.sentence_index,entity.begin_index,entity.end_index,entity.wordOffset_begin,entity.wordOffset_end)
			
 
				-    #print(prem)
			
 
				-    return json.dumps(Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic)[0],cls=MyEncoder,sort_keys=True,indent=4,ensure_ascii=False)
			
 
				-
			
 
				-         
			
 
				 def test(name,content):
			
 
				     user = {
			
 
				             "content": content,