ソースを参照

预处理替换实体英文括号为中文括号

luojiehua 3 年 前
コミット
9738a41b9e

+ 2 - 1
BiddingKG/dl/interface/Preprocessing.py

@@ -1666,7 +1666,8 @@ def get_preprocessed_entitys(list_sentences,useselffool=True,cost_time=dict()):
                 entity_id = "%s_%d_%d_%d"%(doc_id,sentence_index,begin_index,end_index)
 
                 #去掉标点符号
-                entity_text = re.sub("[,,。:]","",entity_text)
+                entity_text = re.sub("[,,。:!&@$\*]","",entity_text)
+                entity_text = entity_text.replace("(","(").replace(")",")") if isinstance(entity_text,str) else entity_text
                 list_sentence_entitys.append(Entity(doc_id,entity_id,entity_text,entity_type,sentence_index,begin_index,end_index,ner_entity[0],ner_entity[1]-1))
             # 标记文章末尾的"发布人”、“发布时间”实体
             if sentence_index==len(list_sentence)-1:

+ 8 - 8
BiddingKG/dl/interface/extract.py

@@ -102,14 +102,14 @@ def predict(doc_id,text,title=""):
     data_res["success"] = True
 
 
-    # for _article in list_articles:
-    #     log(_article.content)
-    #
-    # for list_entity in list_entitys:
-    #     for _entity in list_entity:
-    #         log("type:%s,text:%s,label:%s,values:%s,sentence:%s,begin_index:%s,end_index:%s"%
-    #               (str(_entity.entity_type),str(_entity.entity_text),str(_entity.label),str(_entity.values),str(_entity.sentence_index),
-    #                str(_entity.begin_index),str(_entity.end_index)))
+    for _article in list_articles:
+        log(_article.content)
+
+    for list_entity in list_entitys:
+        for _entity in list_entity:
+            log("type:%s,text:%s,label:%s,values:%s,sentence:%s,begin_index:%s,end_index:%s"%
+                  (str(_entity.entity_type),str(_entity.entity_text),str(_entity.label),str(_entity.values),str(_entity.sentence_index),
+                   str(_entity.begin_index),str(_entity.end_index)))
 
     return json.dumps(data_res,cls=MyEncoder,sort_keys=True,indent=4,ensure_ascii=False)
 

ファイルの差分が大きいため隠しています
+ 0 - 0
BiddingKG/dl/test/test4.py


この差分においてかなりの量のファイルが変更されているため、一部のファイルを表示していません