1 vuosi sitten · 0046258077
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
@@ -1,6 +1,6 @@
 
															 <?xml version="1.0" encoding="UTF-8"?>
														
 
															 <project version="4">
														
 
															-  <component name="ProjectRootManager" version="2" languageLevel="JDK_15" project-jdk-name="Python 3.5 (BiddingKG)" project-jdk-type="Python SDK" />
														
 
															+  <component name="ProjectRootManager" version="2" languageLevel="JDK_15" project-jdk-name="Python 3.7 (py37)" project-jdk-type="Python SDK" />
														
 
															   <component name="PythonCompatibilityInspectionAdvertiser">
														
 
															     <option name="version" value="3" />
														
 
															   </component>
														
--- a/BiddingKG/dl/interface/extract.py
+++ b/BiddingKG/dl/interface/extract.py
@@ -43,7 +43,7 @@ class MyEncoder(json.JSONEncoder):
 
															             return obj
														
 
															         return json.JSONEncoder.default(self, obj)
														
 
															-def extractCount(extract_dict):
														
 
															+def extractCount(extract_dict,page_attachments):
														
 
															     # time_pattern = "\d{4}\-\d{2}\-\d{2}.*"
														
 
															     if len(extract_dict):
														
@@ -113,6 +113,27 @@ def extractCount(extract_dict):
 
															         extract_count += 1
														
 
															     if project_name!="":
														
 
															         extract_count += 1
														
 
															+
														
 
															+    if page_attachments is not None and page_attachments!='':
														
 
															+        try:
														
 
															+            _attachments = json.loads(page_attachments,"")
														
 
															+            has_zhaobiao = False
														
 
															+            has_qingdan = False
														
 
															+            if len(_attachments)>0:
														
 
															+                for _atta in _attachments:
														
 
															+                    classification = _atta.get("classification","")
														
 
															+                    if str(classification)=='招标文件':
														
 
															+                        has_zhaobiao = True
														
 
															+                    if str(classification)=='采购清单':
														
 
															+                        has_qingdan = True
														
 
															+            if has_zhaobiao:
														
 
															+                extract_count += 3
														
 
															+            if has_qingdan:
														
 
															+                extract_count += 2
														
 
															+        except Exception as e:
														
 
															+            pass
														
 
															+
														
 
															+
														
 
															     return extract_count
														
 
															 # 字符编码标准化
														
@@ -176,7 +197,7 @@ def repair_entity(prem,district_dict,list_articles):
 
															                             role['role_text'] = city + role_text
														
 
															-def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="",original_docchannel='',**kwargs):
														
 
															+def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="",original_docchannel='',page_attachments='[]',**kwargs):
														
 
															     cost_time = dict()
														
 
															     start_time = time.time()
														
@@ -352,7 +373,7 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															     data_res["nlp_enterprise"] = nlp_enterprise
														
 
															     data_res["nlp_enterprise_attachment"] = nlp_enterprise_attachment
														
 
															     # 要素的个数
														
 
															-    data_res['extract_count'] = extractCount(data_res)
														
 
															+    data_res['extract_count'] = extractCount(data_res,page_attachments)
														
 
															     # 是否有表格
														
 
															     data_res['exist_table'] = 1 if re.search("<td",text) else 0
														
 
															     data_res["cost_time"] = cost_time
														
--- a/BiddingKG/run_extract_server.py
+++ b/BiddingKG/run_extract_server.py
@@ -81,11 +81,12 @@ def run_thread(data,list_result):
 
															     web_source_no = data.get("web_source_no","")
														
 
															     web_source_name = data.get("web_source_name","")
														
 
															     original_docchannel = data.get("original_docchannel","")
														
 
															+    page_attachments = data.get("page_attachments","")
														
 
															     # print("web_source_name:",web_source_name)
														
 
															     is_fail = False
														
 
															     try:
														
 
															         if _content!="":
														
 
															-            data_res  = predict(_doc_id,_content,_title,_page_time,web_source_no=web_source_no,web_source_name=web_source_name,original_docchannel=original_docchannel)
														
 
															+            data_res  = predict(_doc_id,_content,_title,_page_time,web_source_no=web_source_no,web_source_name=web_source_name,original_docchannel=original_docchannel,page_attachments=page_attachments)
														
 
															         else:
														
 
															             data_res = json.dumps({"success":False,"msg":"content not passed"})
														
 
															             # is_fail = True