hace 3 años · c33054f7a4
--- a/BiddingKG/dl/entityLink/entityLink.py
+++ b/BiddingKG/dl/entityLink/entityLink.py
@@ -121,7 +121,7 @@ def link_entitys(list_entitys,on_value=0.81):
 
				                             _entity.entity_text = _ent.entity_text
			
 
				                             used_linked_entitys.append(_ent)
			
 
				                             # print(_entity.entity_text, _entity.if_dict_match, _ent.entity_text, _ent.if_dict_match)
			
 
				-
			
 
				+# 用于去重的标题
			
 
				 def doctitle_refine(doctitle):
			
 
				     _doctitle_refine = re.sub(r'工程|服务|询价|比价|谈判|竞争性|磋商|结果|中标|招标|采购|的|公示|公开|成交|公告|评标|候选人|'
			
 
				                              r'交易|通知|废标|流标|终止|中止|一笔|预告|单一来源|竞价|合同', '', doctitle)
			
--- a/BiddingKG/dl/interface/Preprocessing.py
+++ b/BiddingKG/dl/interface/Preprocessing.py
@@ -384,34 +384,38 @@ def tableToText(soup):
 
				         set_item = set()
			
 
				         height = len(inner_table)
			
 
				         width = len(inner_table[0])
			
 
				+        empty_set = set()
			
 
				         for i in range(height):
			
 
				             for j in range(width):
			
 
				                 item = inner_table[i][j][0]
			
 
				-                set_item.add(item)
			
 
				+                if item.strip()=="":
			
 
				+                    empty_set.add(item)
			
 
				+                else:
			
 
				+                    set_item.add(item)
			
 
				         list_item = list(set_item)
			
 
				-        x = []
			
 
				-        for item in list_item:
			
 
				-            x.append(getPredictor("form").encode(item))
			
 
				-        predict_y = getPredictor("form").predict(np.array(x),type="item")
			
 
				-        _dict = dict()
			
 
				-        
			
 
				-        for item,values in zip(list_item,list(predict_y)):
			
 
				-            _dict[item] = values[1]
			
 
				-            # print("##",item,values)
			
 
				-        #print(_dict)
			
 
				-        for i in range(height):
			
 
				-            for j in range(width):
			
 
				-                item = inner_table[i][j][0]
			
 
				-                inner_table[i][j][1] = 1 if _dict[item]>prob_min else (1 if re.search(pat_head,item) is not None and len(item)<8 else 0)
			
 
				+        if list_item:
			
 
				+            x = []
			
 
				+            for item in list_item:
			
 
				+                x.append(getPredictor("form").encode(item))
			
 
				+            predict_y = getPredictor("form").predict(np.array(x),type="item")
			
 
				+            _dict = dict()
			
 
				+
			
 
				+            for item,values in zip(list_item,list(predict_y)):
			
 
				+                _dict[item] = values[1]
			
 
				+                # print("##",item,values)
			
 
				+            #print(_dict)
			
 
				+            for i in range(height):
			
 
				+                for j in range(width):
			
 
				+                    item = inner_table[i][j][0]
			
 
				+                    if item not in empty_set:
			
 
				+                        inner_table[i][j][1] = 1 if _dict[item]>prob_min else (1 if re.search(pat_head,item) is not None and len(item)<8 else 0)
			
 
				 
			
 
				         # print("=====")
			
 
				         # for item in inner_table:
			
 
				         #     print(item)
			
 
				         # print("======")
			
 
				-
			
 
				         repairTable(inner_table)
			
 
				         head_list = sliceTable(inner_table)
			
 
				-
			
 
				         
			
 
				         return inner_table,head_list
			
 
				 
			
@@ -985,15 +989,28 @@ def tableToText(soup):
 
				                 if inner_table[h][w][0]==fix_value:
			
 
				                     inner_table[h][w][0] = ""
			
 
				     
			
 
				-    def trunTable(tbody):
			
 
				+    def trunTable(tbody,in_attachment):
			
 
				+        # print(tbody.find('tbody'))
			
 
				+        # 附件中的表格，排除异常错乱的表格
			
 
				+        if in_attachment:
			
 
				+            if tbody.name=='table':
			
 
				+                _tbody = tbody.find('tbody')
			
 
				+            else:
			
 
				+                _tbody = tbody
			
 
				+            _td_len_list = []
			
 
				+            for _tr in _tbody.find_all(recursive=False):
			
 
				+                len_td = len(_tr.find_all(recursive=False))
			
 
				+                _td_len_list.append(len_td)
			
 
				+            if len(list(set(_td_len_list)))>8:
			
 
				+                return None
			
 
				         fixSpan(tbody)
			
 
				         inner_table = getTable(tbody)
			
 
				         inner_table = fixTable(inner_table)
			
 
				         if len(inner_table)>0 and len(inner_table[0])>0:
			
 
				             #inner_table,head_list = setHead_withRule(inner_table,pat_head,pat_value,3)
			
 
				             #inner_table,head_list = setHead_inline(inner_table)
			
 
				-            # inner_table, head_list = setHead_initem(inner_table,pat_head)
			
 
				-            inner_table, head_list = set_head_model(inner_table)
			
 
				+            inner_table, head_list = setHead_initem(inner_table,pat_head)
			
 
				+            # inner_table, head_list = set_head_model(inner_table)
			
 
				             # inner_table,head_list = setHead_incontext(inner_table,pat_head)
			
 
				             # print(inner_table)
			
 
				             # for begin in range(len(head_list[:-1])):
			
@@ -1033,20 +1050,36 @@ def tableToText(soup):
 
				                 ul.get_text(), re.S)))>3:
			
 
				             ul.extract()
			
 
				 
			
 
				-    tbodies = soup.find_all('table')
			
 
				+    # tbodies = soup.find_all('table')
			
 
				     # 遍历表格中的每个tbody
			
 
				+    tbodies = []
			
 
				+    in_attachment = False
			
 
				+    for _part in soup.find_all():
			
 
				+        if _part.name=='table':
			
 
				+            tbodies.append((_part,in_attachment))
			
 
				+        elif _part.name=='div':
			
 
				+            if 'class' in _part.attrs and "richTextFetch" in _part['class']:
			
 
				+                in_attachment = True
			
 
				     #逆序处理嵌套表格
			
 
				     for tbody_index in range(1,len(tbodies)+1):
			
 
				-        tbody = tbodies[len(tbodies)-tbody_index]
			
 
				-        inner_table = trunTable(tbody)
			
 
				+        tbody,_in_attachment = tbodies[len(tbodies)-tbody_index]
			
 
				+        inner_table = trunTable(tbody,_in_attachment)
			
 
				         list_innerTable.append(inner_table)
			
 
				 
			
 
				-    tbodies = soup.find_all('tbody')
			
 
				+    # tbodies = soup.find_all('tbody')
			
 
				     # 遍历表格中的每个tbody
			
 
				+    tbodies = []
			
 
				+    in_attachment = False
			
 
				+    for _part in soup.find_all():
			
 
				+        if _part.name == 'tbody':
			
 
				+            tbodies.append((_part, in_attachment))
			
 
				+        elif _part.name == 'div':
			
 
				+            if 'class' in _part.attrs and "richTextFetch" in _part['class']:
			
 
				+                in_attachment = True
			
 
				     #逆序处理嵌套表格
			
 
				     for tbody_index in range(1,len(tbodies)+1):
			
 
				-        tbody = tbodies[len(tbodies)-tbody_index]
			
 
				-        inner_table = trunTable(tbody)
			
 
				+        tbody,_in_attachment = tbodies[len(tbodies)-tbody_index]
			
 
				+        inner_table = trunTable(tbody,_in_attachment)
			
 
				         list_innerTable.append(inner_table)
			
 
				 
			
 
				     return soup
			
@@ -1785,15 +1818,20 @@ def article_limit(soup,limit_words=30000):
 
				             while n_soup:
			
 
				                 text_count, gap, n_soup = soup_limit(n_soup, text_count, max_count=limit_words, max_gap=500)
			
 
				         if len(_text_split[1])>limit_words:
			
 
				-            attachment_text_nums = 0
			
 
				-            attachment_skip = False
			
 
				-            for part in attachment_part.find_all(recursive=False):
			
 
				-                if not attachment_skip:
			
 
				-                    attachment_text_nums += len(re.sub(sub_space, "", part.get_text()))
			
 
				-                    if attachment_text_nums>=limit_words:
			
 
				-                        attachment_skip = True
			
 
				-                else:
			
 
				-                    part.decompose()
			
 
				+            # attachment_html纯文本，无子结构
			
 
				+            if len(attachment_part.find_all(recursive=False))==0:
			
 
				+                attachment_part.string = str(attachment_part.get_text())[:limit_words]
			
 
				+            else:
			
 
				+                attachment_text_nums = 0
			
 
				+                attachment_skip = False
			
 
				+                for part in attachment_part.find_all(recursive=False):
			
 
				+                    if not attachment_skip:
			
 
				+                        attachment_text_nums += len(re.sub(sub_space, "", part.get_text()))
			
 
				+                        if attachment_text_nums>=limit_words:
			
 
				+                            part.string = str(part.get_text())[:attachment_text_nums-limit_words]
			
 
				+                            attachment_skip = True
			
 
				+                    else:
			
 
				+                        part.decompose()
			
 
				 
			
 
				     return soup
			
 
				 
			
@@ -1843,8 +1881,8 @@ def get_preprocessed_article(articles,cost_time = dict(),useselffool=True):
 
				         # 正文和附件内容限制字数30000
			
 
				         article_processed = article_limit(article_processed,limit_words=30000)
			
 
				         article_processed = get_preprocessed_outline(article_processed)
			
 
				+        # print('article_processed')
			
 
				         article_processed = tableToText(article_processed)
			
 
				-        # print(article_processed)
			
 
				         article_processed = segment(article_processed)
			
 
				         article_processed = article_processed.replace('．','.') # 2021/12/01 修正OCR识别PDF小数点错误问题
			
 
				         article_processed = article_processed.replace('报价限价', '招标限价') #2021/12/17 由于报价限价预测为中投标金额所以修改
			
--- a/BiddingKG/dl/interface/extract.py
+++ b/BiddingKG/dl/interface/extract.py
@@ -42,6 +42,70 @@ class MyEncoder(json.JSONEncoder):
 
				             return obj
			
 
				         return json.JSONEncoder.default(self, obj)
			
 
				 
			
 
				+def extractCount(extract_dict):
			
 
				+    # time_pattern = "\d{4}\-\d{2}\-\d{2}.*"
			
 
				+
			
 
				+    if len(extract_dict):
			
 
				+        _extract = extract_dict
			
 
				+    else:
			
 
				+        _extract = {}
			
 
				+    print(_extract)
			
 
				+    dict_pack = _extract.get("prem",{})
			
 
				+    extract_count = 0
			
 
				+    list_code = _extract.get("code",[])
			
 
				+    if len(list_code)>0:
			
 
				+        project_code = list_code[0]
			
 
				+    else:
			
 
				+        project_code = ""
			
 
				+    project_name = _extract.get("name","")
			
 
				+    bidding_budget = ""
			
 
				+    win_tenderer = ""
			
 
				+    win_bid_price = ""
			
 
				+    for _key in dict_pack.keys():
			
 
				+        if "tendereeMoney" in dict_pack[_key] and dict_pack[_key]["tendereeMoney"]!='' and float(dict_pack[_key]["tendereeMoney"])>0:
			
 
				+            extract_count += 1
			
 
				+            if bidding_budget=="":
			
 
				+                bidding_budget = str(float(dict_pack[_key]["tendereeMoney"]))
			
 
				+        for _role in dict_pack[_key]["roleList"]:
			
 
				+            if isinstance(_role,list):
			
 
				+                extract_count += 1
			
 
				+                if _role[2]!='' and float(_role[2])>0:
			
 
				+                    extract_count += 1
			
 
				+                if _role[0]=="tenderee":
			
 
				+                    tenderee = _role[1]
			
 
				+                if _role[0]=="win_tenderer":
			
 
				+                    if  win_tenderer=="":
			
 
				+                        win_tenderer = _role[1]
			
 
				+                    if _role[2]!='' and float(_role[2])>0:
			
 
				+                        extract_count += 1
			
 
				+                        if win_bid_price=="":
			
 
				+                            win_bid_price = str(float(_role[2]))
			
 
				+                if _role[0]=="agency":
			
 
				+                    agency = _role[1]
			
 
				+            if isinstance(_role,dict):
			
 
				+                extract_count += 1
			
 
				+                if "role_money" in _role:
			
 
				+                    if str(_role["role_money"].get("money",""))!='' and float(_role["role_money"].get("money",""))>0:
			
 
				+                        extract_count += 1
			
 
				+                if _role.get("role_name")=="tenderee":
			
 
				+                    tenderee = _role["role_text"]
			
 
				+                if _role.get("role_name")=="win_tenderer":
			
 
				+                    if  win_tenderer=="":
			
 
				+                        win_tenderer = _role["role_text"]
			
 
				+                    if "role_money" in _role:
			
 
				+                        if str(_role["role_money"]["money"])!='' and float(_role["role_money"]["money"])>0:
			
 
				+                            extract_count += 1
			
 
				+                            if win_bid_price=="":
			
 
				+                                win_bid_price = str(float(_role["role_money"]["money"]))
			
 
				+                if _role["role_name"]=="agency":
			
 
				+                    agency = _role["role_text"]
			
 
				+
			
 
				+    if project_code!="":
			
 
				+        extract_count += 1
			
 
				+    if project_name!="":
			
 
				+        extract_count += 1
			
 
				+    return extract_count
			
 
				+
			
 
				 def predict(doc_id,text,title="",page_time="",web_source_no='',**kwargs):
			
 
				     cost_time = dict()
			
 
				 
			
@@ -169,6 +233,10 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',**kwargs):
 
				     data_res = dict(codeName[0], **prem[0], **channel_dic, **product_attrs[0], **product_attrs[1], **payment_way_dic, **fail_reason)
			
 
				     data_res["doctitle_refine"] = doctitle_refine
			
 
				     data_res["nlp_enterprise"] = nlp_enterprise
			
 
				+    # 要素的个数
			
 
				+    data_res['extract_count'] = extractCount(data_res)
			
 
				+    # 是否有表格
			
 
				+    data_res['exist_table'] = 1 if re.search("<td",text) else 0
			
 
				     data_res["cost_time"] = cost_time
			
 
				     data_res["success"] = True
			
 
				 
			
--- a/BiddingKG/dl/interface/getAttributes.py
+++ b/BiddingKG/dl/interface/getAttributes.py
@@ -1026,7 +1026,6 @@ def findAttributeAfterEntity(PackDict,roleSet,PackageList,PackageSet,list_senten
 
				             tokens_num_dict[_index] = tokens_num_dict[_index - 1] + last_tokens_num
			
 
				         last_tokens_num = len(sentence.tokens)
			
 
				     attribute_type = ['money','serviceTime','ratio']# 'money'仅指“中投标金额”
			
 
				-    # print([i.entity_text for i in list_entity if i.entity_type=='money'])
			
 
				     for link_attribute in attribute_type:
			
 
				         temp_entity_list = []
			
 
				         if link_attribute=="money":
			
@@ -1045,7 +1044,6 @@ def findAttributeAfterEntity(PackDict,roleSet,PackageList,PackageSet,list_senten
 
				                                 drop_tendererMoney.append(next_entity)
			
 
				             for _drop in drop_tendererMoney:
			
 
				                 temp_entity_list.remove(_drop)
			
 
				-            # print([i.entity_text for i in temp_entity_list])
			
 
				         elif link_attribute=="serviceTime":
			
 
				             temp_entity_list = [ent for ent in list_entity if (ent.entity_type in ['org','company'] and ent.label in [2,3,4]) or
			
 
				                                 ent.entity_type=='serviceTime']
			
@@ -1104,7 +1102,6 @@ def findAttributeAfterEntity(PackDict,roleSet,PackageList,PackageSet,list_senten
 
				         # km算法分配求解
			
 
				         dispatch_result = dispatch(temp_match_list)
			
 
				         dispatch_result = sorted(dispatch_result, key=lambda x: (x[0].sentence_index,x[0].begin_index))
			
 
				-        # print(dispatch_result)
			
 
				         for match in dispatch_result:
			
 
				             _entity = match[0]
			
 
				             _attribute = match[1]