9 月之前 · 38791e7b00
--- a/BiddingKG/dl/common/Utils.py
+++ b/BiddingKG/dl/common/Utils.py
@@ -1044,6 +1044,84 @@ def cut_repeat_name(s):
 
															             s = sub_s
														
 
															     return s
														
 
															+def del_tabel_achievement(soup):
														
 
															+    if re.search('中标|成交|入围|结果|评标|开标|候选人', soup.text[:800]) == None or re.search('业绩', soup.text)==None:
														
 
															+        return None
														
 
															+    p1 = '(中标|成交)(单位|候选人)的?(企业|项目|项目负责人|\w{,5})?业绩|类似(项目)?业绩|\w{,10}业绩$|业绩(公示|情况|荣誉)'
														
 
															+    '''删除前面标签 命中业绩规则；当前标签为表格且公布业绩相关信息的去除'''
														
 
															+    for tag in soup.find_all('table'):
														
 
															+        pre_text = ""
														
 
															+        if tag.findPreviousSibling() != None:
														
 
															+            pre_text = tag.findPreviousSibling().text.strip()
														
 
															+            if pre_text == "" and tag.findPreviousSibling().findPreviousSibling() != None: # 修复表格前一标签没内容，再前一个才有内容情况
														
 
															+                pre_text = tag.findPreviousSibling().findPreviousSibling().text.strip()
														
 
															+
														
 
															+        tr_text = tag.find('tr').text.strip() if tag.find('tr') != None else ""
														
 
															+        #     print(re.search(p1, pre_text),pre_text, len(pre_text), re.findall('序号|中标候选人名称|项目名称|工程名称|合同金额|建设单位|业主', tr_text))
														
 
															+        if re.search(p1, pre_text) and len(pre_text) < 20 and tag.find('tr') != None and len(tr_text)<100:
														
 
															+            _count = 0
														
 
															+            for td in tag.find('tr').find_all('td'):
														
 
															+                td_text = td.text.strip()
														
 
															+                if len(td_text) > 25:
														
 
															+                    break
														
 
															+                if len(td_text) < 25 and re.search('中标候选人|第[一二三四五1-5]候选人|(项目|业绩|工程)名称|\w{,10}业绩$|合同金额|建设单位|采购单位|业主|甲方', td_text):
														
 
															+                    _count += 1
														
 
															+                if _count >=2:
														
 
															+                    pre_tag = tag.findPreviousSibling().extract()
														
 
															+                    del_tag = tag.extract()
														
 
															+                    # print('删除表格业绩内容', pre_tag.text + del_tag.text)
														
 
															+                    break
														
 
															+        elif re.search('业绩名称', tr_text) and re.search('建设单位|采购单位|业主', tr_text) and len(tr_text)<100:
														
 
															+            del_tag = tag.extract()
														
 
															+            # print('删除表格业绩内容', del_tag.text)
														
 
															+    del_trs = []
														
 
															+    '''删除表格某些行公布的业绩信息'''
														
 
															+    for tag in soup.find_all('table'):
														
 
															+        text = tag.text
														
 
															+        if re.search('业绩', text) == None:
														
 
															+            continue
														
 
															+        # for tr in tag.find_all('tr'):
														
 
															+        trs = tag.find_all('tr')
														
 
															+        i = 0
														
 
															+        while i < len(trs):
														
 
															+            tr = trs[i]
														
 
															+            if len(tr.find_all('td'))==2 and tr.td!=None and tr.td.findNextSibling()!=None:
														
 
															+                td1_text =tr.td.text
														
 
															+                td2_text =tr.td.findNextSibling().text
														
 
															+                if re.search('业绩', td1_text)!=None and len(td1_text)<10 and len(re.findall('(\d、|（\d）)?[-\w（）、]+(工程|项目|勘察|设计|施工|监理|总承包|采购|更新)', td2_text))>=2:
														
 
															+                    # del_tag = tr.extract()
														
 
															+                    # print('删除表格业绩内容', del_tag.text)
														
 
															+                    del_trs.append(tr)
														
 
															+            elif tr.td != None and re.search('^业绩|业绩$', tr.td.text.strip()) and len(tr.td.text.strip())<25:
														
 
															+                rows = tr.td.attrs.get('rowspan', '')
														
 
															+                cols = tr.td.attrs.get('colspan', '')
														
 
															+                if rows.isdigit() and int(rows)>2:
														
 
															+                    for j in range(int(rows)):
														
 
															+                        if i+j < len(trs):
														
 
															+                            del_trs.append(trs[i+j])
														
 
															+                    i += j
														
 
															+                elif cols.isdigit() and int(cols)>3 and len(tr.find_all('td'))==1 and i+2 < len(trs):
														
 
															+                    next_tr_cols = 0
														
 
															+                    td_num = 0
														
 
															+                    for td in trs[i+1].find_all('td'):
														
 
															+                        td_num += 1
														
 
															+                        if td.attrs.get('colspan', '').isdigit():
														
 
															+                            next_tr_cols += int(td.attrs.get('colspan', ''))
														
 
															+                    if next_tr_cols == int(cols):
														
 
															+                        del_trs.append(tr)
														
 
															+                        for j in range(1,len(trs)-i):
														
 
															+                            if len(trs[i+j].find_all('td')) == 1:
														
 
															+                                break
														
 
															+                            elif len(trs[i+j].find_all('td')) >= td_num-1:
														
 
															+                                del_trs.append(trs[i+j])
														
 
															+                            else:
														
 
															+                                break
														
 
															+                        i += j
														
 
															+            i += 1
														
 
															+        for tr in del_trs:
														
 
															+            del_tag = tr.extract()
														
 
															+            # print('删除表格业绩内容', del_tag.text)
														
 
															+
														
 
															 def recall(y_true, y_pred):
														
 
															     '''
														
 
															     计算召回率
														
--- a/BiddingKG/dl/interface/Preprocessing.py
+++ b/BiddingKG/dl/interface/Preprocessing.py
@@ -2085,6 +2085,8 @@ def segment(soup,final=True):
 
															             child.insert_after("。")
														
 
															         if child.name in commaList:
														
 
															             child.insert_after("，")
														
 
															+            if child.name != "td" and re.match('[（(][一二三四五六七八九十]+[)）]|[一二三四五六七八九十]+\s*、', child.get_text().strip()): # 大纲前面用句号分割
														
 
															+                child.insert_before("。")
														
 
															         # if child.name == 'div' and 'class' in child.attrs:
														
 
															         #     # 添加附件"attachment"标识
														
 
															         #     if "richTextFetch" in child['class']:
														
@@ -2822,79 +2824,6 @@ def del_achievement(text):
 
															         text = text.replace(rs.group(0), '')
														
 
															     return text
														
 
															-def del_tabel_achievement(soup):
														
 
															-    if re.search('中标|成交|入围|结果|评标|开标|候选人', soup.text[:800]) == None or re.search('业绩', soup.text)==None:
														
 
															-        return None
														
 
															-    p1 = '(中标|成交)(单位|候选人)的?(企业|项目|项目负责人|\w{,5})?业绩|类似(项目)?业绩|\w{,10}业绩$|业绩(公示|情况|荣誉)'
														
 
															-    '''删除前面标签 命中业绩规则；当前标签为表格且公布业绩相关信息的去除'''
														
 
															-    for tag in soup.find_all('table'):
														
 
															-        pre_text = tag.findPreviousSibling().text.strip() if tag.findPreviousSibling() != None else ""
														
 
															-        tr_text = tag.find('tr').text.strip() if tag.find('tr') != None else ""
														
 
															-        #     print(re.search(p1, pre_text),pre_text, len(pre_text), re.findall('序号|中标候选人名称|项目名称|工程名称|合同金额|建设单位|业主', tr_text))
														
 
															-        if re.search(p1, pre_text) and len(pre_text) < 20 and tag.find('tr') != None and len(tr_text)<100:
														
 
															-            _count = 0
														
 
															-            for td in tag.find('tr').find_all('td'):
														
 
															-                td_text = td.text.strip()
														
 
															-                if len(td_text) > 25:
														
 
															-                    break
														
 
															-                if len(td_text) < 25 and re.search('中标候选人|第[一二三四五1-5]候选人|(项目|业绩|工程)名称|\w{,10}业绩$|合同金额|建设单位|采购单位|业主|甲方', td_text):
														
 
															-                    _count += 1
														
 
															-                if _count >=2:
														
 
															-                    pre_tag = tag.findPreviousSibling().extract()
														
 
															-                    del_tag = tag.extract()
														
 
															-                    # print('删除表格业绩内容', pre_tag.text + del_tag.text)
														
 
															-                    break
														
 
															-        elif re.search('业绩名称', tr_text) and re.search('建设单位|采购单位|业主', tr_text) and len(tr_text)<100:
														
 
															-            del_tag = tag.extract()
														
 
															-            # print('删除表格业绩内容', del_tag.text)
														
 
															-    del_trs = []
														
 
															-    '''删除表格某些行公布的业绩信息'''
														
 
															-    for tag in soup.find_all('table'):
														
 
															-        text = tag.text
														
 
															-        if re.search('业绩', text) == None:
														
 
															-            continue
														
 
															-        # for tr in tag.find_all('tr'):
														
 
															-        trs = tag.find_all('tr')
														
 
															-        i = 0
														
 
															-        while i < len(trs):
														
 
															-            tr = trs[i]
														
 
															-            if len(tr.find_all('td'))==2 and tr.td!=None and tr.td.findNextSibling()!=None:
														
 
															-                td1_text =tr.td.text
														
 
															-                td2_text =tr.td.findNextSibling().text
														
 
															-                if re.search('业绩', td1_text)!=None and len(td1_text)<10 and len(re.findall('(\d、|（\d）)?[-\w（）、]+(工程|项目|勘察|设计|施工|监理|总承包|采购|更新)', td2_text))>=2:
														
 
															-                    # del_tag = tr.extract()
														
 
															-                    # print('删除表格业绩内容', del_tag.text)
														
 
															-                    del_trs.append(tr)
														
 
															-            elif tr.td != None and re.search('^业绩|业绩$', tr.td.text.strip()) and len(tr.td.text.strip())<25:
														
 
															-                rows = tr.td.attrs.get('rowspan', '')
														
 
															-                cols = tr.td.attrs.get('colspan', '')
														
 
															-                if rows.isdigit() and int(rows)>2:
														
 
															-                    for j in range(int(rows)):
														
 
															-                        if i+j < len(trs):
														
 
															-                            del_trs.append(trs[i+j])
														
 
															-                    i += j
														
 
															-                elif cols.isdigit() and int(cols)>3 and len(tr.find_all('td'))==1 and i+2 < len(trs):
														
 
															-                    next_tr_cols = 0
														
 
															-                    td_num = 0
														
 
															-                    for td in trs[i+1].find_all('td'):
														
 
															-                        td_num += 1
														
 
															-                        if td.attrs.get('colspan', '').isdigit():
														
 
															-                            next_tr_cols += int(td.attrs.get('colspan', ''))
														
 
															-                    if next_tr_cols == int(cols):
														
 
															-                        del_trs.append(tr)
														
 
															-                        for j in range(1,len(trs)-i):
														
 
															-                            if len(trs[i+j].find_all('td')) == 1:
														
 
															-                                break
														
 
															-                            elif len(trs[i+j].find_all('td')) >= td_num-1:
														
 
															-                                del_trs.append(trs[i+j])
														
 
															-                            else:
														
 
															-                                break
														
 
															-                        i += j
														
 
															-            i += 1
														
 
															-        for tr in del_trs:
														
 
															-            del_tag = tr.extract()
														
 
															-            # print('删除表格业绩内容', del_tag.text)
														
 
															-
														
 
															 def split_header(soup):
														
 
															     '''
														
 
															     处理 空格分割多个表头的情况 ： 主要标的名称      规格型号（或服务要求）      主要标的数量      主要标的单价      合同金额（万元）
														
@@ -2988,7 +2917,6 @@ def get_preprocessed_article(articles,cost_time = dict(),useselffool=True):
 
															         article_processed = tableToText(article_processed)
														
 
															         # print(article_processed)
														
 
															         article_processed = segment(article_processed)
														
 
															-        # print(article_processed)
														
 
															         article_processed = article_processed.replace('(', '（').replace(')', '）')  #2022/8/10 统一为中文括号
														
 
															         # article_processed = article_processed.replace(':', '：')  #2023/1/5 统一为中文冒号
														
@@ -3031,6 +2959,8 @@ def get_preprocessed_article(articles,cost_time = dict(),useselffool=True):
 
															         idx = article_processed.find('供应商报名、缴纳保证金、下载采购文件流程.docx。##attachment##。') # 修复404230599 E交易站源批量附件中标人错误
														
 
															         if idx > 1000:
														
 
															             article_processed = article_processed[:idx]
														
 
															+        for it in re.finditer('[一二三四五六七八九十\d]、中标候选人名称，', article_processed): # 修复大纲类标点导致提取不到，例：515521734
														
 
															+            article_processed = re.sub(it.group(0), it.group(0)[:-1]+'：', article_processed)
														
 
															         '''去除业绩内容'''
														
 
															         article_processed = del_achievement(article_processed)
														
@@ -3195,6 +3125,7 @@ def get_preprocessed_sentences(list_articles,useselffool=True,cost_time=dict()):
 
															             article.content = "".join(sentences)
														
 
															             # sentences.append(article_processed[_begin:])
														
 
															+            article.content = re.sub('[，。\s]+。', '。', article.content) # 处理连续标点
														
 
															             lemmas = []
														
 
															             doc_offsets = []
														
--- a/BiddingKG/dl/interface/extract.py
+++ b/BiddingKG/dl/interface/extract.py
@@ -263,10 +263,10 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															     '''大纲提取及大纲内容相关提取'''
														
 
															     sentence2_list, sentence2_list_attach = extract_sentence_list(list_sentences[0])
														
 
															     parse_document = ParseDocument(text, True,list_obj=sentence2_list)
														
 
															-    requirement_text, aptitude_text, addr_bidopen_text, addr_bidsend_text = extract_parameters(parse_document, list_articles[0].content)
														
 
															+    requirement_text, aptitude_text, addr_bidopen_text, addr_bidsend_text, out_lines= extract_parameters(parse_document, list_articles[0].content)
														
 
															     if sentence2_list_attach!=[] and requirement_text == '' and aptitude_text == '' and addr_bidopen_text=="":
														
 
															         parse_document = ParseDocument(text, True, list_obj=sentence2_list_attach)
														
 
															-        requirement_text, aptitude_text, addr_bidopen_text, addr_bidsend_text = extract_parameters(parse_document, list_articles[0].content)
														
 
															+        requirement_text, aptitude_text, addr_bidopen_text, addr_bidsend_text, out_lines = extract_parameters(parse_document, list_articles[0].content)
														
 
															     # 过滤掉Redis里值为0的错误实体
														
 
															     # list_entitys[0] = entityLink.enterprise_filter(list_entitys[0])
														
@@ -392,7 +392,7 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															     start_time = time.time() # 产品名称及废标原因提取  #依赖 docchannel结果
														
 
															     fail = channel_dic['docchannel']['docchannel'] == "废标公告"
														
 
															-    fail_reason, product_list = predictor.getPredictor("product").predict(list_sentences,list_entitys,list_articles, fail) #只返回失败原因，产品已加入到Entity类 #2022/7/29补充返回产品，方便行业分类调用
														
 
															+    fail_reason, product_list = predictor.getPredictor("product").predict(list_sentences,list_entitys,list_articles, fail,out_lines=out_lines) #只返回失败原因，产品已加入到Entity类 #2022/7/29补充返回产品，方便行业分类调用
														
 
															     # predictor.getPredictor("product").predict(list_sentences, list_entitys)
														
 
															     log("get product done of doc_id%s"%(doc_id))
														
 
															     cost_time["product"] = round(time.time()-start_time,2)
														
@@ -442,7 +442,7 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															     # data_res = Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic)[0]
														
 
															     # data_res = Preprocessing.union_result(Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic), list_channel_dic)[0]
														
 
															-    version_date = {'version_date': '2024-08-12'}
														
 
															+    version_date = {'version_date': '2024-08-20'}
														
 
															     data_res = dict(codeName[0], **prem[0], **channel_dic, **product_attrs[0], **product_attrs[1], **payment_way_dic, **fail_reason, **industry, **district, **candidate_dic, **version_date, **all_moneys, **pb_json)
														
 
															     if original_docchannel == 302:
														
@@ -505,6 +505,9 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															         text_main = list_articles[0].content
														
 
															         text_attn = ""
														
 
															     data_res['word_count'] = {'正文': len(text_main), '附件': len(text_attn)}
														
 
															+    # 限制产品数量
														
 
															+    data_res['product'] = data_res['product'][:500]
														
 
															+    data_res['product_attrs']['data'] = data_res['product_attrs']['data'][:500]
														
 
															     # for _article in list_articles:
														
 
															     #         log(_article.content)
														
--- a/BiddingKG/dl/interface/header_set.pkl
+++ b/BiddingKG/dl/interface/header_set.pkl
--- a/BiddingKG/dl/interface/htmlparser.py
+++ b/BiddingKG/dl/interface/htmlparser.py
@@ -286,9 +286,11 @@ class ParseDocument():
 
															         groups = []
														
 
															         if _se is not None:
														
 
															             e = _se.end()
														
 
															-            if re.search('(时间|日期|编号|账号|号码|手机|价格|\w价|人民币|金额|得分|分值|总分|满分|最高得|扣|减|数量)[:：]?\d', _se.group(0)) or (re.search('\d[.:：]?$', _se.group(0)) and re.search('^[\d年月日万元天]', _text[e:])):
														
 
															+            if re.search('(时间|日期|编号|账号|号码|手机|价格|\w价|人民币|金额|得分|分值|总分|满分|最高得|扣|减|数量|评委)[:：]?\d', _se.group(0)) or (re.search('\d[.:：]?$', _se.group(0)) and re.search('^[\d年月日万元天个分秒台条A-Za-z]|^(小时)', _text[e:])):
														
 
															                 return None
														
 
															-            elif re.match('[二三四五六七八九十]\w{1,2}[市区县]', _text) and re.match('[二三四五六七八九十]', _se.group(0)): # 289765335 排除三明市等开头作为大纲
														
 
															+            elif re.match('[二三四五六七八九十]\w{1,2}[市区县]|五金|四川|八疆|九龙|[一二三四五六七八九十][层天标包]', _text) and re.match('[一二三四五六七八九十]', _se.group(0)): # 289765335 排除三明市等开头作为大纲
														
 
															+                return None
														
 
															+            elif re.search('^[\u4e00-\u9fa5]+[:：]', _text[:e]):
														
 
															                 return None
														
 
															             _gd = _se.groupdict()
														
 
															             for k,v in _gd.items():
														
--- a/BiddingKG/dl/interface/outline_extractor.py
+++ b/BiddingKG/dl/interface/outline_extractor.py
@@ -27,7 +27,7 @@ def extract_sentence_list(sentence_list):
 
															         sentence_text = sentence.sentence_text
														
 
															         begin_index = 0
														
 
															         end_index = 0
														
 
															-        for it in re.finditer('([^一二三四五六七八九十，。][一二三四五六七八九十]{1,3}|[^\d，。]\d{1,2}(\.\d{1,2}){,2})、', sentence_text): # 例：289699210 1、招标内容：滑触线及配件2、招标品牌：3、参标供应商经营形式要求：厂家4、参标供应商资质要求：5、
														
 
															+        for it in re.finditer('([^一二三四五六七八九十，。][一二三四五六七八九十]{1,3}|[^\d\.、，。a-zA-Z]\d{1,2}(\.\d{1,2}){,2})、', sentence_text): # 例：289699210 1、招标内容：滑触线及配件2、招标品牌：3、参标供应商经营形式要求：厂家4、参标供应商资质要求：5、
														
 
															             temp = it.group(0)
														
 
															             sentence_text = sentence_text.replace(temp, temp[0] + '，' + temp[1:])
														
 
															         for item in re.finditer('[，。；;!！？]+', sentence_text): # 20240725去掉英文问号，避免网址被分隔
														
@@ -35,6 +35,8 @@ def extract_sentence_list(sentence_list):
 
															             # if end_index!=len(sentence_text):
														
 
															             #     # if end_index-begin_index<6 and item.group(0) in ['，', ';', '；'] and re.match('[一二三四五六七八九十\d.]+、', sentence_text[begin_index:end_index])==None: # 20240725 注销，避免标题提取错误
														
 
															             #     #     continue
														
 
															+            if end_index != len(sentence_text) and re.match('[一二三四五六七八九十\d.]{1,2}[、，.]+$', sentence_text[begin_index:end_index]): # 避免表格序号和内容在不同表格情况 例：293178161
														
 
															+                continue
														
 
															             new_sentence_text = sentence_text[begin_index:end_index]
														
 
															             sentence2 = Sentence2(new_sentence_text,sentence_index,begin_index,end_index)
														
 
															             if sentence.in_attachment:
														
@@ -53,7 +55,8 @@ def extract_sentence_list(sentence_list):
 
															     return new_sentence2_list, new_sentence2_list_attach
														
 
															-requirement_pattern = "(采购需求|需求分析|项目说明|(采购|合同|招标|项目|服务|工程|标的|需求|建设)(的?主要)?(内容|概况|范围|信息|规模|简介|说明|摘要|基本情况)([及与和](其它|\w{,2})要求)?" \
														
 
															+requirement_pattern = "(采购需求|需求分析|项目说明|(采购|合同|招标|询比?价|项目|服务|工程|标的|需求|建设)(的?(主要|简要|基本|具体|名称及))?" \
														
 
															+                          "(内容|概况|概述|范围|信息|规模|简介|介绍|说明|摘要|情况)([及与和]((其它|\w{,2})[要需]求|发包范围|数量))?" \
														
 
															                       "|招标项目技术要求|服务要求|服务需求|项目目标|需求内容如下|建设规模)为?([:：，]|$)"
														
 
															 aptitude_pattern = "(资格要求|资质要求)([:：，]|$)"
														
 
															 addr_bidopen_pattern = "([开评]标|开启|评选|比选|磋商|遴选|寻源|采购|招标|竞价|议价|委托|询比?价|比价|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选|递交\w{,4}文件)[)）]?(时间[与及和、])?(地址|地点)([与及和、]时间)?([:：，]|$)|开启([:：，]|$)"
														
@@ -83,12 +86,10 @@ def extract_parameters(parse_document, content):
 
															         # print(_data.keys())
														
 
															         if _type=="sentence":
														
 
															             if _data["sentence_title"] is not None:
														
 
															-
														
 
															-                outline = re.sub('（?[一二三四五六七八九十\d.]+）?\s*、?', '',
														
 
															-                                 re.split('[：:，]', _text)[0].replace('(', '（').replace(')', '）'))
														
 
															+                if re.search('[（(][一二三四五六七八九十]+[)）]|[一二三四五六七八九十]+\s*、', _text[:10]):
														
 
															+                    out_lines.append((_text, _data['sentence_index'], _data['wordOffset_begin']))
														
 
															                 if re.search(requirement_pattern,_text[:30]) is not None and re.search('符合采购需求，', _text[:30])==None:
														
 
															-                    out_lines.append(outline)
														
 
															                     childs = get_childs([_data])
														
 
															                     for c in childs:
														
 
															                         # requirement_text += c["text"]+"\n"
														
@@ -168,7 +169,7 @@ def extract_parameters(parse_document, content):
 
															         for ser in re.finditer('((\w{,4}文件)?(提交|递交)(\w{,4}文件)?|投标)?地[点址]([(（]网址[)）])?：[^，；。]{2,100}[，；。]', addr_bidsend_text):
														
 
															             b, e = ser.span()
														
 
															         addr_bidsend_text = addr_bidsend_text[b:e]
														
 
															-    return requirement_text, aptitude_text, addr_bidopen_text, addr_bidsend_text
														
 
															+    return requirement_text, aptitude_text, addr_bidopen_text, addr_bidsend_text, out_lines
														
 
															 if __name__ == "__main__":
														
 
															     # with open('D:\html/2.html', 'r', encoding='UTF-8') as f:
														
--- a/BiddingKG/dl/interface/predictor.py
+++ b/BiddingKG/dl/interface/predictor.py
@@ -29,6 +29,7 @@ import datetime
 
															 from BiddingKG.dl.entityLink.entityLink import get_business_data
														
 
															 from BiddingKG.dl.proposed_building.pb_extract import PBPredictor
														
 
															 from BiddingKG.dl.interface.getAttributes import turnMoneySource
														
 
															+from BiddingKG.dl.common.Utils import del_tabel_achievement
														
 
															 # import fool   # 统一用 selffool ，阿里云上只有selffool 包
														
 
															 cpu_num = int(os.environ.get("CPU_NUM",0))
														
@@ -435,6 +436,8 @@ class CodeNamePredict():
 
															                                                     item['code'].append((it, 1, sentence.sentence_index))
														
 
															                                                 elif re.search('(询价|合同)编号：?$', pre_text[h]):
														
 
															                                                     item['code'].append((it, 2, sentence.sentence_index))
														
 
															+                                                elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
														
 
															+                                                    item['code'].append((it, 2.5, sentence.sentence_index))
														
 
															                                                 else:
														
 
															                                                     item['code'].append((it, 3, sentence.sentence_index))
														
 
															                                         elif len(item['code']) > 0:
														
@@ -448,6 +451,8 @@ class CodeNamePredict():
 
															                                                     item['code'][-1] = (new_it, 1, sentence.sentence_index)
														
 
															                                                 elif re.search('(询价|合同)编号：?$', pre_text[h]):
														
 
															                                                     item['code'][-1] = (new_it, 2, sentence.sentence_index)
														
 
															+                                                elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
														
 
															+                                                    item['code'].append((new_it, 2.5, sentence.sentence_index))
														
 
															                                                 else:
														
 
															                                                     item['code'][-1] = (new_it, 3, sentence.sentence_index)
														
 
															                                         else:
														
@@ -460,6 +465,8 @@ class CodeNamePredict():
 
															                                                     item['code'].append((the_code, 1, sentence.sentence_index))
														
 
															                                                 elif re.search('(询价|合同)编号：?$', pre_text[h]):
														
 
															                                                     item['code'].append((the_code, 2, sentence.sentence_index))
														
 
															+                                                elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
														
 
															+                                                    item['code'].append((the_code, 2.5, sentence.sentence_index))
														
 
															                                                 else:
														
 
															                                                     item['code'].append((the_code, 3, sentence.sentence_index))
														
 
															                                             break
														
@@ -474,6 +481,8 @@ class CodeNamePredict():
 
															                                         item['code'].append((the_code, 1, sentence.sentence_index))
														
 
															                                     elif re.search('(询价|合同)编号：?$', pre_text[h]):
														
 
															                                         item['code'].append((the_code, 2, sentence.sentence_index))
														
 
															+                                    elif re.search('(询价|合同|采购|招标|项目)标号：?$', pre_text[h]):
														
 
															+                                        item['code'].append((the_code, 2.5, sentence.sentence_index))
														
 
															                                     else:
														
 
															                                         item['code'].append((the_code, 3, sentence.sentence_index))
														
@@ -580,6 +589,8 @@ class CodeNamePredict():
 
															                             item['code'].append((othercode.group('code'), 1, sentence.sentence_index))
														
 
															                         elif re.search('(询价|合同)编号：?$', othercode.group(0)):
														
 
															                             item['code'].append((othercode.group('code'), 2, sentence.sentence_index))
														
 
															+                        elif re.search('(询价|合同|采购|招标|项目)标号：?$', othercode.group(0)):
														
 
															+                            item['code'].append((othercode.group('code'), 2.5, sentence.sentence_index))
														
 
															                         else:
														
 
															                             item['code'].append((othercode.group('code'), 3, sentence.sentence_index))
														
 
															                         # print('规则召回项目编号：', othercode.group('code'))
														
@@ -840,9 +851,9 @@ class PREMPredict():
 
															                 elif re.search('尊敬的供应商：$', front):
														
 
															                     label = 0
														
 
															                     values[label] = 0.501
														
 
															-                elif re.search('第[4-9四五六]中标候选人|(提交单位|竞投单位)：$', front):  #修复第4以上的预测错为中标人
														
 
															+                elif re.search('第[4-9四五六]中标候选人|(提交单位|竞投单位)：$|第[4-9四五六七八九十]名', front):  #修复第4以上的预测错为中标人
														
 
															                     label = 5
														
 
															-                    values[label] = 0.5
														
 
															+                    values[2] = 0.5
														
 
															                 elif re.search('(排名|排序|名次)：([4-9]|\d{2,})，', front) or re.search('序号：\d+，(供应商|投标|候选)', front): # 293225236 附件中 排名预测错误
														
 
															                     values[2] = 0.5
														
 
															                     label = 5
														
@@ -2571,7 +2582,7 @@ class ProductPredictor():
 
															             paths.append(path[1:])
														
 
															         return paths
														
 
															-    def predict(self, list_sentences,list_entitys=None,list_articles=[], fail=False, MAX_AREA=5000):
														
 
															+    def predict(self, list_sentences,list_entitys=None,list_articles=[], fail=False, MAX_AREA=5000, out_lines=[]):
														
 
															         '''
														
 
															         预测实体代码，每个句子最多取MAX_AREA个字，超过截断
														
 
															         :param list_sentences: 多篇公告句子列表,[[一篇公告句子列表],[公告句子列表]]
														
@@ -2579,6 +2590,19 @@ class ProductPredictor():
 
															         :param MAX_AREA: 每个句子最多截取多少字
														
 
															         :return: 把预测出来的实体放进实体类
														
 
															         '''
														
 
															+        p = "(采购需求|需求分析|项目说明|(采购|合同|招标|询比?价|项目|服务|工程|标的|需求|建设|分包)(的?(主要|简要|基本|具体|名称及))?" \
														
 
															+                          "(内容|概况|概述|范围|信息|规模|简介|介绍|说明|摘要|情况|名称)([及与和]((其它|\w{,2})[要需]求|发包范围|数量))?" \
														
 
															+                      "|招标项目技术要求|服务要求|服务需求|项目目标|需求内容如下|建设规模|(设备|材料|仪器|需求|产品|采购单?)(清单|名称|信息))为?([:：，]|$)"
														
 
															+        sentence_range = []
														
 
															+        if len(out_lines) >= 3: # 三个以上大纲
														
 
															+            for i in range(len(out_lines)-1):
														
 
															+                text, s1, b1 = out_lines[i]
														
 
															+                _, s2, b2 = out_lines[i+1]
														
 
															+                if 3<text.find('：')<20:
														
 
															+                    text = text.split('：')[0]
														
 
															+                if re.search(p, text[:15]):
														
 
															+                    sentence_range.append((s1, s2))
														
 
															+
														
 
															         with self.sess.as_default() as sess:
														
 
															             with self.sess.graph.as_default():
														
 
															                 result = []
														
@@ -2645,6 +2669,25 @@ class ProductPredictor():
 
															                     if len(list_sentence)==0:
														
 
															                         result.append({"product":[]})
														
 
															                         continue
														
 
															+
														
 
															+                    if sentence_range: # 20240815 如果有招标内容大纲，只从前两句及大纲内提取产品，避免类似 514920213 提取错其他内容 银行流水
														
 
															+                        new_list = []
														
 
															+                        word_num = 0
														
 
															+                        for sentence in list_sentence:
														
 
															+                            if sentence.sentence_index<2:
														
 
															+                                new_list.append(sentence)
														
 
															+                                continue
														
 
															+                            for s1, s2 in sentence_range:
														
 
															+                                if sentence.sentence_index < s1:
														
 
															+                                    continue
														
 
															+                                elif s1<=sentence.sentence_index <=s2:
														
 
															+                                    new_list.append(sentence)
														
 
															+                                    word_num += len(sentence.sentence_text)
														
 
															+                                elif sentence.sentence_index >= s2:
														
 
															+                                    break
														
 
															+                        if word_num > 100:
														
 
															+                            list_sentence = new_list
														
 
															+
														
 
															                     list_sentence.sort(key=lambda x:len(x.sentence_text), reverse=True)
														
 
															                     _begin_index = 0
														
 
															                     item = {"product":[]}
														
@@ -6373,19 +6416,12 @@ class TablePremExtractor(object):
 
															         header_dic = dict()
														
 
															         flag = False
														
 
															         contain_header = False
														
 
															-        # print('表头判断：', set(fix_td_list) - self.headerset)
														
 
															         if len(set(fix_td_list))>=2 and len(set(fix_td_list) & self.headerset)/len(set(fix_td_list))>=0.6:
														
 
															             flag = True
														
 
															             need_replace = 0 # 是否需要替换表头名称
														
 
															-            if re.search('^(投标银行|供应商名称)$', '|'.join(td_list)) and re.search('中标存款金?额|中标资金存放额|中标利率|(中标|成交|合同)）?总?(金?额|[报均总]价|价[格款]?)', '|'.join(td_list)):
														
 
															-                need_replace = 1
														
 
															             for i in range(len(td_list)) :
														
 
															                 text = td_list[i]
														
 
															                 text = re.sub('\s', '', text)
														
 
															-                if need_replace and re.search('^(投标银行|供应商名称)$', text): # 银行类特殊处理
														
 
															-                    text = '中标银行'
														
 
															-                if need_replace and re.search('排名|排序|名次|推荐顺序', text): # 银行类特殊处理
														
 
															-                    text = '序号'
														
 
															                 if text == '备选中标人':
														
 
															                     text = '第二候选人'
														
 
															                 if len(re.sub('(（[\w、×*/]{1,20}）)$', '', text)) > 15: # 长度大于15 不进行表头匹配
														
@@ -6453,7 +6489,7 @@ class TablePremExtractor(object):
 
															         text = re.sub('联合体：|联合体(成员|单位)[12345一二三四五]?：|(联合体)?成员单位[12345一二三四五]?：|特殊普通合伙：|[(（][主成][）)]'
														
 
															                       , '，', text)
														
 
															         text = re.sub('\s', '', text) # 修复 370835008 表格中实体中间有\n
														
 
															-        text = re.sub('[一二三四五六七八九十]+标段：|标段[一二三四五六七八九十]+：', '', text) # 2024/4/22 修复 372839375 三标段：宁夏一山科技有限公司
														
 
															+        text = re.sub('[一二三四五六七八九十]+标段[：:]|标段[一二三四五六七八九十]+[：:]|第[一二三四五六七八九十]+名[：:]', '', text) # 2024/4/22 修复 372839375 三标段：宁夏一山科技有限公司
														
 
															         text = re.sub('1[3-9]\d{9}|\d{3}-\d{8}|\d{4}-\d{7}', '', text) # 2024/4/23 去除电话
														
 
															         if text in nlp_enterprise:
														
 
															             return text
														
@@ -6486,7 +6522,9 @@ class TablePremExtractor(object):
 
															             or re.search('(货物|商品|产品|设备|通用|主要标的)(名称?|内容)', headers['project_name'][1])): # 20240131修复只有货物名称及最高限价的错误作为多包 396636683；  补充避免423647863采购意向被过滤
														
 
															             # print('没有包号及角色的不要')
														
 
															             return {}
														
 
															-
														
 
															+        have_bid_amount = False # 是否包含中标金额
														
 
															+        if "bid_amount" in headers and re.search('[1-9]+', '#'.join([it.strip() for it in df[headers['bid_amount'][0]]])):
														
 
															+            have_bid_amount = True
														
 
															         for i in df.index:
														
 
															             same_package = False  # 连续重复包号，一般是 rowspan 造成；一包 多个采购
														
 
															             project_code = df.loc[i, headers['project_code'][0]].strip() if "project_code" in headers else ""
														
@@ -6507,7 +6545,7 @@ class TablePremExtractor(object):
 
															                 break
														
 
															             if re.search('详见', project_name):  # 去除某些表达： 详见招标文件
														
 
															                 project_name = ""
														
 
															-            if package_code_raw == "" and re.search('第?[0-9一二三四五六七八九十a-zZ-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))$|^(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zZ-Z]{1,4}$', project_name):
														
 
															+            if package_code_raw == "" and re.search('第?[0-9一二三四五六七八九十a-zA-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))$|^(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zA-Z]{1,4}$', project_name):
														
 
															                 package_code_raw = project_name
														
 
															                 project_name = ""
														
@@ -6628,6 +6666,10 @@ class TablePremExtractor(object):
 
															                     if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的包 丢弃
														
 
															                         prem_dic.pop(package)
														
 
															                     continue
														
 
															+                elif 'bid_amount' in headers and re.search('[%％‰折]|浮率', bid_amount_) == None and have_bid_amount and bid_amount_ in ['/','','0','0.0']: # 如果不是所有行中标金额都为0，则把为0的做非中标
														
 
															+                    if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的包 丢弃
														
 
															+                        prem_dic.pop(package)
														
 
															+                    continue
														
 
															                 bid_amount_header = headers['bid_amount'][1] if bid_amount_ != "" else ''
														
 
															                 if (re.search('费率|下浮率|[%％‰折]',
														
@@ -6654,9 +6696,10 @@ class TablePremExtractor(object):
 
															                         prem_dic[package]['roleList'][-1]['multi_winner'] += ','+ tenderer
														
 
															                     elif tenderer not in prem_dic[package]['roleList'][-1]['multi_winner']:
														
 
															                         prem_dic[package]['roleList'][-1]['multi_winner'] += ','+ tenderer
														
 
															-                    if 'other_winner_dic' not in prem_dic[package]['roleList'][-1]:
														
 
															-                        prem_dic[package]['roleList'][-1]['other_winner_dic'] = []
														
 
															-                    prem_dic[package]['roleList'][-1]['other_winner_dic'].append({'role_text': tenderer, "money": bid_amount, "money_unit": money_unit})
														
 
															+                    if bid_amount != 0: # 有中标金额的才放进去
														
 
															+                        if 'other_winner_dic' not in prem_dic[package]['roleList'][-1]:
														
 
															+                            prem_dic[package]['roleList'][-1]['other_winner_dic'] = []
														
 
															+                        prem_dic[package]['roleList'][-1]['other_winner_dic'].append({'role_text': tenderer, "money": bid_amount, "money_unit": money_unit})
														
 
															                 tenderer_list.append(tenderer)
														
 
															             if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的 丢弃 并不再继续往下匹配
														
 
															                 prem_dic.pop(package)
														
@@ -6727,7 +6770,7 @@ class TablePremExtractor(object):
 
															             text = table.text.strip()
														
 
															             previous = table.findPreviousSibling()
														
 
															-            text2 = previous .text.strip() if previous else ""
														
 
															+            text2 = previous.text.strip() if previous else ""
														
 
															             # text2 = table.findPreviousSibling().text.strip() if table.findPreviousSibling() != None else ""
														
 
															             if re.search('项目业主|业\s*主', text) and re.search('业\s*绩', text+text2): # 包含业绩的表格过滤掉，不进行处理
														
 
															                 tb_ex = table.extract()
														
@@ -6750,10 +6793,14 @@ class TablePremExtractor(object):
 
															                             flag_2, contain_header_2, headers_2 = self.find_header(trs[j])
														
 
															                             if flag_2 or contain_header_2:
														
 
															                                 if j == i+1 and flag_2:
														
 
															-                                    if len(headers_)<len(headers_2):
														
 
															+                                    if len(headers_)<=len(headers_2):
														
 
															                                         headers = headers_2
														
 
															                                     continue
														
 
															+                                elif trs[i] == trs[j]: # 修复表格重复表头多次出现情况 例：514890585
														
 
															+                                    continue
														
 
															                                 break
														
 
															+                            elif ''.join(trs[j]).strip() == '': # 修复整行为空的 例：514890585
														
 
															+                                continue
														
 
															                             else:
														
 
															                                 table_items.append(trs[j])
														
 
															                         else:
														
@@ -6770,7 +6817,7 @@ class TablePremExtractor(object):
 
															             if table_prem and 'project_code' not in headers and 'package_code' not in headers and '自增1' in table_prem and table.find_previous_sibling(): # 表格内没有标段的，从上一个兄弟标签找标段
														
 
															                 sib = table.find_previous_sibling()
														
 
															                 sib_text = sib.get_text()
														
 
															-                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zZ-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zZ-Z]{1,4}|包名：[0-9一二三四五六七八九十]{1,4}', sib_text)
														
 
															+                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zA-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zA-Z]{1,4}|包名：[0-9一二三四五六七八九十]{1,4}', sib_text)
														
 
															                 if sib.name in ['p','div','dl','ol','ul','h1','h2','h3','h4','h5','h6'] and len(sib_text)<100 and ser_sib:
														
 
															                     package_sib = ser_sib.group(0)
														
 
															                     package_sib = uniform_package_name(package_sib)
														
@@ -6790,8 +6837,10 @@ class TablePremExtractor(object):
 
															         in_attachment = False
														
 
															         if richText:
														
 
															             richText = richText.extract()  # 过滤掉附件
														
 
															+        del_tabel_achievement(soup) # 20240819 过滤掉业绩表格
														
 
															         prem = self.get_prem(soup, web_source_name)
														
 
															         if prem == {} and richText:
														
 
															+            del_tabel_achievement(richText) # 20240819 过滤掉业绩表格
														
 
															             prem = self.get_prem(richText, web_source_name)
														
 
															             in_attachment = True
														
 
															         if len(prem) == 1:  # 只有一个包且包号为1 或 长度大于2 的大概率为自动增加编号包，改为Project
														
@@ -6817,7 +6866,7 @@ class CandidateExtractor(object):
 
															         }
														
 
															         '''非表格候选人正则'''
														
 
															         # self.p = '((候选|入围|入选|投标)(供应商库)?的?(人|人?单位|机构|供应商|供货商|服务商|投标人|(中标)?公司|(中标)?企业|应答人)|(通过)?名单)(名称|名单|全称|\d)?：$'
														
 
															-        self.p = '((候选|入围|入选|投标|报价|成交|中标|中选|供[货应]|应答)(人|方|人?单位|机构|厂?商|商家|服务商|公司|企业)|(通过|入围)名单)(名称|名单|全称|\d)?：?$'
														
 
															+        self.p = '((候选|入围|入选|投标|报价|成交|中标|中选|供[货应]|应答)(人|方|人?单位|机构|厂?商|商家|服务商|公司|企业)|(通过|入围)名单)(名称|名单|全称|\d)?[是为：]?$'
														
 
															         self.tb = TableTag2List()
														
 
															         with open(os.path.dirname(__file__)+'/header_set.pkl', 'rb') as f:
														
 
															             self.headerset = pickle.load(f)
														
@@ -6881,6 +6930,9 @@ class CandidateExtractor(object):
 
															         text = re.sub('联合体：|联合体(成员|单位)[12345一二三四五]?：|(联合体)?成员单位[12345一二三四五]?：|特殊普通合伙：|[(（][主成][）)]'
														
 
															                       , '，', text)
														
 
															         text = re.sub('\s', '', text) # 修复 370835008 表格中实体中间有\n
														
 
															+        text = re.sub('[一二三四五六七八九十]+标段[：:]|标段[一二三四五六七八九十]+[：:]|第[一二三四五六七八九十]+名[：:]', '',
														
 
															+                      text)  # 2024/4/22 修复 372839375 三标段：宁夏一山科技有限公司
														
 
															+        text = re.sub('1[3-9]\d{9}|\d{3}-\d{8}|\d{4}-\d{7}', '', text)  # 2024/4/23 去除电话
														
 
															         if text in nlp_enterprise:
														
 
															             return text
														
 
															         if len(text) > 50 or len(text)<4:
														
@@ -6897,7 +6949,6 @@ class CandidateExtractor(object):
 
															             return ''
														
 
															     def extract_from_df(self, df, headers):
														
 
															-        print('表头： ', headers)
														
 
															         prem_dic = {}
														
 
															         link_set = set()
														
 
															         candidate_set = set()
														
@@ -7128,7 +7179,7 @@ class CandidateExtractor(object):
 
															             if rs_dic and 'package_code' not in headers and 'Project' in rs_dic and table.find_previous_sibling(): # 一个表格只有两行且没有标段的，从上一个兄弟标签找标段
														
 
															                 sib = table.find_previous_sibling()
														
 
															                 sib_text = sib.get_text()
														
 
															-                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zZ-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zZ-Z]{1,4}|包名：[0-9一二三四五六七八九十]{1,4}', sib_text)
														
 
															+                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zA-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zA-Z]{1,4}|包名：[0-9一二三四五六七八九十]{1,4}', sib_text)
														
 
															                 if sib.name in ['p', 'div'] and len(sib_text)<100 and ser_sib:
														
 
															                     package_sib = ser_sib.group(0)
														
 
															                     package_sib = uniform_package_name(package_sib)
														
@@ -7168,8 +7219,10 @@ class CandidateExtractor(object):
 
															         in_attachment = False
														
 
															         if richText:
														
 
															             richText = richText.extract()  # 过滤掉附件
														
 
															+        del_tabel_achievement(soup) # 20240819 过滤掉业绩表格 例：500817166
														
 
															         prem, candidate_set = self.get_prem(soup)
														
 
															         if prem == {} and richText:
														
 
															+            del_tabel_achievement(richText) # 20240819 过滤掉业绩表格
														
 
															             prem, candidate_set = self.get_prem(richText)
														
 
															             in_attachment = True
														
 
															         candidate_set2 = self.get_candidates_from_text(list_sentences, list_entitys)