1 gadu atpakaļ · 8faaeaea46
--- a/BiddingKG/dl/common/Utils.py
+++ b/BiddingKG/dl/common/Utils.py
@@ -935,21 +935,21 @@ def money_process(money_text, header):
 
															     money_text = re.sub('\s', '', money_text) # 2024/04/19 修复 457699044 556.46751 万元 金额与单位有空格造成万漏提取
														
 
															     re_price = re.search("[零壹贰叁肆伍陆柒捌玖拾佰仟萬億圆十百千万亿元角分]{3,}|\d{1,3}([,，]\d{3})+(\.\d+)?|\d+(\.\d+)?[（(]?万?", money_text)
														
 
															     if re_price:
														
 
															-        money_text = re_price.group(0)
														
 
															-        if re.search('万元|[（(]万[)）]',  header) and '万' not in money_text:  # 修复37797825 控制价（万）
														
 
															-            money_text += '万元'
														
 
															+        money_re = re_price.group(0)
														
 
															+        if (re.search('万元|[（(]万[)）]',  header) or re.search('万元|[（(]万[)）]', money_text)) and '万' not in money_re:  # 修复37797825 控制价（万） # 修复 460307391 万元不在表头，在数字前面
														
 
															+            money_re += '万元'
														
 
															         # money = float(getUnifyMoney(money_text))
														
 
															-        money = float(getUnifyMoney(money_text))
														
 
															+        money = float(getUnifyMoney(money_re))
														
 
															         if money > 10000000000000:  # 大于万亿的去除
														
 
															             money = 0
														
 
															-        money_unit = '万元' if '万' in money_text else '元'
														
 
															+        money_unit = '万元' if '万' in money_re else '元'
														
 
															     return (money, money_unit)
														
 
															 package_number_pattern = re.compile(
														
 
															         '((施工|监理|监测|勘察|设计|劳务)(标段)?：?第?([一二三四五六七八九十]{1,3}|[ⅠⅡⅢⅣⅤⅥⅦ]{1,3}|[a-zA-Z0-9]{1,9}\-?[a-zA-Z0-9-]{,9})?[分子]?(标[段包项]?|包[组件标]?|合同[包段]))\
														
 
															 |(([a-zA-Z]包[：（）]?)?第?([一二三四五六七八九十]{1,3}|[ⅠⅡⅢⅣⅤⅥⅦ]{1,3}|[a-zA-Z0-9]{1,9}\-?[a-zA-Z0-9-]{,9})[分子]?(标[段包项]?|合同[包段]))\
														
 
															 |(([，；。、：（]|第)?([一二三四五六七八九十]{1,3}|[ⅠⅡⅢⅣⅤⅥⅦ]{1,3}|[a-zA-Z0-9]{1,9}\-?[a-zA-Z0-9-]{,9})[分子]?(标[段包项]?|包[组件标]?|合同[包段]))\
														
 
															-|((标[段包项]|标段（包）|包[组件标]|[标分子（]包)(\[|【)?：?([一二三四五六七八九十]{1,3}|[ⅠⅡⅢⅣⅤⅥⅦ]{1,3}|[a-zA-Z0-9]{1,9}\-?[a-zA-Z0-9-]{,9}))\
														
 
															+|((标[段包项]|品目|标段（包）|包[组件标]|[标分子（]包)(\[|【)?：?([一二三四五六七八九十]{1,3}|[ⅠⅡⅢⅣⅤⅥⅦ]{1,3}|[a-zA-Z0-9]{1,9}\-?[a-zA-Z0-9-]{,9}))\
														
 
															 |[，；。、：（](标的?|项目|子项目?)(\[|【)?：?([一二三四五六七八九十]+|[0-9]{1,9})\
														
 
															 |((([标分子（]|合同|项目|采购)包|[，。]标的|子项目|[分子]标|标[段包项]|包[组件标]?)编?号[:：]?[a-zA-Z0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦ]{1,9}[a-zA-Z0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦ-]{0,9})\
														
 
															 |[，；。、：（]?(合同|分|子)?包：?([一二三四五六七八九十]{1,3}|[ⅠⅡⅢⅣⅤⅥⅦ]{1,3}|[a-zA-Z0-9]{1,9}\-?[a-zA-Z0-9-]{,9})')
														
@@ -971,7 +971,7 @@ def find_package(content):
 
															         content = content.replace(it.group(0), ' ' * len(it.group(0)))
														
 
															     for iter in re.finditer(package_number_pattern, content):
														
 
															-        if re.search('(业绩|信誉要求)：', content[:iter.start()]):  # 前面有业绩或信誉的标段去掉
														
 
															+        if re.search('(业绩|信誉要求)：|业绩(如下)?\d*[、：]', content[:iter.start()]):  # 前面有业绩或信誉的标段去掉
														
 
															             continue
														
 
															         # print('提取到标段：%s， 前后文：%s' % (iter.group(), content[iter.start() - 5:iter.end() + 5]))
														
 
															         if re.match('\d', iter.group(0)) and re.search('\d\.$', content[:iter.start()]):  # 排除2.10标段3  5.4标段划分 这种情况
														
--- a/BiddingKG/dl/interface/Preprocessing.py
+++ b/BiddingKG/dl/interface/Preprocessing.py
@@ -963,7 +963,7 @@ def tableToText(soup, docid=None):
 
															     #根据表格处理方向生成句子，        
														
 
															     def getTableText(inner_table,head_list,key_direct=False):
														
 
															         # packPattern = "(标包|[标包][号段名])"
														
 
															-        packPattern = "(标包|标的|标项|[标包][号段名]|((项目|物资|设备|场次|标段|标的|产品)(名称)))"  # 2020/11/23 大网站规则，补充采购类包名
														
 
															+        packPattern = "(标包|标的|标项|品目|[标包][号段名]|((项目|物资|设备|场次|标段|标的|产品)(名称)))"  # 2020/11/23 大网站规则，补充采购类包名
														
 
															         rankPattern = "(排名|排序|名次|序号|评标结果|评审结果|是否中标|推荐意见|评标情况|推荐顺序|选取(情况|说明))"  # 2020/11/23 大网站规则，添加序号为排序
														
 
															         entityPattern = "((候选|[中投]标|报价)(单位|公司|人|供应商))|供应商名称"
														
 
															         moneyPattern = "([中投]标|报价)(金额|价)"
														
@@ -1079,7 +1079,7 @@ def tableToText(soup, docid=None):
 
															                                 cell = table_occurence[i][j]
														
 
															                                 head = (cell["top_head"]+"：") if len(cell["top_head"])>0 else ""
														
 
															-                                if re.search("单报标限总]价|金额|成交报?价|报价", head):
														
 
															+                                if re.search("单报标限总]价|金额|成交报?价|报价|供应商|候选人|中标人", head):
														
 
															                                     head = cell["left_head"] + head
														
 
															                                 else:
														
 
															                                     head += cell["left_head"]
														
@@ -2745,7 +2745,7 @@ def del_tabel_achievement(soup):
 
															                 td_text = td.text.strip()
														
 
															                 if len(td_text) > 25:
														
 
															                     break
														
 
															-                if len(td_text) < 25 and re.search('中标候选人|(项目|业绩|工程)名称|\w{,10}业绩$|合同金额|建设单位|采购单位|业主|甲方', td_text):
														
 
															+                if len(td_text) < 25 and re.search('中标候选人|第[一二三四五1-5]候选人|(项目|业绩|工程)名称|\w{,10}业绩$|合同金额|建设单位|采购单位|业主|甲方', td_text):
														
 
															                     _count += 1
														
 
															                 if _count >=2:
														
 
															                     pre_tag = tag.findPreviousSibling().extract()
														
--- a/BiddingKG/dl/interface/extract.py
+++ b/BiddingKG/dl/interface/extract.py
@@ -277,16 +277,16 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															     cost_time["attrs"] = round(time.time()-start_time,2)
														
 
															     '''表格要素提取'''
														
 
															-    table_prem = predictor.getPredictor("tableprem").predict(text, nlp_enterprise, web_source_name)
														
 
															+    table_prem, in_attachment = predictor.getPredictor("tableprem").predict(text, nlp_enterprise, web_source_name)
														
 
															     # print('表格提取中标人：', table_prem)
														
 
															     # print('原提取角色：', prem[0]['prem'])
														
 
															     if table_prem:
														
 
															-        getAttributes.update_prem(old_prem=prem[0]['prem'], new_prem=table_prem)
														
 
															+        getAttributes.update_prem(old_prem=prem[0]['prem'], new_prem=table_prem, in_attachment=in_attachment)
														
 
															     '''候选人提取'''
														
 
															-    candidate_top3_prem, candidate_dic = predictor.getPredictor("candidate").predict(text, list_sentences, list_entitys, nlp_enterprise)
														
 
															+    candidate_top3_prem, candidate_dic, in_attachment = predictor.getPredictor("candidate").predict(text, list_sentences, list_entitys, nlp_enterprise)
														
 
															     # print('表格提取候选人：', candidate_top3_prem)
														
 
															-    getAttributes.update_prem(old_prem=prem[0]['prem'], new_prem=candidate_top3_prem)
														
 
															+    getAttributes.update_prem(old_prem=prem[0]['prem'], new_prem=candidate_top3_prem, in_attachment=in_attachment)
														
 
															     '''获取联合体信息'''
														
 
															     getAttributes.get_win_joint(prem, list_entitys, list_sentences, list_articles)
														
@@ -350,11 +350,11 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
															     # print(project_label)
														
 
															     '''最终验证prem'''
														
 
															-    getAttributes.confirm_prem(prem[0]['prem'])
														
 
															+    getAttributes.confirm_prem(prem[0]['prem'], channel_dic)
														
 
															     # data_res = Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic)[0]
														
 
															     # data_res = Preprocessing.union_result(Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic), list_channel_dic)[0]
														
 
															-    version_date = {'version_date': '2024-04-26'}
														
 
															+    version_date = {'version_date': '2024-04-29'}
														
 
															     data_res = dict(codeName[0], **prem[0], **channel_dic, **product_attrs[0], **product_attrs[1], **payment_way_dic, **fail_reason, **industry, **district, **candidate_dic, **version_date, **all_moneys)
														
 
															     '''最终检查修正招标、中标金额'''
														
--- a/BiddingKG/dl/interface/getAttributes.py
+++ b/BiddingKG/dl/interface/getAttributes.py
@@ -452,7 +452,8 @@ def getRoleList(list_sentence,list_entity,on_value = 0.5):
 
															     pack = getPackagesFromArticle(list_sentence,list_entity)
														
 
															     if pack is None:
														
 
															         return None
														
 
															-    PackageList,PackageSet,dict_PackageCode = pack
														
 
															+    # PackageList,PackageSet,dict_PackageCode = pack
														
 
															+    PackageList,PackageSet,dict_PackageCode,main_body_pack = pack
														
 
															     #拿到所有可能的情况
														
 
															     dict_role_combination = {}
														
@@ -568,7 +569,7 @@ def getRoleList(list_sentence,list_entity,on_value = 0.5):
 
															                     _find_flag = True
														
 
															             if not _find_flag:
														
 
															                 _entity.pointer_pack = None
														
 
															-    return RoleList,RoleSet,PackageList,PackageSet,win_tenderer_set,tenderee_or_agency_set
														
 
															+    return RoleList,RoleSet,PackageList,PackageSet,win_tenderer_set,tenderee_or_agency_set,main_body_pack
														
 
															 def getPackageScopePattern():
														
 
															     '''
														
@@ -600,6 +601,7 @@ def getPackagesFromArticle(list_sentence, list_entity):
 
															     PackageList_scope = []
														
 
															     PackageSet = set()
														
 
															     dict_packageCode = dict()
														
 
															+    main_body_pack = set()  # 2024/04/28 保存正文包号
														
 
															     # package_number_pattern =  re.compile(
														
 
															     # '((施工|监理|监测|勘察|设计|劳务)(标段)?[0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦa-zA-Z]{,4}(标段?|包))|(([a-zA-Z]包[：）]?)?第?[0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦa-zA-Z]{1,4}标[段包]?)|((标[段号的包项]|([标分子]|合同|项目|采购|（)包|包[组件号])[0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦA-Za-z]{1,4})|(([，；。、：（]|第)[0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦ]{1,4}分?包)|([a-zA-Z][0-9]{,3}分?[包标])|.{,1}((包组|包件|包号|分?包|标[段号的包]|子项目)编?号?[:：]?[a-zA-Z0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦ-]+)|[，；。、：（]包[0-9一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦ]{1，4}[^\w]')  # 标号
														
@@ -724,6 +726,8 @@ def getPackagesFromArticle(list_sentence, list_entity):
 
															                 if code is not None:
														
 
															                     dict_packageCode[temp_package_number] = code
														
 
															                 PackageSet.add(temp_package_number)
														
 
															+                if not list_sentence[i].in_attachment: # 保存不在附件的包号
														
 
															+                    main_body_pack.add(temp_package_number)
														
 
															             # 识别packageScope
														
 
															             for iter in re.finditer(pattern_packageScope, content):
														
@@ -772,6 +776,9 @@ def getPackagesFromArticle(list_sentence, list_entity):
 
															                     if code is not None:
														
 
															                         dict_packageCode[temp_package_number] = code
														
 
															                     PackageSet.add(temp_package_number)
														
 
															+                    if not list_sentence[i].in_attachment:  # 保存不在附件的包号
														
 
															+                        main_body_pack.add(temp_package_number)
														
 
															+
														
 
															                 # 识别packageScope
														
 
															                 for iter in re.finditer(pattern_packageScope, content):
														
 
															                     PackageList_item_scope.append({"name": "", "sentence_index": list_sentence[i].sentence_index,
														
@@ -860,7 +867,7 @@ def getPackagesFromArticle(list_sentence, list_entity):
 
															     PackageList = get_package_scope(PackageList_scope)
														
 
															     # if len(PackageSet)<2: # 20230922只提取到一个包号的去掉，都放在默认包project 2024/02/02 注释掉，防止多标段每篇公告只公布一个标段的没法提取标段号
														
 
															         # return [], set(), {}
														
 
															-    return PackageList, PackageSet, dict_packageCode
														
 
															+    return PackageList, PackageSet, dict_packageCode, main_body_pack
														
 
															 # km配对方法
														
@@ -2891,7 +2898,7 @@ def findAttributeAfterEntity(PackDict,roleSet,PackageList,PackageSet,list_senten
 
															             PackDict[pack]["roleList"][i] = PackDict[pack]["roleList"][i].getString()
														
 
															     return PackDict
														
 
															-def initPackageAttr(RoleList,PackageSet,win_tenderer_set,tenderee_or_agency_set):
														
 
															+def initPackageAttr(RoleList,PackageSet,win_tenderer_set,tenderee_or_agency_set, main_body_pack):
														
 
															     '''
														
 
															     @summary: 根据拿到的roleList和packageSet初始化接口返回的数据
														
 
															     '''   
														
@@ -2899,6 +2906,7 @@ def initPackageAttr(RoleList,PackageSet,win_tenderer_set,tenderee_or_agency_set)
 
															     packDict["Project"] = {"code":"","tendereeMoney":0,"roleList":[], 'tendereeMoneyUnit':''}
														
 
															     for item in list(PackageSet):
														
 
															         packDict[item] = {"code":"","tendereeMoney":0,"roleList":[], 'tendereeMoneyUnit':''}
														
 
															+        packDict[item]['in_attachment'] = False if item in main_body_pack else True
														
 
															     for item in RoleList:
														
 
															         if packDict[item.packageName]["code"] =="":
														
 
															             packDict[item.packageName]["code"] = item.packageCode
														
@@ -2919,13 +2927,13 @@ def getPackageRoleMoney(list_sentence,list_entity,list_outline):
 
															     if not theRole:
														
 
															         return []
														
 
															     # RoleList,RoleSet,PackageList,PackageSet = theRole
														
 
															-    RoleList,RoleSet,PackageList,PackageSet,win_tenderer_set,tenderee_or_agency_set = theRole
														
 
															+    RoleList,RoleSet,PackageList,PackageSet,win_tenderer_set,tenderee_or_agency_set,main_body_pack = theRole
														
 
															     '''
														
 
															     for item in PackageList:
														
 
															         # print(item)
														
 
															     '''
														
 
															     # PackDict = initPackageAttr(RoleList, PackageSet)
														
 
															-    PackDict = initPackageAttr(RoleList, PackageSet, win_tenderer_set,tenderee_or_agency_set)
														
 
															+    PackDict = initPackageAttr(RoleList, PackageSet, win_tenderer_set,tenderee_or_agency_set,main_body_pack)
														
 
															     PackDict = findAttributeAfterEntity(PackDict, RoleSet, PackageList, PackageSet, list_sentence, list_entity, list_outline)
														
 
															     return PackDict
														
@@ -3965,7 +3973,7 @@ def get_multi_winner_and_money(channel_dic, prem, list_entitys,list_sentences):
 
															                     moneys.append(money)
														
 
															     return {'moneys': list(set(moneys)), 'moneys_attachment': list(set(moneys_attachment))}
														
 
															-def update_prem(old_prem, new_prem):
														
 
															+def update_prem(old_prem, new_prem, in_attachment=False):
														
 
															     '''
														
 
															     根据新旧对比，更新数据
														
 
															     :param old_prem:
														
@@ -3974,7 +3982,7 @@ def update_prem(old_prem, new_prem):
 
															     '''
														
 
															     if len(new_prem) >= 1 :
														
 
															         '''如果表格提取的包大于2，原来的包比表格提取的包多则删除原来多余的包，以表格的为准'''
														
 
															-        if len(new_prem) >= 2 and len(old_prem) <= len(new_prem)*2:
														
 
															+        if len(new_prem) >= 2 and len(new_prem)<len(old_prem) <= len(new_prem)*2:
														
 
															             del_k = []
														
 
															             for k in old_prem:
														
 
															                 if k not in new_prem and k != 'Project':
														
@@ -3982,9 +3990,25 @@ def update_prem(old_prem, new_prem):
 
															             for k in del_k:
														
 
															                 old_prem.pop(k)
														
 
															-        if len(old_prem) == 2 and len(new_prem) == 1 and 'Project' in new_prem and 'Project' in old_prem:
														
 
															-            k = list(old_prem.keys()-new_prem.keys())[0]
														
 
															-            new_prem[k] = new_prem.pop('Project')
														
 
															+        if len(old_prem) > len(new_prem) and in_attachment==False: # 如果表格有提取，非表格包数比表格提取多，去掉非表格在附件里提取的包
														
 
															+            del_k = []
														
 
															+            for k in old_prem:
														
 
															+                if 'in_attachment' in old_prem[k] and old_prem[k]['in_attachment'] and k not in new_prem and k != 'Project':
														
 
															+                    del_k.append(k)
														
 
															+            for k in del_k:
														
 
															+                old_prem.pop(k)
														
 
															+
														
 
															+        # if len(new_prem) > len(old_prem) and [k for k in new_prem if '自增' not in k] == []:  # 如果表格提取包号都为自增编号且包数大于非表格提取，不进行更新 例 244355092  281854766
														
 
															+        #     return None
														
 
															+
														
 
															+        if len(old_prem) == 2 and len(new_prem) == 1 and ('Project' in new_prem or set(new_prem)&set(old_prem)==set()): # 如果表格提取包为Project,非表格提取两个包且一个包为Project，把表格提取合并到非Project包
														
 
															+            k = list(old_prem.keys()-set(['Project']))[0]
														
 
															+            k_new = list(new_prem.keys())[0]
														
 
															+            new_prem[k] = new_prem.pop(k_new)
														
 
															+
														
 
															+        if len(new_prem) == len(old_prem) == 1 and 'Project' not in new_prem and 'Project' in old_prem: # 如果表格提取到包号，非表格没提取到，合并到Project
														
 
															+            k = list(new_prem.keys())[0]
														
 
															+            new_prem['Project'] = new_prem[k]
														
 
															         multi_tendereeMoney = [] # 多包招标金额
														
 
															         for k, v in new_prem.items():
														
@@ -4039,7 +4063,7 @@ def update_prem(old_prem, new_prem):
 
															     # return old_prem
														
 
															-def  confirm_prem(prem):
														
 
															+def  confirm_prem(prem, channel_dic):
														
 
															     '''
														
 
															     规则检查纠正prem，如果Project包中标人在其他包中标人，去掉project包中标角色；如果有其他包中标人，去掉roleList为空的包；
														
 
															     :param prem: prem 字段字典
														
@@ -4062,7 +4086,7 @@ def  confirm_prem(prem):
 
															             prem['Project']['roleList'] = [d for d in prem['Project']['roleList'] if
														
 
															                                                d['role_name'] not in ['win_tenderer', 'second_tenderer',
														
 
															                                                                       'third_tenderer']]
														
 
															-        if other_winner:
														
 
															+        if other_winner and channel_dic['docchannel']['docchannel'] in ['中标信息', '候选人公示', '合同公告']:
														
 
															             for k in empty_roleList:
														
 
															                 prem.pop(k)
														
--- a/BiddingKG/dl/interface/modelFactory.py
+++ b/BiddingKG/dl/interface/modelFactory.py
@@ -89,7 +89,7 @@ class Model_role_classify_word():
 
															         '''
														
 
															         text = re.sub('第[一二三1-3]([条项章]|中学|医院|附属)|第三方(服务机构)?', 'xxx', text)
														
 
															         text = re.sub('第01(中标|成交)?候选人', '第一中标候选人', text)
														
 
															-        text = re.sub('标段[一二三1-3]', '标段d', text)
														
 
															+        text = re.sub('(标[段的包项]|品目)[一二三1-3]', '标段', text)
														
 
															         text = re.sub('第?[一二三1-3](标段?|[分子标]?包)', 'd标段', text)
														
 
															         text = re.sub('[a-zA-Z][a-zA-Z0-9=&_—-]{3,}', 'abc', text)
														
 
															         text = re.sub('[【（\[][0-9]{2,}[\]）】]|\d+([：:.-]\d+)+', 'd', text)
														
--- a/BiddingKG/dl/interface/predictor.py
+++ b/BiddingKG/dl/interface/predictor.py
@@ -5686,6 +5686,8 @@ class DistrictPredictor():
 
															             province_l = find_areas(p_pro, text)
														
 
															             city_l = find_areas(p_city, text)
														
 
															             district_l = find_areas(p_dis, text)
														
 
															+            if len(province_l) == len(city_l) == 0:
														
 
															+                district_l = [it for it in district_l if re.search('[市县旗区]$', it[0])]  # 20240428去掉只有区县地址且不是全称的匹配，避免错误 例 凌云工业股份有限公司 提取地区为广西白色凌云
														
 
															             province_l = chage_area2score(province_l, max_len=len(text))
														
 
															             city_l = chage_area2score(city_l, max_len=len(text))
														
@@ -5913,10 +5915,11 @@ class DistrictPredictor():
 
															         project_name = project_name + title if project_name not in title else title
														
 
															         # project_name = project_name.replace(tenderee, '')
														
 
															-        entity_list = getNers([project_name],useselffool=False) # 2024/4/26 修改为去重项目名称中所有公司名称
														
 
															-        for tup in entity_list[0]:
														
 
															-            if tup[2] in ['org', 'company']:
														
 
															-                project_name = project_name.replace(tup[3], '')
														
 
															+        if len(project_name)>3:
														
 
															+            entity_list = getNers([project_name],useselffool=False) # 2024/4/26 修改为去重项目名称中所有公司名称
														
 
															+            for tup in entity_list[0]:
														
 
															+                if tup[2] in ['org', 'company']:
														
 
															+                    project_name = project_name.replace(tup[3], '')
														
 
															         text1 = "{0} {1} {2}".format(tenderee, tenderee_address, project_name)
														
@@ -6066,7 +6069,7 @@ class TablePremExtractor(object):
 
															         self.head_rule_dic = {
														
 
															             'project_code': "(项目|招标|采购|计划|公告|包[段组件]|标[段包的]|标段（包）|分[包标])(编号|编码)",
														
 
															             'package_code': "(包[段组件]|标[段包]|分[包标])(序?号|$)|包号|^标段$|^品目$",
														
 
															-            "project_name": "(包[段组件]|标[段包的]|标段（包）|分[包标]|采购|项目|工程|货物|商品|产品|设备|通用|主要标的|^包)(名称?|内容)",
														
 
															+            "project_name": "(包[段组件]|标[段包的项]|标段（包）|分[包标]|采购|项目|工程|货物|商品|产品|设备|通用|主要标的|^包)(名称?|内容)",
														
 
															             "win_sort": "是否(中标|成交|中选)|排名|排序|名次|未(中标|成交)原因|推荐顺序",
														
 
															             "tenderer": "(中标|中选|中价|成交|供货|承包|承建|承租|竞得|受让)(候选)?(人|单位|供应商|公司|企业|厂家|商家?|客户|方)(名称|$)|^(拟定|单一来源|邀请)?供应商(名称)?$",
														
 
															             "tenderee": "(项目|采购|招标|遴选|寻源|竞价|议价|比选|委托|询比?价|比价|评选|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选)(人|公司|单位|组织|用户|业主|主体|方|部门)(名称|$)",
														
@@ -6182,6 +6185,7 @@ class TablePremExtractor(object):
 
															         multi_same_package = False # 非连续的重复包号
														
 
															         package_fix2raw = dict()  # 处理后包号：处理前包号 字典
														
 
															         link_set = set()
														
 
															+        tenderer_list = [] # 保存所有中标人
														
 
															         not_package = True if 'project_name' in headers and re.search('(货物|商品|产品|通用|主要标的)(名称?|内容)', headers['project_name'][1]) and \
														
 
															                           'package_code' not in headers and 'budget' not in headers and "bid_amount" not in headers else False
														
@@ -6189,6 +6193,7 @@ class TablePremExtractor(object):
 
															             or re.search('(货物|商品|产品|设备|通用|主要标的)(名称?|内容)', headers['project_name'][1])): # 20240131修复只有货物名称及最高限价的错误作为多包 396636683；  补充避免423647863采购意向被过滤
														
 
															             # print('没有包号及角色的不要')
														
 
															             return {}
														
 
															+
														
 
															         for i in df.index:
														
 
															             same_package = False  # 连续重复包号，一般是 rowspan 造成；一包 多个采购
														
 
															             project_code = df.loc[i, headers['project_code'][0]].strip() if "project_code" in headers else ""
														
@@ -6260,9 +6265,9 @@ class TablePremExtractor(object):
 
															             if project_code != "":
														
 
															                 uni_project_code= uniform_package_name(project_code)
														
 
															-                if uni_project_code != "" and package != "":
														
 
															+                if uni_project_code != "" and package != "" and uni_project_code!=package:
														
 
															                     # print('重组包号：', '%s_%s'%(uni_project_code, package))
														
 
															-                    package = '%s_%s'%(uni_project_code, package)
														
 
															+                    package = '%s_%s'%(uni_project_code, package.replace('自增', ''))
														
 
															             if package_code_raw!='':
														
 
															                 if multi_same_package == False and package not in package_fix2raw: # 如果处理后的标段号 已经在列表里面，采用原始标段号文本
														
 
															                     package_fix2raw[package] = package_code_raw
														
@@ -6341,6 +6346,7 @@ class TablePremExtractor(object):
 
															                         "role_text": tenderer,
														
 
															                         "serviceTime": ""
														
 
															                 })
														
 
															+                tenderer_list.append(tenderer)
														
 
															             if len(prem_dic[package]['roleList']) == 0 and prem_dic[package]['tendereeMoney'] == 0:  # 只有项目编号和名称的 丢弃 并不再继续往下匹配
														
 
															                 prem_dic.pop(package)
														
 
															                 # break # 注释掉避免 400084571 某些包废标 中断匹配
														
@@ -6348,6 +6354,32 @@ class TablePremExtractor(object):
 
															                 for k, v in package_fix2raw.items():
														
 
															                     if k in prem_dic:
														
 
															                         prem_dic[v] = prem_dic.pop(k)
														
 
															+        if len(tenderer_list)>2 and len(set(tenderer_list))==1 and "package_code" not in headers: # 没提取到包号且中标人一样应该是错误多包，需去掉多包 例 244355092  281854766
														
 
															+            total_money = 0
														
 
															+            for v in prem_dic.values():
														
 
															+                for d in v['roleList']:
														
 
															+                    if d['role_name'] == "win_tenderer":
														
 
															+                        total_money += d['role_money']['money']
														
 
															+            return {'自增1': {
														
 
															+                'code': '',
														
 
															+                'name': '',
														
 
															+                'roleList': [{
														
 
															+                        "address": "",
														
 
															+                        "linklist": [],
														
 
															+                        "role_money": {
														
 
															+                            "discount_ratio": "",
														
 
															+                            "downward_floating_ratio": "",
														
 
															+                            "floating_ratio": "",
														
 
															+                            "money": total_money,
														
 
															+                            "money_unit": ''
														
 
															+                        },
														
 
															+                        "role_name": "win_tenderer",
														
 
															+                        "role_text": tenderer_list[0],
														
 
															+                        "serviceTime": ""
														
 
															+                }],
														
 
															+                'tendereeMoney': 0,
														
 
															+                'tendereeMoneyUnit': ""
														
 
															+            }}
														
 
															         return prem_dic
														
 
															     def update_prem(self, rs_dic, tmp_dic):
														
@@ -6417,11 +6449,11 @@ class TablePremExtractor(object):
 
															                         self.update_prem(table_prem, prem_)
														
 
															                     i = j - 1
														
 
															                 i += 1
														
 
															-            if table_prem and len(trs) == 2 and 'package_code' not in headers and '1' in table_prem and table.find_previous_sibling(): # 一个表格只有两行且没有标段的，从上一个兄弟标签找标段
														
 
															+            if table_prem and len(trs) == 2 and 'package_code' not in headers and '自增1' in table_prem and table.find_previous_sibling(): # 一个表格只有两行且没有标段的，从上一个兄弟标签找标段
														
 
															                 sib = table.find_previous_sibling()
														
 
															                 sib_text = sib.get_text()
														
 
															                 ser_sib = re.search('第?[0-9一二三四五六七八九十a-zZ-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zZ-Z]{1,4}', sib_text)
														
 
															-                if sib.name in ['p', 'div'] and len(sib_text)<30 and ser_sib:
														
 
															+                if sib.name in ['p', 'div'] and len(sib_text)<100 and ser_sib:
														
 
															                     package_sib = ser_sib.group(0)
														
 
															                     package_sib = uniform_package_name(package_sib)
														
 
															                     table_prem[package_sib] = table_prem.pop('自增1')
														
@@ -6437,16 +6469,18 @@ class TablePremExtractor(object):
 
															         soup = BeautifulSoup(html, 'lxml')
														
 
															         richText = soup.find(name='div', attrs={'class': 'richTextFetch'})
														
 
															         self.nlp_enterprise = nlp_enterprise
														
 
															+        in_attachment = False
														
 
															         if richText:
														
 
															             richText = richText.extract()  # 过滤掉附件
														
 
															         prem = self.get_prem(soup, web_source_name)
														
 
															         if prem == {} and richText:
														
 
															             prem = self.get_prem(richText, web_source_name)
														
 
															+            in_attachment = True
														
 
															         if len(prem) == 1:  # 只有一个包且包号为1 或 长度大于2 的大概率为自动增加编号包，改为Project
														
 
															             k = list(prem)[0]
														
 
															-            if k == '1' or len(k) > 2:
														
 
															+            if k.startswith('自增'):
														
 
															                 prem['Project'] = prem.pop(k)
														
 
															-        return prem
														
 
															+        return prem, in_attachment
														
 
															 class CandidateExtractor(object):
														
 
															     def __init__(self):
														
@@ -6719,7 +6753,6 @@ class CandidateExtractor(object):
 
															         candidate_set = set()
														
 
															         for table in tables:
														
 
															             trs = self.tb.table2list(table)
														
 
															-            table.extract()
														
 
															             i = 0
														
 
															             headers = ""
														
 
															             while i < len(trs) - 1:
														
@@ -6745,6 +6778,15 @@ class CandidateExtractor(object):
 
															                         candidate_set.update(candidate_set_)
														
 
															                     i = j - 1
														
 
															                 i += 1
														
 
															+            if rs_dic and 'package_code' not in headers and 'Project' in rs_dic and table.find_previous_sibling(): # 一个表格只有两行且没有标段的，从上一个兄弟标签找标段
														
 
															+                sib = table.find_previous_sibling()
														
 
															+                sib_text = sib.get_text()
														
 
															+                ser_sib = re.search('第?[0-9一二三四五六七八九十a-zZ-Z]{1,4}(标[段号的包项]|([分子]?包|包[组件号]))|(标[段号的包项]|([分子]?包|包[组件号]))号?：?[0-9一二三四五六七八九十a-zZ-Z]{1,4}', sib_text)
														
 
															+                if sib.name in ['p', 'div'] and len(sib_text)<100 and ser_sib:
														
 
															+                    package_sib = ser_sib.group(0)
														
 
															+                    package_sib = uniform_package_name(package_sib)
														
 
															+                    rs_dic[package_sib] = rs_dic.pop('Project')
														
 
															+            table.extract()
														
 
															         return rs_dic, candidate_set
														
 
															     def get_candidates_from_text(self, list_sentences, list_entitys):
														
@@ -6772,14 +6814,16 @@ class CandidateExtractor(object):
 
															         html = re.sub("##attachment##","",html)
														
 
															         soup = BeautifulSoup(html, 'lxml')
														
 
															         richText = soup.find(name='div', attrs={'class': 'richTextFetch'})
														
 
															+        in_attachment = False
														
 
															         if richText:
														
 
															             richText = richText.extract()  # 过滤掉附件
														
 
															         prem, candidate_set = self.get_prem(soup)
														
 
															         if prem == {} and richText:
														
 
															             prem, candidate_set = self.get_prem(richText)
														
 
															+            in_attachment = True
														
 
															         if prem == {} and candidate_set == set():
														
 
															             candidate_set = self.get_candidates_from_text(list_sentences, list_entitys)
														
 
															-        return prem, {'candidate': '，'.join(candidate_set)}
														
 
															+        return prem, {'candidate': '，'.join(candidate_set)}, in_attachment
														
 
															 def role_special_predictor(web_source_name, content, nlp_enterprise):
														
 
															     if web_source_name == '中国电子科技集团有限公司电子采购平台':