5 mesi fa · 1a1b2339e3
--- a/.gitignore
+++ b/.gitignore
@@ -20,4 +20,5 @@ node_modules
 
				 /BiddingKG/dl/LEGAL_ENTERPRISE.txt
			
 
				 /BiddingKG/dl_dev/
			
 
				 BiddingKG.iml
			
 
				-misc.xml
			
 
				+misc.xml
			
 
				+/.scannerwork/css-bundle/
			
--- a/.idea/.gitignore
+++ b/.idea/.gitignore
@@ -6,3 +6,4 @@
 
				 /dataSources.local.xml
			
 
				 # Editor-based HTTP Client requests
			
 
				 /httpRequests/
			
 
				+/sonarlint/issuestore/
			
--- a/BiddingKG.iml
+++ b/BiddingKG.iml
@@ -7,7 +7,7 @@
 
				   </component>
			
 
				   <component name="NewModuleRootManager">
			
 
				     <content url="file://$MODULE_DIR$" />
			
 
				-    <orderEntry type="jdk" jdkName="Remote Python 3.5.0 (sftp://yons@192.168.2.103:22/data/home/python/anaconda3/envs/dl_nlp/bin/python)" jdkType="Python SDK" />
			
 
				+    <orderEntry type="jdk" jdkName="Python 3.7 (py37)" jdkType="Python SDK" />
			
 
				     <orderEntry type="sourceFolder" forTests="false" />
			
 
				     <orderEntry type="library" name="Python 3.5 (dl_nlp) interpreter library" level="application" />
			
 
				   </component>
			
--- a/BiddingKG/dl/interface/Preprocessing.py
+++ b/BiddingKG/dl/interface/Preprocessing.py
@@ -115,9 +115,15 @@ def tableToText(soup, docid=None, return_kv=False):
 
				             tr_line = []
			
 
				             tds = tr.findChildren(['td','th'], recursive=False)
			
 
				             if len(tds)==0:
			
 
				-                tr_line.append([re.sub('\xa0','',segment(tr,final=False)),0]) # 2021/12/21 修复部分表格没有td 造成数据丢失
			
 
				+                if return_kv:
			
 
				+                    tr_line.append([re.sub('\xa0','',tr.get_text()),0])
			
 
				+                else:
			
 
				+                    tr_line.append([re.sub('\xa0','',segment(tr,final=False)),0]) # 2021/12/21 修复部分表格没有td 造成数据丢失
			
 
				             for td in tds:
			
 
				-                tr_line.append([re.sub('\xa0','',segment(td,final=False)),0])
			
 
				+                if return_kv:
			
 
				+                    tr_line.append([re.sub('\xa0','',td.get_text()),0])
			
 
				+                else:
			
 
				+                    tr_line.append([re.sub('\xa0','',segment(td,final=False)),0])
			
 
				                 #tr_line.append([td.get_text(),0])
			
 
				             inner_table.append(tr_line)
			
 
				         return inner_table                          
			
@@ -1681,11 +1687,11 @@ def tableToText(soup, docid=None, return_kv=False):
 
				         table2list = TableTag2List()
			
 
				         return_html_table = True if return_kv else False
			
 
				         if return_html_table:
			
 
				-            inner_table, html_table = table2list.table2list(tbody, segment, return_html_table)
			
 
				+            inner_table, html_table = table2list.table2list(tbody, segment, return_html_table,return_kv=return_kv)
			
 
				             inner_table = fixTable(inner_table)
			
 
				             html_table = fixTable(html_table, "")
			
 
				         else:
			
 
				-            inner_table = table2list.table2list(tbody, segment)
			
 
				+            inner_table = table2list.table2list(tbody, segment,return_kv=return_kv)
			
 
				             inner_table = fixTable(inner_table)
			
 
				 
			
 
				         if inner_table == []:
			
@@ -1778,6 +1784,8 @@ def tableToText(soup, docid=None, return_kv=False):
 
				     # 遍历表格中的每个tbody
			
 
				     tbodies = []
			
 
				     in_attachment = False
			
 
				+    if soup.name=="table":
			
 
				+        tbodies.append((soup,in_attachment))
			
 
				     for _part in soup.find_all():
			
 
				         if _part.name=='table':
			
 
				             tbodies.append((_part,in_attachment))
			
@@ -1803,7 +1811,8 @@ def tableToText(soup, docid=None, return_kv=False):
 
				                 else:
			
 
				                     tbodies[tbody_index - 1][0].append(row)
			
 
				             inner_table = trunTable(tbodies[tbody_index - 1][0], _in_attachment)
			
 
				-            list_innerTable.append(inner_table)
			
 
				+            if inner_table:
			
 
				+                list_innerTable.append(inner_table)
			
 
				             tbody_index += 2
			
 
				             continue
			
 
				         inner_table = trunTable(tbody,_in_attachment)
			
@@ -1814,6 +1823,8 @@ def tableToText(soup, docid=None, return_kv=False):
 
				     # 遍历表格中的每个tbody
			
 
				     tbodies = []
			
 
				     in_attachment = False
			
 
				+    if soup.name=="tbody":
			
 
				+        tbodies.append((soup,in_attachment))
			
 
				     for _part in soup.find_all():
			
 
				         if _part.name == 'tbody':
			
 
				             tbodies.append((_part, in_attachment))
			
@@ -1838,7 +1849,8 @@ def tableToText(soup, docid=None, return_kv=False):
 
				                 else:
			
 
				                     tbodies[tbody_index - 1][0].append(row)
			
 
				             inner_table = trunTable(tbodies[tbody_index - 1][0], _in_attachment)
			
 
				-            list_innerTable.append(inner_table)
			
 
				+            if inner_table:
			
 
				+                list_innerTable.append(inner_table)
			
 
				             tbody_index += 2
			
 
				             continue
			
 
				         inner_table = trunTable(tbody,_in_attachment)
			
@@ -1846,9 +1858,14 @@ def tableToText(soup, docid=None, return_kv=False):
 
				         tbody_index += 1
			
 
				 
			
 
				     if return_kv:
			
 
				-        kv_list = [x[1] for x in list_innerTable]
			
 
				-        text = [x[2] for x in list_innerTable]
			
 
				-        list_innerTable = [x[0] for x in list_innerTable]
			
 
				+        kv_list = []
			
 
				+        for x in list_innerTable:
			
 
				+            if x[1] is not None:
			
 
				+                kv_list.extend(x[1])
			
 
				+        text = ""
			
 
				+        for x in list_innerTable:
			
 
				+            if x[2] is not None:
			
 
				+                text += x[2]
			
 
				         return soup, kv_list, text
			
 
				     return soup
			
 
				     # return list_innerTable
			
@@ -2261,7 +2278,7 @@ def table_head_repair_process(_inner_table, docid=None, show=0, show_row_index=0
 
				     def repair_by_summation(inner_table):
			
 
				         # 修复合计在中间的特殊情况
			
 
				         if len(inner_table) >= 3 and len(inner_table[1]) == 2 \
			
 
				-                and inner_table[1][0][0] == '合计' and inner_table[1][1][0][-1] == '%':
			
 
				+                and inner_table[1][0][0] == '合计' and inner_table[1][1][0].endswith('%'):
			
 
				             inner_table[1][0][1] = 0
			
 
				             inner_table[1][1][1] = 0
			
 
				         return inner_table
			
--- a/BiddingKG/dl/interface/extract.py
+++ b/BiddingKG/dl/interface/extract.py
@@ -162,7 +162,8 @@ def extractCount(extract_dict,page_attachments,web_source_name):
 
				                     if str(classification)=='采购清单':
			
 
				                         has_qingdan = True
			
 
				 
			
 
				-                extract_count += 2
			
 
				+
			
 
				+                extract_count += len(_attachments)//2+1
			
 
				             if has_zhaobiao:
			
 
				                 extract_count += 2
			
 
				             if has_qingdan:
			
@@ -186,6 +187,9 @@ def extractCount(extract_dict,page_attachments,web_source_name):
 
				     if web_source_name in set_login_web:
			
 
				         extract_count -= 3
			
 
				 
			
 
				+    product = _extract.get("product","")
			
 
				+    extract_count += len(str(product).split(","))//5
			
 
				+
			
 
				     return extract_count
			
 
				 
			
 
				 # 字符编码标准化
			
@@ -402,8 +406,6 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
				         channel_dic = {"docchannel":
			
 
				              { "docchannel": "审批项目", "doctype": "审批项目", "life_docchannel": "审批项目" }
			
 
				         }
			
 
				-        prem[0]['prem'] = {}  # 审批项目不要这项
			
 
				-
			
 
				     else:
			
 
				         channel_dic, msc = predictor.getPredictor("channel").final_change(channel_dic, prem[0], original_docchannel, msc)
			
 
				     # print('msc', msc)
			
@@ -434,6 +436,7 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
				     '''地区获取'''
			
 
				     start_time = time.time()
			
 
				     district = predictor.getPredictor('district').predict(project_name=codeName[0]['name'], prem=prem,title=title, list_articles=list_articles, web_source_name=web_source_name, list_entitys=list_entitys)
			
 
				+    # district = predictor.getPredictor('district').predict_area(title, list_articles[0].content, web_source_name, prem=prem[0]['prem'], addr_dic=addr_dic)
			
 
				     cost_time["district"] = round(time.time() - start_time, 2)
			
 
				 
			
 
				     '''根据district提取结果修复实体'''
			
@@ -471,11 +474,13 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
				 
			
 
				     # data_res = Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic)[0]
			
 
				     # data_res = Preprocessing.union_result(Preprocessing.union_result(Preprocessing.union_result(codeName, prem),list_punish_dic), list_channel_dic)[0]
			
 
				-    version_date = {'version_date': '2024-12-12'}
			
 
				+    version_date = {'version_date': '2024-12-24'}
			
 
				     data_res = dict(codeName[0], **prem[0], **channel_dic, **product_attrs[0], **product_attrs[1], **payment_way_dic, **fail_reason, **industry, **district, **candidate_dic, **version_date, **all_moneys, **pb_json)
			
 
				 
			
 
				     if original_docchannel == 302:
			
 
				         approval = predictor.getPredictor("approval").predict(list_sentences, list_entitys, text)
			
 
				+        approval = predictor.getPredictor("approval").add_ree2approval(approval , prem[0]['prem'])
			
 
				+        data_res['prem'] = {}  # 审批项目不要这项
			
 
				         data_res['approval'] = approval
			
 
				 
			
 
				     if channel_dic['docchannel']['doctype'] == '处罚公告': # 20240627 处罚公告进行失信要素提取
			
@@ -501,6 +506,10 @@ def predict(doc_id,text,title="",page_time="",web_source_no='',web_source_name="
 
				     '''最终检查修正招标、中标金额'''
			
 
				     getAttributes.limit_maximum_amount(data_res, list_entitys[0])
			
 
				 
			
 
				+    '''利用采购意向需求信息补充项目'''
			
 
				+    if channel_dic['docchannel']['docchannel'] == '采购意向':
			
 
				+        getAttributes.demand_to_prem(data_res.get('demand_info', {}), prem[0]['prem'])
			
 
				+
			
 
				     data_res["project_label"] = project_label
			
 
				     data_res["property_label"] = property_label
			
 
				     data_res["doctitle_refine"] = doctitle_refine
			
--- a/BiddingKG/dl/interface/getAttributes.py
+++ b/BiddingKG/dl/interface/getAttributes.py
@@ -4895,6 +4895,32 @@ def fix_single_source(prem, channel_dic, original_docchannel):
 
				                 if d['role_name'] == "win_tenderer":
			
 
				                     d['role_name'] = 'pre_win_tenderer'
			
 
				 
			
 
				+def demand_to_prem(demand, prem):
			
 
				+    if len(demand.get('data', [])) > len(prem):
			
 
				+        i = 1
			
 
				+        for d in demand.get('data', []):
			
 
				+            d['demand_id'] = i
			
 
				+            if d.get('project_name', '') != '' and d.get('budget', '') != '':
			
 
				+                if d.get('project_name', '') not in prem:
			
 
				+                    prem[d.get('project_name', '')] = {
			
 
				+                        'demand_id': i,
			
 
				+                        'code': '',
			
 
				+                        'name': d.get('project_name', ''),
			
 
				+                        'roleList': [],
			
 
				+                        'tendereeMoney': d.get('budget', ''),
			
 
				+                        'tendereeMoneyUnit': ""
			
 
				+                    }
			
 
				+                else:
			
 
				+                    prem[d.get('project_name', '')+'_%d'%i] = {
			
 
				+                        'demand_id': i,
			
 
				+                        'code': '',
			
 
				+                        'name': d.get('project_name', ''),
			
 
				+                        'roleList': [],
			
 
				+                        'tendereeMoney': d.get('budget', ''),
			
 
				+                        'tendereeMoneyUnit': ""
			
 
				+                    }
			
 
				+            i += 1
			
 
				+
			
 
				 if __name__=="__main__":
			
 
				     '''
			
 
				     conn = getConnection()
			
--- a/BiddingKG/dl/interface/html_2_kvtree.py
+++ b/BiddingKG/dl/interface/html_2_kvtree.py
@@ -0,0 +1,1716 @@
 
				+#coding:utf8
			
 
				+from bs4 import BeautifulSoup
			
 
				+import json
			
 
				+import re
			
 
				+import traceback
			
 
				+
			
 
				+import logging
			
 
				+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
			
 
				+
			
 
				+logger = logging.getLogger(__name__)
			
 
				+logger.setLevel(logging.INFO)
			
 
				+from BiddingKG.dl.interface.Preprocessing import tableToText
			
 
				+from uuid import uuid4
			
 
				+
			
 
				+def log(msg):
			
 
				+    '''
			
 
				+    @summary:打印信息
			
 
				+    '''
			
 
				+    logger.info(msg)
			
 
				+
			
 
				+class DotDict(dict):
			
 
				+
			
 
				+    def __getattr__(self,name):
			
 
				+        try:
			
 
				+            return self[name]
			
 
				+        except KeyError:
			
 
				+            raise AttributeError("No attribute '%s'" % name)
			
 
				+
			
 
				+    def __setattr__(self,name,value):
			
 
				+        self[name] = value
			
 
				+
			
 
				+
			
 
				+
			
 
				+def get_tables(soup,dict_table = None):
			
 
				+    is_first = False
			
 
				+    if dict_table is None:
			
 
				+        dict_table = {"children":[]}
			
 
				+        is_first = True
			
 
				+    if soup and soup.name:
			
 
				+        childs = soup.contents
			
 
				+
			
 
				+    else:
			
 
				+        childs = []
			
 
				+
			
 
				+    # tr+tbody
			
 
				+    _flag = False
			
 
				+    if len(childs)>=2:
			
 
				+        if childs[0].name=="tr" and childs[1].name=="tbody":
			
 
				+            childs[1].insert(0,copy.copy(childs[0]))
			
 
				+            childs[0].decompose()
			
 
				+            _flag = True
			
 
				+
			
 
				+    childs_bak = childs
			
 
				+    # tbody+tbody
			
 
				+    _flag = False
			
 
				+    if soup and soup.name:
			
 
				+        childs = soup.find_all("tbody",recursive=False)
			
 
				+        if len(childs)>=2:
			
 
				+            if childs[0].name=="tbody" and childs[1].name=="tbody":
			
 
				+                child0_tr = childs[0].find_all("tr",recursive=False)
			
 
				+                has_td_count = 0
			
 
				+                tr_line = None
			
 
				+                for tr in child0_tr:
			
 
				+                    if len(tr.find_all("td",recursive=False))>0:
			
 
				+                        has_td_count += 1
			
 
				+                        tr_line = tr
			
 
				+                if has_td_count==1:
			
 
				+                    childs[1].insert(0,copy.copy(tr_line))
			
 
				+                    childs[0].decompose()
			
 
				+                    _flag = True
			
 
				+
			
 
				+    childs = childs_bak
			
 
				+    for child in childs:
			
 
				+        _d = {"children":[]}
			
 
				+        if child.name in ("table","tbody"):
			
 
				+            if len(child.find_all("tr",recursive=False))>0:
			
 
				+                # _d["table"] = str(child)
			
 
				+                _d["table"] = child
			
 
				+        dict_table["children"].append(_d)
			
 
				+        child_dict_table = get_tables(child,_d)
			
 
				+
			
 
				+    if is_first:
			
 
				+        if soup.name in ("table","tbody"):
			
 
				+            if not _flag:
			
 
				+                if len(soup.find_all("tr",recursive=False))>0:
			
 
				+                    # dict_table["table"] = str(soup)
			
 
				+                    dict_table["table"] = soup
			
 
				+
			
 
				+        dict_table = squeeze_tables(dict_table)
			
 
				+
			
 
				+    return dict_table
			
 
				+def squeeze_tables(dict_table):
			
 
				+    _i = -1
			
 
				+    new_children = []
			
 
				+    for child in dict_table["children"]:
			
 
				+        _i += 1
			
 
				+        child_table = squeeze_tables(child)
			
 
				+
			
 
				+        if child_table is not None:
			
 
				+            new_children.append(child_table)
			
 
				+
			
 
				+    if dict_table.get("table") is not None:
			
 
				+        if len(new_children)>0:
			
 
				+            dict_table["children"] = new_children
			
 
				+        else:
			
 
				+            del dict_table["children"]
			
 
				+        return dict_table
			
 
				+    if len(new_children)==1:
			
 
				+        return new_children[0]
			
 
				+    if len(new_children)>1:
			
 
				+        dict_table["children"] = new_children
			
 
				+        return dict_table
			
 
				+
			
 
				+    return None
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+def table_to_tree(soup,json_obj=None):
			
 
				+
			
 
				+
			
 
				+    if json_obj is None:
			
 
				+        json_obj = DotDict({"tag": "table","children":[]})
			
 
				+
			
 
				+
			
 
				+    dict_table = get_tables(soup)
			
 
				+
			
 
				+    children = dict_table.get("children",[])
			
 
				+    for child in children:
			
 
				+        _d = DotDict({"tag": "table","children":[]})
			
 
				+        json_obj["children"].append(_d)
			
 
				+        table = child.get("table")
			
 
				+        if table is not None:
			
 
				+            table_id = str(uuid4())
			
 
				+            table_to_tree(table,_d)
			
 
				+
			
 
				+    table = dict_table.get("table")
			
 
				+    if table is not None:
			
 
				+        table_id = str(uuid4())
			
 
				+        json_obj["table_id"] = table_id
			
 
				+        soup, kv_list, text = tableToText(table,return_kv=True)
			
 
				+        _flag = False
			
 
				+        if soup and soup.name:
			
 
				+            if soup.contents:
			
 
				+                _flag = True
			
 
				+                soup.contents[0].insert_before(table_id)
			
 
				+        if not _flag:
			
 
				+            soup.insert_before(table_id)
			
 
				+        json_obj["text"] = text
			
 
				+        json_obj["kv"] = kv_list
			
 
				+        for _d in kv_list:
			
 
				+            _d["position"] = {"key_begin_sentence":0,
			
 
				+                              "key_begin_sentence_start":_d.get("key_sen_index",0),
			
 
				+                              "key_end_sentence":0,
			
 
				+                              "key_end_sentence_end":_d.get("key_sen_index",0)+len(_d.get("key","")),
			
 
				+                              "value_begin_sentence":0,
			
 
				+                              "value_begin_sentence_start":_d.get("value_sen_index",0),
			
 
				+                              "value_end_sentence":0,
			
 
				+                              "value_end_sentence_end":_d.get("value_sen_index",0)+len(_d.get("value",""))
			
 
				+                              }
			
 
				+            if "key_sen_index" in _d:
			
 
				+                _d.pop("key_sen_index")
			
 
				+            if "value_sen_index" in _d:
			
 
				+                _d.pop("value_sen_index")
			
 
				+    return json_obj
			
 
				+
			
 
				+
			
 
				+def update_table_position(table,sentence_index):
			
 
				+
			
 
				+
			
 
				+    def get_table_idx_lengths(list_table_id,index):
			
 
				+        _length = 0
			
 
				+        for _d in list_table_id:
			
 
				+            table_id = _d.get("table_id")
			
 
				+            idx = _d.get("idx",-1)
			
 
				+
			
 
				+            if idx>=0 and _idx<=index:
			
 
				+                _length += len(table_id)
			
 
				+        return _length
			
 
				+
			
 
				+    def get_sentence_index(list_sent_span,idx):
			
 
				+        list_sent_span.sort(key=lambda x:x[0])
			
 
				+        for _i in range(len(list_sent_span)):
			
 
				+            if list_sent_span[_i][0]<=idx and idx<=list_sent_span[_i][1]:
			
 
				+                return _i
			
 
				+        return 0
			
 
				+
			
 
				+    def get_list_tables(table,list_table=[]):
			
 
				+
			
 
				+        table_id = table.get("table_id")
			
 
				+        if table_id:
			
 
				+            list_table.append(table)
			
 
				+        childs = table.get("children",[])
			
 
				+        for child in childs:
			
 
				+            get_list_tables(child,list_table)
			
 
				+        return list_table
			
 
				+
			
 
				+    tables = get_list_tables(table)
			
 
				+    if tables:
			
 
				+
			
 
				+        list_table_id = []
			
 
				+        text = tables[0].get("text","")
			
 
				+
			
 
				+        for table in tables:
			
 
				+            table_id = table.get("table_id")
			
 
				+
			
 
				+            if table_id:
			
 
				+                _idx = text.find(table_id)
			
 
				+                list_table_id.append({"table_id":table_id,"idx":_idx})
			
 
				+                if _idx>=0:
			
 
				+                    kv_list = table.get("kv",[])
			
 
				+                    for _d in kv_list:
			
 
				+                        _d["position"]["key_begin_sentence_start"] += _idx
			
 
				+                        _d["position"]["key_end_sentence_end"] += _idx
			
 
				+                        _d["position"]["value_begin_sentence_start"] += _idx
			
 
				+                        _d["position"]["value_end_sentence_end"] += _idx
			
 
				+
			
 
				+        # remove table_id
			
 
				+        for table in tables:
			
 
				+            table_id = table.get("table_id")
			
 
				+
			
 
				+            if table_id:
			
 
				+                kv_list = table.get("kv",[])
			
 
				+                for _d in kv_list:
			
 
				+                    _length = get_table_idx_lengths(list_table_id,_d["position"]["key_begin_sentence_start"])
			
 
				+                    _d["position"]["key_begin_sentence_start"] -= _length
			
 
				+                    _length = get_table_idx_lengths(list_table_id,_d["position"]["key_end_sentence_end"])
			
 
				+                    _d["position"]["key_end_sentence_end"] -= _length
			
 
				+                    _length = get_table_idx_lengths(list_table_id,_d["position"]["value_begin_sentence_start"])
			
 
				+                    _d["position"]["value_begin_sentence_start"] -= _length
			
 
				+                    _length = get_table_idx_lengths(list_table_id,_d["position"]["value_end_sentence_end"])
			
 
				+                    _d["position"]["value_end_sentence_end"] -= _length
			
 
				+
			
 
				+        for table in tables:
			
 
				+            if table.get("table_id"):
			
 
				+                text = table.get("text","")
			
 
				+                for _d in list_table_id:
			
 
				+                    table_id = _d.get("table_id")
			
 
				+                    text = text.replace(table_id,"")
			
 
				+                table["text"] = text
			
 
				+
			
 
				+        # split sentence
			
 
				+        text = tables[0].get("text","")
			
 
				+        list_sentence = str(text).split("。")
			
 
				+        list_sent_span = []
			
 
				+        _begin = 0
			
 
				+        for _i in range(len(list_sentence)):
			
 
				+            list_sentence[_i] += "。"
			
 
				+            _end = _begin+len(list_sentence[_i])
			
 
				+            list_sent_span.append([_begin,_end])
			
 
				+            _begin = _end
			
 
				+        tables[0]["sentences"] = list_sentence
			
 
				+
			
 
				+        for table in tables:
			
 
				+
			
 
				+            kv_list = table.get("kv",[])
			
 
				+            for _d in kv_list:
			
 
				+                key_begin_sentence = get_sentence_index(list_sent_span,_d["position"]["key_begin_sentence_start"])
			
 
				+                _d["position"]["key_begin_sentence"] = key_begin_sentence+sentence_index
			
 
				+                key_end_sentence = get_sentence_index(list_sent_span,_d["position"]["key_end_sentence_end"])
			
 
				+                _d["position"]["key_end_sentence"] = key_end_sentence+sentence_index
			
 
				+                value_begin_sentence = get_sentence_index(list_sent_span,_d["position"]["value_begin_sentence_start"])
			
 
				+                _d["position"]["value_begin_sentence"] = value_begin_sentence+sentence_index
			
 
				+                value_end_sentence = get_sentence_index(list_sent_span,_d["position"]["value_end_sentence_end"])
			
 
				+                _d["position"]["value_end_sentence"] = value_end_sentence+sentence_index
			
 
				+
			
 
				+        return sentence_index + len(list_sentence)
			
 
				+    return sentence_index
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+def tree_reposition(tree,sentence_index=None):
			
 
				+    if sentence_index is None:
			
 
				+        sentence_index = 0
			
 
				+
			
 
				+    wordOffset_begin = 0
			
 
				+    wordOffset_end = 0
			
 
				+    for obj in tree:
			
 
				+        is_table = True if obj.get("tag","")=="table" else False
			
 
				+        if not is_table:
			
 
				+            sentence_index += 1
			
 
				+            obj["sentence_index"] = sentence_index
			
 
				+            obj["sentences"] = [obj.get("text","")]
			
 
				+            for _t in obj["sentences"]:
			
 
				+                wordOffset_end += len(_t)
			
 
				+            obj["wordOffset_begin"] = wordOffset_begin
			
 
				+            obj["wordOffset_end"] = wordOffset_end
			
 
				+            wordOffset_begin = wordOffset_end
			
 
				+
			
 
				+            
			
 
				+
			
 
				+            list_kv = obj.get("kv",[])
			
 
				+            for _d in list_kv:
			
 
				+                _d["position"]["key_begin_sentence"] = sentence_index
			
 
				+                _d["position"]["key_end_sentence"] = sentence_index
			
 
				+                _d["position"]["value_begin_sentence"] = sentence_index
			
 
				+                _d["position"]["value_end_sentence"] = sentence_index
			
 
				+
			
 
				+        else:
			
 
				+            sentence_index += 1
			
 
				+            obj["sentence_index"] = sentence_index
			
 
				+            obj["sentence_index_start"] = sentence_index
			
 
				+            obj["sentences"] = [obj.get("text","")]
			
 
				+            sentence_index_end = update_table_position(obj,sentence_index)
			
 
				+            obj["sentence_index_end"] = sentence_index_end
			
 
				+            sentence_index = sentence_index_end
			
 
				+
			
 
				+            for _t in obj["sentences"]:
			
 
				+                wordOffset_end += len(_t)
			
 
				+            obj["wordOffset_begin"] = wordOffset_begin
			
 
				+            obj["wordOffset_end"] = wordOffset_end
			
 
				+            wordOffset_begin = wordOffset_end
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+# 递归地将 DOM 转换为 JSON
			
 
				+def dom_to_tree(node):
			
 
				+    if node.name:  # 如果是标签节点
			
 
				+        json_obj = DotDict({"tag": node.name})
			
 
				+        if node.attrs:
			
 
				+            json_obj["attributes"] = node.attrs
			
 
				+
			
 
				+        is_table = False
			
 
				+        if node.name in ("table","tbody"):
			
 
				+            json_obj = table_to_tree(node)
			
 
				+            is_table = True
			
 
				+
			
 
				+        if not is_table:
			
 
				+            children = []
			
 
				+            for child in node.contents:
			
 
				+                _child = dom_to_tree(child)
			
 
				+                if _child is not None:
			
 
				+                    children.append(_child)
			
 
				+            if children:
			
 
				+                json_obj["children"] = children
			
 
				+        json_obj["name"] = json_obj.get("tag")
			
 
				+        return json_obj
			
 
				+    elif node.string and node.string.strip():  # 如果是纯文本节点
			
 
				+        _text = node.string.strip()
			
 
				+        _text = re.sub('\xa0','',_text)
			
 
				+        list_text = re.split("\s",_text)
			
 
				+        _text = ""
			
 
				+        for _t in list_text:
			
 
				+            if len(_t)<3:
			
 
				+                if len(_t)>0:
			
 
				+                    _text += _t
			
 
				+            else:
			
 
				+                _text += _t+" "
			
 
				+        _text = _text.strip()
			
 
				+        return DotDict({"tag":"text","name":"text","text": _text})
			
 
				+    return None  # 忽略空白字符
			
 
				+
			
 
				+def tree_pop_parent(tree):
			
 
				+
			
 
				+    if isinstance(tree,list):
			
 
				+        for child in tree:
			
 
				+            tree_pop_parent(child)
			
 
				+    if isinstance(tree,dict):
			
 
				+        if "parent" in tree:
			
 
				+            del tree["parent"]
			
 
				+        for child in tree.get("children",[]):
			
 
				+            tree_pop_parent(child)
			
 
				+
			
 
				+
			
 
				+def html_to_tree(html_content):
			
 
				+    # 使用 BeautifulSoup 解析 HTML
			
 
				+    soup = BeautifulSoup(html_content, "lxml")
			
 
				+    dom_tree = dom_to_tree(soup)
			
 
				+    extract_kv_from_tree(dom_tree)
			
 
				+    list_objs = get_outobjs_from_tree(dom_tree)
			
 
				+    tree_reposition(list_objs)
			
 
				+    return dom_tree
			
 
				+
			
 
				+def print_tree(dom_tree):
			
 
				+    # 转换为 JSON 格式
			
 
				+    tree_pop_parent(dom_tree)
			
 
				+    json_output = json.dumps(dom_tree,ensure_ascii=False, indent=2)
			
 
				+
			
 
				+# kv_pattern = "\s*(?P<key>.{,10})[:：]\s*(?P<value>[^:：。，()]+?)(\s+|$|;|；)(?![\u4e00-\u9fa5]+：)"
			
 
				+kv_pattern = r"(?P<key>[\u4e00-\u9fa5]+)：\s*(?P<value>[^\s，。();；]+)"
			
 
				+
			
 
				+def get_kv_pattern():
			
 
				+    import re
			
 
				+
			
 
				+    text = """
			
 
				+    name: John age: 30 note: invalid;
			
 
				+    """
			
 
				+
			
 
				+    # 正则模式
			
 
				+    kv_pattern = r"(?P<key>[a-zA-Z]+)[:：](?P<value>.+(?!.*[:：]))"
			
 
				+
			
 
				+    # 提取匹配
			
 
				+    matches = re.findall(kv_pattern, text)
			
 
				+
			
 
				+    # 打印结果
			
 
				+    for match in matches:
			
 
				+        key, value = match
			
 
				+        print("{%s}: {%s}"%(key,value))
			
 
				+
			
 
				+def extract_kv_from_sentence(sentence):
			
 
				+    list_kv = []
			
 
				+    _iter = re.finditer("[:：]", sentence)
			
 
				+    if _iter:
			
 
				+        list_span = []
			
 
				+        for iter in _iter:
			
 
				+            list_span.append(iter.span())
			
 
				+        if len(list_span)==1:
			
 
				+            _begin,_end = list_span[0]
			
 
				+            if _begin<20 and _end<len(sentence)-1:
			
 
				+                _d = DotDict({"key":sentence[0:_begin],"value":sentence[_end:]})
			
 
				+                _d["position"] = {"key_begin_sentence":0,
			
 
				+                              "key_begin_sentence_start":0,
			
 
				+                              "key_end_sentence":0,
			
 
				+                              "key_end_sentence_end":_begin,
			
 
				+                              "value_begin_sentence":0,
			
 
				+                              "value_begin_sentence_start":_end,
			
 
				+                              "value_end_sentence":0,
			
 
				+                              "value_end_sentence_end":len(sentence)
			
 
				+                              }
			
 
				+                list_kv.append(_d)
			
 
				+            else:
			
 
				+                _begin = 0
			
 
				+                _end = len(sentence)-1
			
 
				+                iter = re.search(kv_pattern,sentence[_begin:_end])
			
 
				+                if iter is not None:
			
 
				+                    _d = DotDict({})
			
 
				+
			
 
				+                    _d["key"] = iter.group("key")
			
 
				+                    _d["value"] = iter.group("value")
			
 
				+
			
 
				+                    _d["position"] = {"key_begin_sentence":0,
			
 
				+                              "key_begin_sentence_start":iter.span("key")[0],
			
 
				+                              "key_end_sentence":0,
			
 
				+                              "key_end_sentence_end":iter.span("key")[0]+len(_d.get("key","")),
			
 
				+                              "value_begin_sentence":0,
			
 
				+                              "value_begin_sentence_start":iter.span("value")[0],
			
 
				+                              "value_end_sentence":0,
			
 
				+                              "value_end_sentence_end":iter.span("value")[0]+len(_d.get("value",""))
			
 
				+                              }
			
 
				+                    list_kv.append(_d)
			
 
				+
			
 
				+        elif len(list_span)>1:
			
 
				+
			
 
				+            _begin,_end = list_span[0]
			
 
				+            if _begin<20 and len(sentence)>100:
			
 
				+                _d = DotDict({"key":sentence[0:_begin],"value":sentence[_end:]})
			
 
				+                _d["position"] = {"key_begin_sentence":0,
			
 
				+                              "key_begin_sentence_start":0,
			
 
				+                              "key_end_sentence":0,
			
 
				+                              "key_end_sentence_end":_begin,
			
 
				+                              "value_begin_sentence":0,
			
 
				+                              "value_begin_sentence_start":_end,
			
 
				+                              "value_end_sentence":0,
			
 
				+                              "value_end_sentence_end":len(sentence)
			
 
				+                              }
			
 
				+                list_kv.append(_d)
			
 
				+
			
 
				+            else:
			
 
				+                _begin = 0
			
 
				+
			
 
				+                for _i in range(len(list_span)-1):
			
 
				+                    _end = list_span[_i+1][0]
			
 
				+                    iter = re.search(kv_pattern,sentence[_begin:_end])
			
 
				+                    _begin = list_span[_i][1]
			
 
				+                    if iter is not None:
			
 
				+                        _d = DotDict({})
			
 
				+                        _d["key"] = iter.group("key")
			
 
				+                        _d["value"] = iter.group("value")
			
 
				+
			
 
				+                        _d["position"] = {"key_begin_sentence":0,
			
 
				+                                  "key_begin_sentence_start":iter.span("key")[0],
			
 
				+                                  "key_end_sentence":0,
			
 
				+                                  "key_end_sentence_end":iter.span("key")[0]+len(_d.get("key","")),
			
 
				+                                  "value_begin_sentence":0,
			
 
				+                                  "value_begin_sentence_start":iter.span("value")[0],
			
 
				+                                  "value_end_sentence":0,
			
 
				+                                  "value_end_sentence_end":iter.span("value")[0]+len(_d.get("value",""))
			
 
				+                                  }
			
 
				+                        list_kv.append(_d)
			
 
				+
			
 
				+                _begin = list_span[-2][1]
			
 
				+                _end = len(sentence)
			
 
				+                iter = re.search(kv_pattern,sentence[_begin:_end])
			
 
				+                if iter is not None:
			
 
				+                    _d = DotDict({})
			
 
				+                    _d["key"] = iter.group("key")
			
 
				+                    _d["value"] = iter.group("value")
			
 
				+
			
 
				+                    _d["position"] = {"key_begin_sentence":0,
			
 
				+                                  "key_begin_sentence_start":iter.span("key")[0],
			
 
				+                                  "key_end_sentence":0,
			
 
				+                                  "key_end_sentence_end":iter.span("key")[0]+len(_d.get("key","")),
			
 
				+                                  "value_begin_sentence":0,
			
 
				+                                  "value_begin_sentence_start":iter.span("value")[0],
			
 
				+                                  "value_end_sentence":0,
			
 
				+                                  "value_end_sentence_end":iter.span("value")[0]+len(_d.get("value",""))
			
 
				+                                  }
			
 
				+                    list_kv.append(_d)
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+        # for iter in _iter:
			
 
				+        #     _d = DotDict({})
			
 
				+        #     _d["key"] = iter.group("key")
			
 
				+        #     _d["value"] = iter.group("value")
			
 
				+        #     _d["key_span"] = iter.span("key")
			
 
				+        #     _d["value_span"] = iter.span("value")
			
 
				+        #     list_kv.append(_d)
			
 
				+    return list_kv
			
 
				+
			
 
				+
			
 
				+def extract_kv_from_node(node):
			
 
				+    list_kv = []
			
 
				+    list_text = []
			
 
				+    childs = node.get("children",[])
			
 
				+    _text = ""
			
 
				+
			
 
				+    has_br = False
			
 
				+    if childs:
			
 
				+        for child in childs:
			
 
				+            node_name = child.get("tag","")
			
 
				+            child_text = child.get("text")
			
 
				+            if node_name=="br":
			
 
				+                list_text.append([])
			
 
				+                has_br = True
			
 
				+            if child_text:
			
 
				+                if len(list_text)==0:
			
 
				+                    list_text.append([])
			
 
				+                list_text[-1].append(child)
			
 
				+
			
 
				+        node["kv"] = []
			
 
				+        if has_br:
			
 
				+            new_children = []
			
 
				+            for texts in list_text:
			
 
				+                if texts:
			
 
				+                    _text = "".join([a.get("text") for a in texts])
			
 
				+                    tag = texts[0]
			
 
				+                    list_kv = extract_kv_from_sentence(_text)
			
 
				+                    _n = DotDict({"tag":tag,"name":tag,"text":_text,"children":[],"kv":list_kv})
			
 
				+                    new_children.append(_n)
			
 
				+            node["children"] = new_children
			
 
				+        else:
			
 
				+            for texts in list_text:
			
 
				+                _text = "".join([a.get("text") for a in texts])
			
 
				+                if _text:
			
 
				+                    list_kv = extract_kv_from_sentence(_text)
			
 
				+                node["kv"].extend(list_kv)
			
 
				+    else:
			
 
				+        _text = node.get("text")
			
 
				+        if _text:
			
 
				+            list_kv = extract_kv_from_sentence(_text)
			
 
				+        node["kv"] = list_kv
			
 
				+    return list_kv
			
 
				+
			
 
				+
			
 
				+def get_child_text(node):
			
 
				+    _text = node.get("text","")
			
 
				+    for child in node.get("children",[]):
			
 
				+        _text += get_child_text(child)
			
 
				+    return _text
			
 
				+def extract_kv_from_tree(tree):
			
 
				+    if isinstance(tree,list):
			
 
				+        _count = 0
			
 
				+        has_table = False
			
 
				+        for child in tree:
			
 
				+            _c,_t = extract_kv_from_tree(child)
			
 
				+            _count += _c
			
 
				+            if _t:
			
 
				+                has_table = _t
			
 
				+        return _count,has_table
			
 
				+    if isinstance(tree,dict):
			
 
				+        if tree.get("tag","")!="table":
			
 
				+            childs = tree.get("children",[])
			
 
				+
			
 
				+            if len(childs)>0:
			
 
				+                _count = 0
			
 
				+                has_table = False
			
 
				+                child_has_p_div = False
			
 
				+                child_has_br = False
			
 
				+                for child in childs:
			
 
				+                    _c,_t = extract_kv_from_tree(child)
			
 
				+                    _count += _c
			
 
				+                    if _t:
			
 
				+                        has_table = _t
			
 
				+                    if child.get("tag","") in ("p","div","li"):
			
 
				+                        child_has_p_div = True
			
 
				+                    if child.get("tag","")=="br":
			
 
				+                        child_has_br = True
			
 
				+                if _count==0:
			
 
				+                    if not has_table and not child_has_p_div and not child_has_br:
			
 
				+                        _text = get_child_text(tree)
			
 
				+                        if "children" in tree:
			
 
				+                            del tree["children"]
			
 
				+                        tree["text"] = _text
			
 
				+                        list_kv = extract_kv_from_node(tree)
			
 
				+                        _count = len(list_kv)
			
 
				+                    return _count,has_table
			
 
				+                if tree.get("tag","") in ("p","div","li") and not has_table and not child_has_p_div:
			
 
				+                    if not child_has_br:
			
 
				+                        _text = get_child_text(tree)
			
 
				+                        tree["text"] = _text
			
 
				+                        if "children" in tree:
			
 
				+                            del tree["children"]
			
 
				+                    p_list_kv = extract_kv_from_node(tree)
			
 
				+                    return len(p_list_kv),has_table
			
 
				+
			
 
				+                return _count,has_table
			
 
				+            else:
			
 
				+                list_kv = extract_kv_from_node(tree)
			
 
				+                return len(list_kv),False
			
 
				+        else:
			
 
				+            return len(tree.get("kv",[])),True
			
 
				+    return 0,False
			
 
				+
			
 
				+def update_kv_span(list_kv,append_length):
			
 
				+    for _d in list_kv:
			
 
				+        _d["position"] = {"key_begin_sentence":0,
			
 
				+                              "key_begin_sentence_start":_d.get("key_sen_index",0),
			
 
				+                              "key_end_sentence":0,
			
 
				+                              "key_end_sentence_end":_d.get("key_sen_index",0)+len(_d.get("key","")),
			
 
				+                              "value_begin_sentence":0,
			
 
				+                              "value_begin_sentence_start":_d.get("value_sen_index",0),
			
 
				+                              "value_end_sentence":0,
			
 
				+                              "value_end_sentence_end":_d.get("value_sen_index",0)+len(_d.get("value",""))
			
 
				+                              }
			
 
				+        _d["position"]["key_begin_sentence_start"] += append_length
			
 
				+        _d["position"]["key_end_sentence_end"] += append_length
			
 
				+        _d["position"]["value_begin_sentence_start"] += append_length
			
 
				+        _d["position"]["value_end_sentence_end"] += append_length
			
 
				+
			
 
				+def get_outobjs_from_tree(tree,list_outobjs=None):
			
 
				+
			
 
				+    is_first = False
			
 
				+    if list_outobjs is None:
			
 
				+        list_outobjs = []
			
 
				+        is_first = True
			
 
				+    if isinstance(tree,list):
			
 
				+        for child in tree:
			
 
				+            get_outobjs_from_tree(child,list_outobjs)
			
 
				+    if isinstance(tree,dict):
			
 
				+        childs = tree.get("children",[])
			
 
				+        _text = tree.get("text","")
			
 
				+        is_table = True if tree.get("tag","")=="table" else False
			
 
				+        if is_table:
			
 
				+            list_outobjs.append(tree)
			
 
				+        else:
			
 
				+            if _text!="":
			
 
				+                tree.name = tree.tag
			
 
				+                list_outobjs.append(tree)
			
 
				+            for child in childs:
			
 
				+                get_outobjs_from_tree(child,list_outobjs)
			
 
				+
			
 
				+    return list_outobjs
			
 
				+
			
 
				+
			
 
				+def standard_title_context(_title_context):
			
 
				+    return _title_context.replace("（","(").replace("）",")").replace("：",":").replace("：",";").replace("，",".").replace(",",".").replace("、",".").replace("．",".")
			
 
				+
			
 
				+def standard_product(sentence):
			
 
				+    return sentence.replace("（","(").replace("）",")")
			
 
				+
			
 
				+
			
 
				+import Levenshtein
			
 
				+import copy
			
 
				+def jaccard_score(source,target):
			
 
				+    source_set = set([s for s in source])
			
 
				+    target_set = set([s for s in target])
			
 
				+    if len(source_set)==0 or len(target_set)==0:
			
 
				+        return 0
			
 
				+    return max(len(source_set&target_set)/len(source_set),len(source_set&target_set)/len(target_set))
			
 
				+
			
 
				+
			
 
				+def judge_pur_chinese(keyword):
			
 
				+    """
			
 
				+    中文字符的编码范围为： u'\u4e00' -- u'\u9fff：只要在此范围内就可以判断为中文字符串
			
 
				+    @param keyword:
			
 
				+    @return:
			
 
				+    """
			
 
				+    # 定义一个需要删除的标点符号字符串列表
			
 
				+    remove_chars = '[·’!"\#$%&\'()＃！（）*+,-./:;<=>?\@，：?￥★、…．＞【】［］《》？“”‘’\[\\]^_`{|}~]+'
			
 
				+    # 利用re.sub来删除中文字符串中的标点符号
			
 
				+    strings = re.sub(remove_chars, "", keyword)  # 将keyword中文字符串中remove_chars中包含的标点符号替换为空字符串
			
 
				+    for ch in strings:
			
 
				+        if u'\u4e00' <= ch <= u'\u9fff':
			
 
				+            pass
			
 
				+        else:
			
 
				+            return False
			
 
				+    return True
			
 
				+def is_similar(source,target,_radio=None):
			
 
				+    source = str(source).lower()
			
 
				+    target = str(target).lower()
			
 
				+    max_len = max(len(source),len(target))
			
 
				+    min_len = min(len(source),len(target))
			
 
				+
			
 
				+    min_ratio = 90
			
 
				+    if min_len>=3:
			
 
				+        min_ratio = 87
			
 
				+    if min_len>=5:
			
 
				+        min_ratio = 85
			
 
				+    if _radio is not None:
			
 
				+        min_ratio = _radio
			
 
				+    # dis_len = abs(len(source)-len(target))
			
 
				+    # min_dis = min(max_len*0.2,4)
			
 
				+    if min_len==0 and max_len>0:
			
 
				+        return False
			
 
				+    if max_len<=2:
			
 
				+        if source==target:
			
 
				+            return True
			
 
				+    if min_len<2:
			
 
				+        return False
			
 
				+    #判断相似度
			
 
				+    similar = Levenshtein.ratio(source,target)*100
			
 
				+    if similar>=min_ratio:
			
 
				+        log("%s and %s similar_jaro %d"%(source,target,similar))
			
 
				+        return True
			
 
				+    similar_jaro = Levenshtein.jaro(source,target)
			
 
				+    if similar_jaro*100>=min_ratio:
			
 
				+        log("%s and %s similar_jaro %d"%(source,target,similar_jaro*100))
			
 
				+        return True
			
 
				+    similar_jarow = Levenshtein.jaro_winkler(source,target)
			
 
				+    if similar_jarow*100>=min_ratio:
			
 
				+        log("%s and %s similar_jaro %d"%(source,target,similar_jarow*100))
			
 
				+        return True
			
 
				+
			
 
				+    if min_len>=5:
			
 
				+        if len(source)==max_len and str(source).find(target)>=0:
			
 
				+                return True
			
 
				+        elif len(target)==max_len and target.find(source)>=0:
			
 
				+                return True
			
 
				+        elif jaccard_score(source, target)==1 and judge_pur_chinese(source) and judge_pur_chinese(target):
			
 
				+            return True
			
 
				+    return False
			
 
				+
			
 
				+
			
 
				+end_pattern = "商务要求|评分标准|商务条件|商务条件"
			
 
				+_param_pattern = "(产品|技术|清单|配置|参数|具体|明细|项目|招标|货物|服务|规格|工作|具体)[及和与]?(指标|配置|条件|要求|参数|需求|规格|条款|名称及要求)|配置清单|(质量|技术).{,10}要求|验收标准|^(参数|功能)$"
			
 
				+meter_pattern = "[><≤≥±]\d+|\d+(?:[μucmkK微毫千]?[米升LlgGmMΩ]|摄氏度|英寸|度|天|VA|dB|bpm|rpm|kPa|mol|cmH20|%|°|Mpa|Hz|K?HZ|℃|W|min|[*×xX])|[*×xX]\d+|/min|\ds[^a-zA-Z]|GB.{,20}标准|PVC|PP|角度|容积|色彩|自动|流量|外径|轴位|折射率|帧率|柱镜|振幅|磁场|镜片|防漏|强度|允差|心率|倍数|瞳距|底座|色泽|噪音|间距|材质|材料|表面|频率|阻抗|浓度|兼容|防尘|防水|内径|实时|一次性|误差|性能|距离|精确|温度|超温|范围|跟踪|对比度|亮度|[横纵]向|均压|负压|正压|可调|设定值|功能|检测|高度|厚度|宽度|深度|[单双多]通道|效果|指数|模式|尺寸|重量|峰值|谷值|容量|寿命|稳定性|高温|信号|电源|电流|转换率|效率|释放量|转速|离心力|向心力|弯曲|电压|功率|气量|国标|标准协议|灵敏度|最大值|最小值|耐磨|波形|高压|性强|工艺|光源|低压|压力|压强|速度|湿度|重量|毛重|[MLX大中小]+码|净重|颜色|[红橙黄绿青蓝紫]色|不锈钢|输入|输出|噪声|认证|配置"
			
 
				+not_meter_pattern = "投标报价|中标金额|商务部分|公章|分值构成|业绩|详见|联系人|联系电话|合同价|金额|采购预算|资金来源|费用|质疑|评审因素|评审标准|商务资信|商务评分|专家论证意见|评标方法|代理服务费|售后服务|评分类型|评分项目|预算金额|得\d+分|项目金额|详见招标文件|乙方"
			
 
				+
			
 
				+
			
 
				+def getTrs(tbody):
			
 
				+    #获取所有的tr
			
 
				+    trs = []
			
 
				+    if tbody.name=="table":
			
 
				+        body = tbody.find("tbody",recursive=False)
			
 
				+        if body is not None:
			
 
				+            tbody = body
			
 
				+    objs = tbody.find_all(recursive=False)
			
 
				+    for obj in objs:
			
 
				+        if obj.name=="tr":
			
 
				+            trs.append(obj)
			
 
				+        if obj.name=="tbody" or obj.name=="table":
			
 
				+            for tr in obj.find_all("tr",recursive=False):
			
 
				+                trs.append(tr)
			
 
				+    return trs
			
 
				+
			
 
				+def fixSpan(tbody):
			
 
				+    # 处理colspan, rowspan信息补全问题
			
 
				+    #trs = tbody.findChildren('tr', recursive=False)
			
 
				+
			
 
				+    trs = getTrs(tbody)
			
 
				+    ths_len = 0
			
 
				+    ths = list()
			
 
				+    trs_set = set()
			
 
				+    #修改为先进行列补全再进行行补全，否则可能会出现表格解析混乱
			
 
				+    # 遍历每一个tr
			
 
				+
			
 
				+    for indtr, tr in enumerate(trs):
			
 
				+        ths_tmp = tr.findChildren('th', recursive=False)
			
 
				+        #不补全含有表格的tr
			
 
				+        if len(tr.findChildren('table'))>0:
			
 
				+            continue
			
 
				+        if len(ths_tmp) > 0:
			
 
				+            ths_len = ths_len + len(ths_tmp)
			
 
				+            for th in ths_tmp:
			
 
				+                ths.append(th)
			
 
				+            trs_set.add(tr)
			
 
				+        # 遍历每行中的element
			
 
				+        tds = tr.findChildren(recursive=False)
			
 
				+        for indtd, td in enumerate(tds):
			
 
				+            # 若有colspan 则补全同一行下一个位置
			
 
				+            if 'colspan' in td.attrs:
			
 
				+                if str(re.sub("[^0-9]","",str(td['colspan'])))!="":
			
 
				+                    col = int(re.sub("[^0-9]","",str(td['colspan'])))
			
 
				+                    if col<100 and len(td.get_text())<1000:
			
 
				+                        td['colspan'] = 1
			
 
				+                        for i in range(1, col, 1):
			
 
				+                            td.insert_after(copy.copy(td))
			
 
				+
			
 
				+    for indtr, tr in enumerate(trs):
			
 
				+        ths_tmp = tr.findChildren('th', recursive=False)
			
 
				+        #不补全含有表格的tr
			
 
				+        if len(tr.findChildren('table'))>0:
			
 
				+            continue
			
 
				+        if len(ths_tmp) > 0:
			
 
				+            ths_len = ths_len + len(ths_tmp)
			
 
				+            for th in ths_tmp:
			
 
				+                ths.append(th)
			
 
				+            trs_set.add(tr)
			
 
				+        # 遍历每行中的element
			
 
				+        tds = tr.findChildren(recursive=False)
			
 
				+        for indtd, td in enumerate(tds):
			
 
				+            # 若有rowspan 则补全下一行同样位置
			
 
				+            if 'rowspan' in td.attrs:
			
 
				+                if str(re.sub("[^0-9]","",str(td['rowspan'])))!="":
			
 
				+                    row = int(re.sub("[^0-9]","",str(td['rowspan'])))
			
 
				+                    td['rowspan'] = 1
			
 
				+                    for i in range(1, row, 1):
			
 
				+                        # 获取下一行的所有td， 在对应的位置插入
			
 
				+                        if indtr+i<len(trs):
			
 
				+                            tds1 = trs[indtr + i].findChildren(['td','th'], recursive=False)
			
 
				+                            if len(tds1) >= (indtd) and len(tds1)>0:
			
 
				+                                if indtd > 0:
			
 
				+                                    tds1[indtd - 1].insert_after(copy.copy(td))
			
 
				+                                else:
			
 
				+                                    tds1[0].insert_before(copy.copy(td))
			
 
				+                            elif indtd-2>0 and len(tds1) > 0 and len(tds1) == indtd - 1:  # 修正某些表格最后一列没补全
			
 
				+                                tds1[indtd-2].insert_after(copy.copy(td))
			
 
				+def getTable(tbody):
			
 
				+    #trs = tbody.findChildren('tr', recursive=False)
			
 
				+    fixSpan(tbody)
			
 
				+    trs = getTrs(tbody)
			
 
				+    inner_table = []
			
 
				+    for tr in trs:
			
 
				+        tr_line = []
			
 
				+        tds = tr.findChildren(['td','th'], recursive=False)
			
 
				+        if len(tds)==0:
			
 
				+            tr_line.append([re.sub('\xa0','',tr.get_text()),0]) # 2021/12/21 修复部分表格没有td 造成数据丢失
			
 
				+        for td in tds:
			
 
				+            tr_line.append([re.sub('\xa0','',td.get_text()),0])
			
 
				+            #tr_line.append([td.get_text(),0])
			
 
				+        inner_table.append(tr_line)
			
 
				+    return inner_table
			
 
				+
			
 
				+def extract_products(list_data,_product,_param_pattern = "产品名称|设备材料|采购内存|标的名称|采购内容|(标的|维修|系统|报价构成|商品|产品|物料|物资|货物|设备|采购品|采购条目|物品|材料|印刷品?|采购|物装|配件|资产|耗材|清单|器材|仪器|器械|备件|拍卖物|标的物|物件|药品|药材|药械|货品|食品|食材|品目|^品名|气体|标项|分项|项目|计划|包组|标段|[分子]?包|子目|服务|招标|中标|成交|工程|招标内容)[\)）的]?([、\w]{,4}名称|内容|描述)|标的|标项|项目$|商品|产品|物料|物资|货物|设备|采购品|采购条目|物品|材料|印刷品|物装|配件|资产|招标内容|耗材|清单|器材|仪器|器械|备件|拍卖物|标的物|物件|药品|药材|药械|货品|食品|食材|菜名|^品目$|^品名$|^名称|^内容$"):
			
 
				+    _product = standard_product(_product)
			
 
				+    list_result = []
			
 
				+    list_table_products = []
			
 
				+    for _data_i in range(len(list_data)):
			
 
				+        _data = list_data[_data_i]
			
 
				+        _type = _data["type"]
			
 
				+        _text = _data["text"]
			
 
				+
			
 
				+        if _type=="table":
			
 
				+            list_table = _data["list_table"]
			
 
				+            if list_table is None:
			
 
				+                continue
			
 
				+            _check = True
			
 
				+            max_length = max([len(a) for a in list_table])
			
 
				+            min_length = min([len(a) for a in list_table])
			
 
				+            if min_length<max_length/2:
			
 
				+                continue
			
 
				+            list_head_index = []
			
 
				+            _begin_index = 0
			
 
				+            head_cell_text = ""
			
 
				+            for line_i in range(len(list_table[:2])):
			
 
				+                line = list_table[line_i]
			
 
				+                line_text = ",".join([cell[0] for cell in line])
			
 
				+                for cell_i in range(len(line)):
			
 
				+                    cell = line[cell_i]
			
 
				+                    cell_text = cell[0]
			
 
				+                    if len(cell_text)<10 and re.search(_param_pattern,cell_text) is not None and re.search("单价|数量|预算|限价|总价|品牌|规格|型号|用途|要求|采购量",line_text) is not None:
			
 
				+                        _begin_index = line_i+1
			
 
				+                        list_head_index.append(cell_i)
			
 
				+
			
 
				+            for line_i in range(len(list_table)):
			
 
				+                line = list_table[line_i]
			
 
				+                for cell_i in list_head_index:
			
 
				+                    if cell_i>=len(line):
			
 
				+                        continue
			
 
				+                    cell = line[cell_i]
			
 
				+                    cell_text = cell[0]
			
 
				+                    head_cell_text += cell_text
			
 
				+
			
 
				+            # print("===head_cell_text",head_cell_text)
			
 
				+            if re.search("招标人|采购人|项目编号|项目名称|金额|^\d+$",head_cell_text) is not None:
			
 
				+                list_head_index = []
			
 
				+
			
 
				+            for line in list_table:
			
 
				+                line_text = ",".join([cell[0] for cell in line])
			
 
				+                for cell_i in range(len(line)):
			
 
				+                    cell = line[cell_i]
			
 
				+                    cell_text = cell[0]
			
 
				+                    if cell_text is not None and _product is not None and len(cell_text)<len(_product)*10 and cell_text.find(_product)>=0 and re.search("单价|数量|总价|规格|品牌|型号|用途|要求|采购量",line_text) is not None:
			
 
				+                        list_head_index.append(cell_i)
			
 
				+
			
 
				+            list_head_index = list(set(list_head_index))
			
 
				+            if len(list_head_index)>0:
			
 
				+                has_number = False
			
 
				+                for cell_i in list_head_index:
			
 
				+                    table_products = []
			
 
				+
			
 
				+                    for line_i in range(_begin_index,len(list_table)):
			
 
				+                        line = list_table[line_i]
			
 
				+
			
 
				+                        for _i in range(len(line)):
			
 
				+                            cell = line[_i]
			
 
				+                            cell_text = cell[0]
			
 
				+                            if re.search("^\d+$",cell_text) is not None:
			
 
				+                                has_number = True
			
 
				+
			
 
				+                        if cell_i>=len(line):
			
 
				+                            continue
			
 
				+                        cell = line[cell_i]
			
 
				+                        cell_text = cell[0]
			
 
				+                        if re.search(_param_pattern,cell_text) is None or has_number:
			
 
				+                            if re.search("^[\da-zA-Z]+$",cell_text) is None:
			
 
				+                                table_products.append(cell_text)
			
 
				+
			
 
				+                    if len(table_products)>0:
			
 
				+                        logger.debug("table products %s"%(str(table_products)))
			
 
				+                        if min([len(x) for x in table_products])>0 and max([len(x) for x in table_products])<=30:
			
 
				+                            if re.search("招标人|代理人|预算|数量|交货期|品牌|产地","".join(table_products)) is None:
			
 
				+                                list_table_products.append(table_products)
			
 
				+    _find = False
			
 
				+    for table_products in list_table_products:
			
 
				+        for _p in table_products:
			
 
				+            if is_similar(_product,_p,90):
			
 
				+                _find = True
			
 
				+                logger.debug("similar table_products %s"%(str(table_products)))
			
 
				+                list_result = list(set([a for a in table_products if len(a)>1 and len(a)<20 and re.search("费用|预算|合计|金额|万元|运费|^其他$",a) is None]))
			
 
				+                break
			
 
				+    if not _find:
			
 
				+        for table_products in list_table_products:
			
 
				+            list_result.extend(table_products)
			
 
				+        list_result = list(set([a for a in list_result if len(a)>1 and len(a)<30 and re.search("费用|预算|合计|金额|万元|运费",a) is None]))
			
 
				+    return list_result
			
 
				+
			
 
				+def get_childs(childs, max_depth=None):
			
 
				+    list_data = []
			
 
				+    for _child in childs:
			
 
				+        list_data.append(_child)
			
 
				+        childs2 = _child.get("child_title",[])
			
 
				+
			
 
				+        if len(childs2)>0 and (max_depth==None or max_depth>0):
			
 
				+            for _child2 in childs2:
			
 
				+                if max_depth != None:
			
 
				+                    list_data.extend(get_childs([_child2], max_depth-1))
			
 
				+                else:
			
 
				+                    list_data.extend(get_childs([_child2], None))
			
 
				+    return list_data
			
 
				+
			
 
				+class Html2KVTree():
			
 
				+
			
 
				+    def __init__(self,_html,auto_merge_table=True,list_obj = []):
			
 
				+        if _html is None:
			
 
				+            _html = ""
			
 
				+        self.html = _html
			
 
				+        self.auto_merge_table = auto_merge_table
			
 
				+
			
 
				+        if list_obj:
			
 
				+            self.list_obj = list_obj
			
 
				+        else:
			
 
				+
			
 
				+            _tree = html_to_tree(html_content)
			
 
				+            self.list_obj = get_outobjs_from_tree(_tree)
			
 
				+
			
 
				+
			
 
				+
			
 
				+        # for obj in self.list_obj:
			
 
				+        #     print("obj",obj.get_text()[:20])
			
 
				+
			
 
				+        self.tree = self.buildParsetree(self.list_obj,[],auto_merge_table)
			
 
				+
			
 
				+
			
 
				+        # #识别目录树
			
 
				+        # self.print_tree(self.tree,"-|")
			
 
				+
			
 
				+    def get_soup_objs(self,soup,list_obj=None):
			
 
				+        if list_obj is None:
			
 
				+            list_obj = []
			
 
				+        childs = soup.find_all(recursive=False)
			
 
				+        for _obj in childs:
			
 
				+            childs1 = _obj.find_all(recursive=False)
			
 
				+            if len(childs1)==0 or len(_obj.get_text())<40 or _obj.name=="table":
			
 
				+                list_obj.append(_obj)
			
 
				+            elif _obj.name=="p":
			
 
				+                list_obj.append(_obj)
			
 
				+            else:
			
 
				+                self.get_soup_objs(_obj,list_obj)
			
 
				+        return list_obj
			
 
				+
			
 
				+    def fix_tree(self,_product):
			
 
				+        products = extract_products(self.tree,_product)
			
 
				+        if len(products)>0:
			
 
				+            self.tree = self.buildParsetree(self.list_obj,products,self.auto_merge_table)
			
 
				+
			
 
				+    def print_tree(self,tree,append="",set_tree_id=None):
			
 
				+        if set_tree_id is None:
			
 
				+            set_tree_id = set()
			
 
				+        if append=="":
			
 
				+            for t in tree:
			
 
				+                logger.debug("%s text:%s title:%s title_text:%s before:%s after%s product:%s"%("==>",t["text"][:50],t["sentence_title"],t["sentence_title_text"],t["title_before"],t["title_after"],t["has_product"]))
			
 
				+
			
 
				+        for t in tree:
			
 
				+            _id = id(t)
			
 
				+            if _id in set_tree_id:
			
 
				+                continue
			
 
				+            set_tree_id.add(_id)
			
 
				+            logger.info("%s text:%s title:%s title_text:%s before:%s after%s product:%s kv:%s"%(append,t["text"][:50],t["sentence_title"],t["sentence_title_text"],t["title_before"],t["title_after"],t["has_product"],str(t["kv"])))
			
 
				+            childs = t["child_title"]
			
 
				+            self.print_tree(childs,append=append+"-|",set_tree_id=set_tree_id)
			
 
				+
			
 
				+    def is_title_first(self,title):
			
 
				+        if title in ("一","1","Ⅰ","a","A"):
			
 
				+            return True
			
 
				+        return False
			
 
				+
			
 
				+    def find_title_by_pattern(self,_text,_pattern="(^|★|▲|:|：|\s+)(?P<title_1>(?P<title_1_index_0_0>第?)(?P<title_1_index_1_1>[一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]+)(?P<title_1_index_2_0>[、章册包标部.:：]+))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_3>(?P<title_3_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?)(?P<title_3_index_0_1>[ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]+)(?P<title_3_index_0_2>[、章册包标部.:：]+))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_4>(?P<title_4_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?第?)(?P<title_4_index_1_1>[一二三四五六七八九十]+)(?P<title_4_index_2_0>[节章册部\.:：、、]+))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_5>(?P<title_5_index_0_0>^)(?P<title_5_index_1_1>[一二三四五六七八九十]+)(?P<title_5_index_2_0>)[^一二三四五六七八九十节章册部\.:：、])|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_12>(?P<title_12_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?\d{1,2}[\.．、\s\-]\d{1,2}[\.．、\s\-]\d{1,2}[\.．、\s\-]\d{1,2}[\.．、\s\-])(?P<title_12_index_1_1>\d{1,2})(?P<title_12_index_2_0>[\.．、\s\-]?))|"\
			
 
				+                                             "([\s★▲\*]*)(?P<title_11>(?P<title_11_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?\d{1,2}[\.．、\s\-]\d{1,2}[\.．、\s\-]\d{1,2}[\.．、\s\-])(?P<title_11_index_1_1>\d{1,2})(?P<title_11_index_2_0>[\.．、\s\-]?))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_10>(?P<title_10_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?\d{1,2}[\.．、\s\-]\d{1,2}[\.．、\s\-])(?P<title_10_index_1_1>\d{1,2})(?P<title_10_index_2_0>[\.．、\s\-]?))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_7>(?P<title_7_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?\d{1,2}[\.．\s\-])(?P<title_7_index_1_1>\d{1,2})(?P<title_7_index_2_0>[\.．包标:：、\s\-]*))|" \
			
 
				+                                             "(^[\s★▲\*]*)(?P<title_6>(?P<title_6_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?包?)(?P<title_6_index_0_1>\d{1,2})(?P<title_6_index_2_0>[\.．、\s\-包标]*))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_15>(?P<title_15_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?[(（]?)(?P<title_15_index_1_1>\d{1,2})(?P<title_15_index_2_0>[)）包标\.．:：、]+))|" \
			
 
				+                                             "([\s★▲\*]+)(?P<title_17>(?P<title_17_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?[(（]?)(?P<title_17_index_1_1>[a-zA-Z]+)(?P<title_17_index_2_0>[)）包标\.．:：、]+))|" \
			
 
				+                                             "([\s★▲\*]*)(?P<title_19>(?P<title_19_index_0_0>[^一二三四五六七八九十\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]{,3}?[(（]?)(?P<title_19_index_1_1>[一二三四五六七八九十ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]+)(?P<title_19_index_2_0>[)）]))"
			
 
				+                              ):
			
 
				+        _se = re.search(_pattern,_text)
			
 
				+        groups = []
			
 
				+        if _se is not None:
			
 
				+            e = _se.end()
			
 
				+            if re.search('(时间|日期|编号|账号|号码|手机|价格|\w价|人民币|金额|得分|分值|总分|满分|最高得|扣|减|数量|评委)[:：]?\d', _se.group(0)) or (re.search('\d[.:：]?$', _se.group(0)) and re.search('^[\d年月日万元天个分秒台条A-Za-z]|^(小时)', _text[e:])):
			
 
				+                return None
			
 
				+            elif re.match('[二三四五六七八九十]\w{1,2}[市区县]|五金|四川|八疆|九龙|[一二三四五六七八九十][层天标包]', _text) and re.match('[一二三四五六七八九十]', _se.group(0)): # 289765335 排除三明市等开头作为大纲
			
 
				+                return None
			
 
				+            elif re.search('^[\u4e00-\u9fa5]+[:：]', _text[:e]):
			
 
				+                return None
			
 
				+            _gd = _se.groupdict()
			
 
				+            for k,v in _gd.items():
			
 
				+                if v is not None:
			
 
				+                    groups.append((k,v))
			
 
				+        if len(groups):
			
 
				+            groups.sort(key=lambda x:x[0])
			
 
				+            return groups
			
 
				+        return None
			
 
				+
			
 
				+    def make_increase(self,_sort,_title,_add=1):
			
 
				+        if len(_title)==0 and _add==0:
			
 
				+            return ""
			
 
				+        if len(_title)==0 and _add==1:
			
 
				+            return _sort[0]
			
 
				+        _index = _sort.index(_title[-1])
			
 
				+        next_index = (_index+_add)%len(_sort)
			
 
				+        next_chr = _sort[next_index]
			
 
				+        if _index==len(_sort)-1:
			
 
				+            _add = 1
			
 
				+        else:
			
 
				+            _add = 0
			
 
				+        return next_chr+self.make_increase(_sort,_title[:-1],_add)
			
 
				+
			
 
				+
			
 
				+    def get_next_title(self,_title):
			
 
				+        if re.search("^\d+$",_title) is not None:
			
 
				+            return str(int(_title)+1)
			
 
				+        if re.search("^[一二三四五六七八九十百]+$",_title) is not None:
			
 
				+            if _title[-1]=="十":
			
 
				+                return _title+"一"
			
 
				+            if _title[-1]=="百":
			
 
				+                return _title+"零一"
			
 
				+
			
 
				+            if _title[-1]=="九":
			
 
				+                if len(_title)==1:
			
 
				+                    return "十"
			
 
				+                if len(_title)==2:
			
 
				+                    if _title[0]=="十":
			
 
				+                        return "二十"
			
 
				+                if len(_title)==3:
			
 
				+                    if _title[0]=="九":
			
 
				+                        return "一百"
			
 
				+                    else:
			
 
				+                        _next_title = self.make_increase(['一','二','三','四','五','六','七','八','九','十'],re.sub("[十百]",'',_title[0]))
			
 
				+                        return _next_title+"十"
			
 
				+
			
 
				+            _next_title = self.make_increase(['一','二','三','四','五','六','七','八','九','十'],re.sub("[十百]",'',_title))
			
 
				+            _next_title = list(_next_title)
			
 
				+            _next_title.reverse()
			
 
				+            if _next_title[-1]!="十":
			
 
				+                if len(_next_title)>=2:
			
 
				+                    _next_title.insert(-1,'十')
			
 
				+            if len(_next_title)>=4:
			
 
				+                _next_title.insert(-3,'百')
			
 
				+            if _title[0]=="十":
			
 
				+                if _next_title=="十":
			
 
				+                    _next_title = ["二","十"]
			
 
				+                _next_title.insert(0,"十")
			
 
				+            _next_title = "".join(_next_title)
			
 
				+            return _next_title
			
 
				+        if re.search("^[a-z]+$",_title) is not None:
			
 
				+            _next_title = self.make_increase([chr(i+ord('a')) for i in range(26)],_title)
			
 
				+            _next_title = list(_next_title)
			
 
				+            _next_title.reverse()
			
 
				+            return "".join(_next_title)
			
 
				+        if re.search("^[A-Z]+$",_title) is not None:
			
 
				+            _next_title = self.make_increase([chr(i+ord('A')) for i in range(26)],_title)
			
 
				+            _next_title = list(_next_title)
			
 
				+            _next_title.reverse()
			
 
				+            return "".join(_next_title)
			
 
				+        if re.search("^[ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ]$",_title) is not None:
			
 
				+            _sort = ["Ⅰ","Ⅱ","Ⅲ","Ⅳ","Ⅴ","Ⅵ","Ⅶ","Ⅷ","Ⅸ","Ⅹ","Ⅺ","Ⅻ"]
			
 
				+            _index = _sort.index(_title)
			
 
				+            if _index<len(_sort)-1:
			
 
				+                return _sort[_index+1]
			
 
				+            return None
			
 
				+
			
 
				+    def count_title_before(self,list_obj):
			
 
				+        dict_before = {}
			
 
				+        dict_sentence_count = {}
			
 
				+        illegal_sentence = set()
			
 
				+        for obj_i in range(len(list_obj)):
			
 
				+            obj = list_obj[obj_i]
			
 
				+            _type = "sentence"
			
 
				+            _text = obj.text.strip()
			
 
				+            if obj.name=="table":
			
 
				+                _type = "table"
			
 
				+                _text = str(obj)
			
 
				+            _append = False
			
 
				+
			
 
				+
			
 
				+            if _type=="sentence":
			
 
				+                if len(_text)>10 and len(_text)<100:
			
 
				+                    if _text not in dict_sentence_count:
			
 
				+                        dict_sentence_count[_text] = 0
			
 
				+                    dict_sentence_count[_text] += 1
			
 
				+                    if re.search("\d+页",_text) is not None:
			
 
				+                        illegal_sentence.add(_text)
			
 
				+                elif len(_text)<10:
			
 
				+                    if re.search("第\d+页",_text) is not None:
			
 
				+                        illegal_sentence.add(_text)
			
 
				+
			
 
				+                sentence_groups = self.find_title_by_pattern(_text[:10])
			
 
				+                if sentence_groups:
			
 
				+                    # c062f53cf83401e671822003d63c1828print("sentence_groups",sentence_groups)
			
 
				+                    sentence_title = sentence_groups[0][0]
			
 
				+                    sentence_title_text = sentence_groups[0][1]
			
 
				+                    title_index = sentence_groups[-2][1]
			
 
				+                    title_before = sentence_groups[1][1].replace("（","(").replace("：",":").replace("：",";").replace("，",".").replace(",",".").replace("、",".")
			
 
				+                    title_after = sentence_groups[-1][1].replace("）",")").replace("：",":").replace("：",";").replace("，",".").replace(",",".").replace("、",".")
			
 
				+                    next_index = self.get_next_title(title_index)
			
 
				+                    if title_before not in dict_before:
			
 
				+                        dict_before[title_before] = 0
			
 
				+                    dict_before[title_before] += 1
			
 
				+
			
 
				+        for k,v in dict_sentence_count.items():
			
 
				+            if v>10:
			
 
				+                illegal_sentence.add(k)
			
 
				+        return dict_before,illegal_sentence
			
 
				+
			
 
				+    def is_page_no(self,sentence):
			
 
				+        if len(sentence)<10:
			
 
				+            if re.search("\d+页|^\-\d+\-$",sentence) is not None:
			
 
				+                return True
			
 
				+
			
 
				+    def block_tree(self,childs):
			
 
				+        for child in childs:
			
 
				+
			
 
				+            if not child["block"]:
			
 
				+                child["block"] = True
			
 
				+                childs2 = child["child_title"]
			
 
				+                self.block_tree(childs2)
			
 
				+
			
 
				+
			
 
				+    def buildParsetree(self,list_obj,products=[],auto_merge_table=True,auto_append=False):
			
 
				+
			
 
				+        self.parseTree = None
			
 
				+        trees = []
			
 
				+        list_length = []
			
 
				+        for obj in list_obj[:200]:
			
 
				+            if obj.name!="table":
			
 
				+                list_length.append(len(obj.text))
			
 
				+        if len(list_length)>0:
			
 
				+            max_length = max(list_length)
			
 
				+        else:
			
 
				+            max_length = 40
			
 
				+        max_length = min(max_length,40)
			
 
				+
			
 
				+        logger.debug("%s:%d"%("max_length",max_length))
			
 
				+
			
 
				+
			
 
				+        list_data = []
			
 
				+        last_table_index = None
			
 
				+        last_table_columns = None
			
 
				+        last_table = None
			
 
				+        dict_before,illegal_sentence = self.count_title_before(list_obj)
			
 
				+        for obj_i in range(len(list_obj)):
			
 
				+            obj = list_obj[obj_i]
			
 
				+
			
 
				+            # logger.debug("==obj %s"%obj.text[:20])
			
 
				+
			
 
				+            _type = "sentence"
			
 
				+            _text = standard_product(obj.text)
			
 
				+            if obj.name=="table":
			
 
				+                _type = "table"
			
 
				+                _text = standard_product(str(obj))
			
 
				+            _append = False
			
 
				+            sentence_title = None
			
 
				+            sentence_title_text = None
			
 
				+            sentence_groups = None
			
 
				+            title_index = None
			
 
				+            next_index = None
			
 
				+            parent_title = None
			
 
				+            title_before = None
			
 
				+            title_after = None
			
 
				+            title_next = None
			
 
				+            childs = []
			
 
				+            # new
			
 
				+            sentence_index = obj.sentence_index
			
 
				+            wordOffset_begin = obj.wordOffset_begin
			
 
				+            wordOffset_end = obj.wordOffset_end
			
 
				+            sentences = obj.sentences
			
 
				+
			
 
				+            list_kv = obj.get("kv",[])
			
 
				+
			
 
				+            table_id = obj.get("table_id")
			
 
				+
			
 
				+            list_table = None
			
 
				+            block = False
			
 
				+
			
 
				+            has_product = False
			
 
				+            position = obj.get("position",{})
			
 
				+
			
 
				+            if _type=="sentence":
			
 
				+                if _text in illegal_sentence:
			
 
				+                    continue
			
 
				+
			
 
				+
			
 
				+                sentence_groups = self.find_title_by_pattern(_text[:10])
			
 
				+                if sentence_groups:
			
 
				+                    title_before = standard_title_context(sentence_groups[1][1])
			
 
				+                    title_after = sentence_groups[-1][1]
			
 
				+                    sentence_title_text = sentence_groups[0][1]
			
 
				+                    other_text = _text.replace(sentence_title_text,"")
			
 
				+                    if (title_before in dict_before and dict_before[title_before]>1) or title_after!="":
			
 
				+                        sentence_title = sentence_groups[0][0]
			
 
				+
			
 
				+                        title_index = sentence_groups[-2][1]
			
 
				+                        next_index = self.get_next_title(title_index)
			
 
				+
			
 
				+                        other_text = _text.replace(sentence_title_text,"")
			
 
				+
			
 
				+                        for p in products:
			
 
				+                            if other_text.strip()==p.strip():
			
 
				+                                has_product = True
			
 
				+
			
 
				+                    else:
			
 
				+                        _fix = False
			
 
				+
			
 
				+                        for p in products:
			
 
				+                            if other_text.strip()==p.strip():
			
 
				+                                title_before = "=产品"
			
 
				+                                sentence_title = "title_0"
			
 
				+                                sentence_title_text = p
			
 
				+                                title_index = "0"
			
 
				+                                title_after = "产品="
			
 
				+                                next_index = "0"
			
 
				+                                _fix = True
			
 
				+                                has_product = True
			
 
				+                                break
			
 
				+                        if not _fix:
			
 
				+                            title_before = None
			
 
				+                            title_after = None
			
 
				+                            sentence_title_text = None
			
 
				+                else:
			
 
				+                    if len(_text)<40 and re.search(_param_pattern,_text) is not None:
			
 
				+                        for p in products:
			
 
				+                            if _text.find(p)>=0:
			
 
				+                                title_before = "=产品"
			
 
				+                                sentence_title = "title_0"
			
 
				+                                sentence_title_text = p
			
 
				+                                title_index = "0"
			
 
				+                                title_after = "产品="
			
 
				+                                next_index = "0"
			
 
				+                                _fix = True
			
 
				+                                has_product = True
			
 
				+                                break
			
 
				+
			
 
				+            # 合并两个非标题句子 20241106 注销，由于 485441521 招标内容结束位置不对
			
 
				+            if auto_append:
			
 
				+                if _type=="sentence":
			
 
				+                    if sentence_title is None and len(list_data)>0 and list_data[-1]["sentence_title"] is not None and list_data[-1]["line_width"]>=max_length*0.6:
			
 
				+                        list_data[-1]["text"] += _text
			
 
				+                        list_data[-1]["line_width"] = len(_text)
			
 
				+                        update_kv_span(list_kv,len(_text))
			
 
				+                        list_data[-1]["kv"].extend(list_kv)
			
 
				+                        list_data[-1]["sentences"].extend(sentences)
			
 
				+                        _append = True
			
 
				+                    elif sentence_title is None and len(list_data)>0 and _type==list_data[-1]["type"]:
			
 
				+                        if list_data[-1]["line_width"]>=max_length*0.7:
			
 
				+                            list_data[-1]["text"] += _text
			
 
				+                            list_data[-1]["line_width"] = len(_text)
			
 
				+                            update_kv_span(list_kv,len(_text))
			
 
				+                            list_data[-1]["kv"].extend(list_kv)
			
 
				+                            list_data[-1]["sentences"].extend(sentences)
			
 
				+                            _append = True
			
 
				+
			
 
				+
			
 
				+            if not _append:
			
 
				+                _data = {"type":_type,"tag":obj.get("tag"),"table_id":table_id, "text":_text,"sentences":sentences,"list_table":list_table,
			
 
				+                         "line_width":len(_text),"sentence_title":sentence_title,"title_index":title_index,
			
 
				+                         "sentence_title_text":sentence_title_text,"sentence_groups":sentence_groups,"parent_title":parent_title,
			
 
				+                         "child_title":childs,"title_before":title_before,"title_after":title_after,"title_next":title_next,"next_index":next_index,
			
 
				+                         "block":block,"has_product":has_product,
			
 
				+                         "sentence_index":sentence_index,"wordOffset_begin":wordOffset_begin,"wordOffset_end":wordOffset_end,
			
 
				+                         "kv":list_kv,"position":position
			
 
				+                        }
			
 
				+
			
 
				+
			
 
				+                if sentence_title is not None:
			
 
				+                    if len(list_data)>0:
			
 
				+                        if self.is_title_first(title_index):
			
 
				+                            for i in range(1,len(list_data)+1):
			
 
				+                                _d = list_data[-i]
			
 
				+                                if _d["sentence_title"] is not None:
			
 
				+                                    _data["parent_title"] = _d
			
 
				+                                    _d["child_title"].append(_data)
			
 
				+                                    break
			
 
				+                        else:
			
 
				+                            _find = False
			
 
				+                            for i in range(1,len(list_data)+1):
			
 
				+                                if _find:
			
 
				+                                    break
			
 
				+                                _d = list_data[-i]
			
 
				+                                if _d.get("sentence_title")==sentence_title and title_before==_d["title_before"] and title_after==_d["title_after"]:
			
 
				+                                    if _d["next_index"]==title_index and _d["title_next"] is None and not _d["block"]:
			
 
				+                                        _data["parent_title"] = _d["parent_title"]
			
 
				+                                        _d["title_next"] = _data
			
 
				+                                        if len(_d["child_title"])>0:
			
 
				+                                            _d["child_title"][-1]["title_next"] = ""
			
 
				+                                            self.block_tree(_d["child_title"])
			
 
				+                                        if _d["parent_title"] is not None:
			
 
				+                                            _d["parent_title"]["child_title"].append(_data)
			
 
				+                                        _find = True
			
 
				+                                        break
			
 
				+                            for i in range(1,len(list_data)+1):
			
 
				+                                if _find:
			
 
				+                                    break
			
 
				+                                _d = list_data[-i]
			
 
				+                                if i==1 and not _d["block"] and _d.get("sentence_title")==sentence_title and title_before==_d["title_before"] and title_after==_d["title_after"]:
			
 
				+                                    _data["parent_title"] = _d["parent_title"]
			
 
				+                                    _d["title_next"] = _data
			
 
				+                                    if len(_d["child_title"])>0:
			
 
				+                                        _d["child_title"][-1]["title_next"] = ""
			
 
				+                                        self.block_tree(_d["child_title"])
			
 
				+                                    if _d["parent_title"] is not None:
			
 
				+                                        _d["parent_title"]["child_title"].append(_data)
			
 
				+                                    _find = True
			
 
				+                                    break
			
 
				+                            title_before = standard_title_context(title_before)
			
 
				+                            title_after = standard_title_context(title_after)
			
 
				+                            for i in range(1,len(list_data)+1):
			
 
				+                                if _find:
			
 
				+                                    break
			
 
				+                                _d = list_data[-i]
			
 
				+                                if _d.get("sentence_title")==sentence_title and title_before==standard_title_context(_d["title_before"]) and title_after==standard_title_context(_d["title_after"]):
			
 
				+                                    if _d["next_index"]==title_index and _d["title_next"] is None and not _d["block"]:
			
 
				+                                        _data["parent_title"] = _d["parent_title"]
			
 
				+                                        _d["title_next"] = _data
			
 
				+                                        if len(_d["child_title"])>0:
			
 
				+                                            _d["child_title"][-1]["title_next"] = ""
			
 
				+                                            self.block_tree(_d["child_title"])
			
 
				+                                        if _d["parent_title"] is not None:
			
 
				+                                            _d["parent_title"]["child_title"].append(_data)
			
 
				+                                        _find = True
			
 
				+                                        break
			
 
				+                            for i in range(1,len(list_data)+1):
			
 
				+                                if _find:
			
 
				+                                    break
			
 
				+                                _d = list_data[-i]
			
 
				+                                if not _d["block"] and _d.get("sentence_title")==sentence_title and title_before==standard_title_context(_d["title_before"]) and title_after==standard_title_context(_d["title_after"]):
			
 
				+                                    _data["parent_title"] = _d["parent_title"]
			
 
				+                                    _d["title_next"] = _data
			
 
				+                                    if len(_d["child_title"])>0:
			
 
				+                                        _d["child_title"][-1]["title_next"] = ""
			
 
				+                                        # self.block_tree(_d["child_title"])
			
 
				+                                    if _d["parent_title"] is not None:
			
 
				+                                        _d["parent_title"]["child_title"].append(_data)
			
 
				+                                    _find = True
			
 
				+                                    break
			
 
				+                            for i in range(1,min(len(list_data)+1,20)):
			
 
				+                                if _find:
			
 
				+                                    break
			
 
				+                                _d = list_data[-i]
			
 
				+                                if not _d["block"] and _d.get("sentence_title")==sentence_title and title_before==standard_title_context(_d["title_before"]):
			
 
				+                                    _data["parent_title"] = _d["parent_title"]
			
 
				+                                    _d["title_next"] = _data
			
 
				+                                    if len(_d["child_title"])>0:
			
 
				+                                        _d["child_title"][-1]["title_next"] = ""
			
 
				+                                        # self.block_tree(_d["child_title"])
			
 
				+                                    if _d["parent_title"] is not None:
			
 
				+                                        _d["parent_title"]["child_title"].append(_data)
			
 
				+                                    _find = True
			
 
				+                                    break
			
 
				+
			
 
				+                            if not _find:
			
 
				+                                if len(list_data)>0:
			
 
				+                                    for i in range(1,len(list_data)+1):
			
 
				+                                        _d = list_data[-i]
			
 
				+                                        if _d.get("sentence_title") is not None:
			
 
				+                                            _data["parent_title"] = _d
			
 
				+                                            _d["child_title"].append(_data)
			
 
				+                                            break
			
 
				+
			
 
				+
			
 
				+                else:
			
 
				+                    if len(list_data)>0:
			
 
				+                        for i in range(1,len(list_data)+1):
			
 
				+                            _d = list_data[-i]
			
 
				+                            if _d.get("sentence_title") is not None:
			
 
				+                                _data["parent_title"] = _d
			
 
				+                                _d["child_title"].append(_data)
			
 
				+                                break
			
 
				+
			
 
				+                list_data.append(_data)
			
 
				+
			
 
				+        for _data in list_data:
			
 
				+
			
 
				+            childs = _data["child_title"]
			
 
				+
			
 
				+            for c_i in range(len(childs)):
			
 
				+                cdata = childs[c_i]
			
 
				+                if cdata["has_product"]:
			
 
				+                    continue
			
 
				+                else:
			
 
				+                    if c_i>0:
			
 
				+                        last_cdata = childs[c_i-1]
			
 
				+                        if cdata["sentence_title"] is not None and last_cdata["sentence_title"] is not None and last_cdata["title_before"]==cdata["title_before"] and last_cdata["title_after"]==cdata["title_after"] and last_cdata["has_product"]:
			
 
				+                            cdata["has_product"] = True
			
 
				+                    if c_i<len(childs)-1:
			
 
				+                        last_cdata = childs[c_i+1]
			
 
				+                        if cdata["sentence_title"] is not None and last_cdata["sentence_title"] is not None and last_cdata["title_before"]==cdata["title_before"] and last_cdata["title_after"]==cdata["title_after"] and last_cdata["has_product"]:
			
 
				+                            cdata["has_product"] = True
			
 
				+            for c_i in range(len(childs)):
			
 
				+                cdata = childs[len(childs)-1-c_i]
			
 
				+                if cdata["has_product"]:
			
 
				+                    continue
			
 
				+                else:
			
 
				+                    if c_i>0:
			
 
				+                        last_cdata = childs[c_i-1]
			
 
				+                        if cdata["sentence_title"] is not None and last_cdata["sentence_title"] is not None and last_cdata["title_before"]==cdata["title_before"] and last_cdata["title_after"]==cdata["title_after"] and last_cdata["has_product"]:
			
 
				+                            cdata["has_product"] = True
			
 
				+                    if c_i<len(childs)-1:
			
 
				+                        last_cdata = childs[c_i+1]
			
 
				+                        if cdata["sentence_title"] is not None and last_cdata["sentence_title"] is not None and last_cdata["title_before"]==cdata["title_before"] and last_cdata["title_after"]==cdata["title_after"] and last_cdata["has_product"]:
			
 
				+                            cdata["has_product"] = True
			
 
				+
			
 
				+
			
 
				+        return list_data
			
 
				+
			
 
				+    def get_tree_sentence(self):
			
 
				+        list_sentence = []
			
 
				+        for obj in self.tree:
			
 
				+            list_sentence.extend(obj.get("sentences",[]))
			
 
				+
			
 
				+        return list_sentence
			
 
				+
			
 
				+
			
 
				+    def extract_kvs_from_table(self,list_pattern,tree=None,result_kv=None):
			
 
				+        if result_kv is None:
			
 
				+            result_kv = [[] for i in list_pattern]
			
 
				+            try:
			
 
				+                for pattern in list_pattern:
			
 
				+                    re.compile(pattern)
			
 
				+            except Exception as e:
			
 
				+                log("list_pattern error: "+str(e))
			
 
				+                return result_kv
			
 
				+        if tree is None:
			
 
				+            tree = self.tree
			
 
				+        for obj in tree:
			
 
				+            is_table = True if obj.get("tag","")=="table" else False
			
 
				+            if is_table:
			
 
				+
			
 
				+                table_id = obj.get("table_id")
			
 
				+                list_kv = obj.get("kv")
			
 
				+                for _pi in range(len(list_pattern)):
			
 
				+                    table_kvs = []
			
 
				+                    for _d0 in list_kv:
			
 
				+                        _k = _d0.get("key","")
			
 
				+                        _v = _d0.get("value","")
			
 
				+                        _d = {"key":_k,"value":_v,"position":_d0.get("position",{})}
			
 
				+                        if re.search(list_pattern[_pi],_k) is not None:
			
 
				+                            table_kvs.append(_d)
			
 
				+                    if table_kvs:
			
 
				+                        result_kv[_pi].append({"table_id":table_id,"kv":table_kvs})
			
 
				+                childs = obj.get("children",[])
			
 
				+                for child in childs:
			
 
				+                    self.extract_kvs_from_table(list_pattern,child,result_kv)
			
 
				+        return result_kv
			
 
				+
			
 
				+    def extract_kvs_from_sentence(self,list_pattern,tree=None,result_kv=None):
			
 
				+        if result_kv is None:
			
 
				+            result_kv = [[] for i in list_pattern]
			
 
				+            try:
			
 
				+                for pattern in list_pattern:
			
 
				+                    re.compile(pattern)
			
 
				+            except Exception as e:
			
 
				+                log("list_pattern error: "+str(e))
			
 
				+                return result_kv
			
 
				+        if tree is None:
			
 
				+            tree = self.tree
			
 
				+        for obj in tree:
			
 
				+            is_table = True if obj.get("tag","")=="table" else False
			
 
				+            if not is_table:
			
 
				+                list_kv = obj.get("kv",[])
			
 
				+                for _pi in range(len(list_pattern)):
			
 
				+                    for _d in list_kv:
			
 
				+                        _k = _d.get("key","")
			
 
				+                        _v = _d.get("value","")
			
 
				+                        if re.search(list_pattern[_pi],_k) is not None:
			
 
				+                            result_kv[_pi].append(_d)
			
 
				+        return result_kv
			
 
				+
			
 
				+    def extract_kvs_from_outline(self,list_pattern,tree=None,result_kv=None):
			
 
				+        if result_kv is None:
			
 
				+            result_kv = [[] for i in list_pattern]
			
 
				+            try:
			
 
				+                for pattern in list_pattern:
			
 
				+                    re.compile(pattern)
			
 
				+            except Exception as e:
			
 
				+                log("list_pattern error: "+str(e))
			
 
				+                return result_kv
			
 
				+        if tree is None:
			
 
				+            tree = self.tree
			
 
				+        for obj in tree:
			
 
				+            is_table = True if obj.get("tag","")=="table" else False
			
 
				+            if not is_table:
			
 
				+
			
 
				+                _text = obj["text"]
			
 
				+
			
 
				+                for _pi in range(len(list_pattern)):
			
 
				+
			
 
				+                    sentence_index_from = obj["sentence_index"]
			
 
				+                    sentence_index_to = sentence_index_from
			
 
				+
			
 
				+                    if re.search(list_pattern[_pi],_text) is not None and obj.get("sentence_title") is not None:
			
 
				+
			
 
				+                        childs = get_childs([obj])
			
 
				+                        _child_text = ""
			
 
				+                        for _child in childs:
			
 
				+                            sentence_index_to = _child["sentence_index"]
			
 
				+                            _child_text+=_child["text"]+"\n"
			
 
				+                        result_kv[_pi].append({"key":_text,"value":_child_text,"from_outline":True,"key_sentence_index_from":sentence_index_from,
			
 
				+                                          "key_sentence_index_to":sentence_index_from,"value_sentence_index_from":sentence_index_from,
			
 
				+                                          "value_sentence_index_to":sentence_index_to,})
			
 
				+        return result_kv
			
 
				+
			
 
				+
			
 
				+    def extract_kv(self,k_pattern,from_sentence=True,from_outline=True,from_table=True):
			
 
				+        result_kv = []
			
 
				+        try:
			
 
				+            re.compile(k_pattern)
			
 
				+        except Exception as e:
			
 
				+            log("k_pattern error: "+str(e))
			
 
				+            traceback.print_exc()
			
 
				+            return result_kv
			
 
				+        result_kv = []
			
 
				+        if from_table:
			
 
				+            result_kv_table = self.extract_kvs_from_table([k_pattern])
			
 
				+            for table_d in result_kv_table[0]:
			
 
				+                table_id = table_d.get("table_id")
			
 
				+                table_kvs = table_d.get("kv",[])
			
 
				+                for _d in table_kvs:
			
 
				+                    _d["from_table"] = True
			
 
				+                result_kv.extend(table_kvs)
			
 
				+        if from_sentence:
			
 
				+            result_kv_sentence = self.extract_kvs_from_sentence([k_pattern])
			
 
				+            for _d in result_kv_sentence[0]:
			
 
				+                _d["from_sentence"] = True
			
 
				+            result_kv.extend(result_kv_sentence[0])
			
 
				+        if from_outline:
			
 
				+            result_kv_outline = self.extract_kvs_from_outline([k_pattern])
			
 
				+            for _d in result_kv_outline[0]:
			
 
				+                _d["from_outline"] = True
			
 
				+            result_kv.extend(result_kv_outline[0])
			
 
				+
			
 
				+        return result_kv
			
 
				+
			
 
				+    # def extract_kvs_from_table(self,list_pattern):
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    # HTML 文本
			
 
				+    html_content = """
			
 
				+<div>
			
 
				+<div>
			
 
				+   工程造价咨询 
			
 
				+ </div>
			
 
				+<div>
			
 
				+<div>
			
 
				+    关于为【意溪镇四宁村农村人居环境及村道整治提升项目-前期费用结算审核】公开选取【工程造价咨询】机构的公告 
			
 
				+  </div>
			
 
				+</div>
			
 
				+<div>
			
 
				+<p> 2024-12-24 17:30 ，在广东省网上中介服务超市为<a target="_blank" class="markBlue" href="/bdqyhx/216515788655505408.html" style="color: #3083EB !important;text-decoration: underline;">潮州市湘桥区意溪镇四宁村民委员会</a> 公开选取工程造价咨询中介服务机构，现将相关事项公告如下： </p>
			
 
				+<p>此项目采用多选一的直接选取方式，项目业主将在报名的若干家中介机构中，自主选定一家作为中选机构，未被选中的机构不应有任何异议。</p>
			
 
				+<ul>
			
 
				+<li> <b>项目业主</b>
			
 
				+<div data-purorgcode="G19187326" data-tyshxydm="54445102G191873262">
			
 
				+      <a target="_blank" class="markBlue" href="/bdqyhx/216515788655505408.html" style="color: #3083EB !important;text-decoration: underline;">潮州市湘桥区意溪镇四宁村民委员会</a> 
			
 
				+    </div> </li>
			
 
				+<li> <b>采购项目名称</b>
			
 
				+<div data-divisioncode="445100">
			
 
				+      意溪镇四宁村农村人居环境及村道整治提升项目-前期费用结算审核 
			
 
				+    </div> </li>
			
 
				+<li> <b>中介服务事项</b>
			
 
				+<div data-servicesubjectcode="">
			
 
				+      无（属于非行政管理的中介服务项目采购） 
			
 
				+    </div> </li>
			
 
				+<li> <b>投资审批项目</b>
			
 
				+<div>
			
 
				+      否 
			
 
				+    </div> </li>
			
 
				+<li> <b>采购项目编码</b>
			
 
				+<div>
			
 
				+      445100G191873262412200638 
			
 
				+    </div> </li>
			
 
				+<li> <b>项目规模</b>
			
 
				+<div data-restrictionsforehead="1500000.0" data-restrictionsforeheadtype="amountInvested">
			
 
				+<p>投资额（￥1,500,000.00元）</p>
			
 
				+</div> </li>
			
 
				+<li> <b>所需服务</b>
			
 
				+<div>
			
 
				+      工程造价咨询 
			
 
				+    </div> </li>
			
 
				+<li> <b>服务内容</b>
			
 
				+<div>
			
 
				+      本次工程为意溪镇四宁村农村人居环境及村道整治提升项目，位于潮州市湘桥区意溪镇四宁村，投资额为1500000.00元，建设内容包括路面便底化约800平方米，黑底化约2150平方米，新安装太阳能路灯14盏等，现已竣工验收完成，根据业主要求，对本项目进行前期费用结算审核（概算编制费2571.86元，施工图审查费5024.5元，设计费54700元，预算编制费5315.66元，工程监理费35275.46元，工程测绘费22634.89元，建设方案编制费10500元），并出具前期费用结算审核报告及定案表。 
			
 
				+    </div> </li>
			
 
				+<li> <b>中介机构要求</b>
			
 
				+<div>
			
 
				+      仅承诺服务即可 
			
 
				+    </div> </li>
			
 
				+<li> <b>其他要求说明：</b>
			
 
				+<div>
			
 
				+      无 
			
 
				+    </div> </li>
			
 
				+<li> <b>服务时限说明</b>
			
 
				+<div>
			
 
				+      无要求，按合同约定。 
			
 
				+    </div> </li>
			
 
				+<li> <b>服务金额</b>
			
 
				+<div data-biddingmode="" data-highprice="" data-lowprice="1600.0">
			
 
				+      ￥1,600.00元 
			
 
				+    </div> </li>
			
 
				+<li> <b>金额说明</b>
			
 
				+<div>
			
 
				+      按广东省物价局关于调整我省建设工程造价咨询服务收费的复函（粤价函[2011]742号）规定的造价咨询行业收费标准，最终价格以财政审核或第三方工程造价公司审核价为准。 
			
 
				+    </div> </li>
			
 
				+<li> <b>选取中介服务机构方式</b>
			
 
				+<div data-selectmodetype="DXYZJXQ">
			
 
				+      直接选取 
			
 
				+    </div> </li>
			
 
				+<li> <b>是否选取中介</b>
			
 
				+<div>
			
 
				+      否 
			
 
				+    </div> </li>
			
 
				+<li> <b>有无回避情况</b>
			
 
				+<div>
			
 
				+      否 
			
 
				+    </div> </li>
			
 
				+<li> <b> 截止报名时间 </b>
			
 
				+<div>
			
 
				+      2024-12-24 17:30 
			
 
				+    </div> </li>
			
 
				+<li> <b>业主单位咨询电话</b>
			
 
				+<div>
			
 
				+      <a target="_blank" class="markBlue" href="/bdqyhx/216515788655505408.html" style="color: #3083EB !important;text-decoration: underline;">潮州市湘桥区意溪镇四宁村民委员会</a> （登录后查看） 
			
 
				+    </div> </li>
			
 
				+<li> <b>采购需求书下载</b>
			
 
				+<div>
			
 
				+<a target="_blank" class="markBlue" filelink="277a2f13e4a4d41149766c82adfc8762" href="https://attachment-hub.oss-cn-hangzhou.aliyuncs.com/277a/20230710/2023-07-10/04733/1688982497468.jpg?Expires=1734688561&amp;OSSAccessKeyId=LTAI5tHoEUDSy6FnZjMKsNiZ&amp;Signature=G3SAJQuJlYZ5lOpHNc%2BWHspfDpE%3D" original="https://ygp.gdzwfw.gov.cn/zjfwcs/gd-zjcs-pub/file/downloadfile/PjAttachment/7618f614-ae9c-48cc-97f7-17ffd05d4200" rel="noreferrer">资金说明1.jpg</a>
			
 
				+<br>
			
 
				+<a target="_blank" class="markBlue" filelink="3e3795ea0244f1b4cc77123512edd30a" href="https://attachment-hub.oss-cn-hangzhou.aliyuncs.com/3e37/20230710/2023-07-10/04733/1688982505603.jpg?Expires=1734688561&amp;OSSAccessKeyId=LTAI5tHoEUDSy6FnZjMKsNiZ&amp;Signature=ZP8xdy%2F1a%2Blbb%2FOAhFyzjpadprg%3D" original="https://ygp.gdzwfw.gov.cn/zjfwcs/gd-zjcs-pub/file/downloadfile/PjAttachment/beb5d765-4ce3-471f-a290-14a12d9ad64e" rel="noreferrer">资金说明2.jpg</a>
			
 
				+<br>
			
 
				+</div> </li>
			
 
				+</ul>
			
 
				+</div>
			
 
				+<p> 广东省网上中介服务超市已经向符合资质条件的在库中介服务机构的业务授权人手机号码和中介专属网页发送通知，诚邀符合资质条件的在库中介服务机构登录中介专属网页进行报名。 </p>
			
 
				+<p><span>潮州市公共资源交易中心</span><br> <span>2024-12-20</span></p>
			
 
				+</div>
			
 
				+    """
			
 
				+    _tree = html_to_tree(html_content)
			
 
				+
			
 
				+
			
 
				+    _pd = Html2KVTree(html_content)
			
 
				+    _pd.print_tree(_pd.tree,"-|")
			
 
				+
			
 
				+    list_kv = _pd.extract_kv("资质要求")
			
 
				+    print(list_kv)
			
 
				+
			
 
				+    #获取预处理后的所有句子，该句子与kv值对应
			
 
				+    print(_pd.get_tree_sentence())
			
 
				+
			
 
				+    # soup = BeautifulSoup(html_content,"lxml")
			
 
				+    # table_tree = table_to_tree(soup)
			
 
				+    # print(json.dumps(table_tree,ensure_ascii=False))
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
--- a/BiddingKG/dl/interface/htmlparser.py
+++ b/BiddingKG/dl/interface/htmlparser.py
@@ -297,7 +297,7 @@ class ParseDocument():
 
				                 if v is not None:
			
 
				                     groups.append((k,v))
			
 
				         if len(groups):
			
 
				-            # groups.sort(key=lambda x:x[0])
			
 
				+            groups.sort(key=lambda x:x[0])
			
 
				             return groups
			
 
				         return None
			
 
				 
			
--- a/BiddingKG/dl/interface/outline_extractor.py
+++ b/BiddingKG/dl/interface/outline_extractor.py
@@ -60,7 +60,7 @@ requirement_pattern = "(采购需求|需求分析|项目说明|(采购|合同|
 
				 aptitude_pattern = "((资格|资质)[的及]?(要求|条件)|竞买资格及要求|供应商报价须知)([:：，]|$)|(竞买|竞买人|竞投人)?资格(条件)?：|按以下要求参与竞买|(报名|竞买)(条件|资格)"
			
 
				 addr_bidopen_pattern = "([开评]标|开启|评选|比选|磋商|遴选|寻源|采购|招标|竞价|议价|委托|询比?价|比价|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选|递交\w{,4}文件)[)）]?(时间[与及和、])?(地址|地点)([与及和、]时间)?([:：，]|$)|开启([:：，]|$)"
			
 
				 addr_bidsend_pattern = "((\w{,4}文件)?(提交|递交)(\w{,4}文件)?|投标)(截止时间[与及和、])?地[点址]([与及和、]截止时间)?([:：，]|$)"
			
 
				-pinmu_name_pattern = "采购品目名称([:：，]|$)"
			
 
				+pinmu_name_pattern = "采购品目(名称)?([:：，]|$)"
			
 
				 out_lines = []
			
 
				 policy_pattern = "《.+?(通知|办法|条例|规定|规程|规范|须知|规则|标准|细则|意见|协议|条件|要求|手册|法典|方案|指南|指引|法)》"
			
 
				 not_policy_pattern = "(表|函|书|证|\d页|公告|合同|文件|清单)》$|采购合同|响应方须知|响应文件格式|营业执照|开标一览|采购需求"
			
--- a/BiddingKG/dl/interface/predictor.py
+++ b/BiddingKG/dl/interface/predictor.py
@@ -1474,7 +1474,7 @@ class RoleRulePredictor():
 
				                "|(选定单位|指定的中介服务机构|实施主体|中标银行|中标通知书，致|征集结果|选择中介|选择结果|成交对象|勘察人|(，|审计|处置|勘察|设计)服务单位|受托[人方])[：:是为]+$" \
			
 
				                "|((评审结果|名次|排名|中标结果)[:：]*第?[一1]名?)[：:是为]+$|成交供应商信息[，：]?(序号1)?：?|供应商名称$|竞争性选择申请人名称：$" \
			
 
				                "|单一来源(采购)?(供应商|供货商|服务商|方式向)$|((中标|成交)(结果|信息))[：:是为]+$|(中标|成交)供应商、(中标|成交)(金额|价格)，$" \
			
 
				-               "|现(公布|宣布|公示)中标单位如下：$|现将中标单位(公布|公示)如下：$|现宣布以下(企业|单位|公司)中标：$|经讨论，决定采用$)"  # 承办单位：不作为中标 83914772  |施工 单位不作为中标人 例：386692187
			
 
				+               "|现(公布|宣布|公示)中标单位如下：$|现将中标单位(公布|公示)如下：$|现宣布以下(企业|单位|公司)中标：$|经讨论，决定采用$|第\d+(包件?|标段?)(中标|中选|成交)候选人：$)"  # 承办单位：不作为中标 83914772  |施工 单位不作为中标人 例：386692187
			
 
				         self.pattern_winTenderer_left_60 = "(?P<winTenderer_left_60>" \
			
 
				                                            "(，|。|：|^)((中标(投标)?|[拟预]中标|中选|中价|中签|成交)(人|单位|机构|中介(服务)?机构|供应商|客户|方|公司|企业|厂商|商家?|社会资本方?|银行)|(中标候选人)?第?[一1]名|第[一1](中标|中选|成交)?候选人|服务机构)" \
			
 
				                                            "(：?单位名称|：?名称|盖章)?[,，]?([(（]按综合排名排序[)）]|：择优选取)?[：:,，]$|选取(情况|说明)：中选，中介机构名称：$|排名如下：1、$|第[一1]名，?投标(人|单位|银行|公司)：$)"  # 解决表头识别不到加逗号情况，需前面为，。空 20240621补充 中选 云南省投资审批中介超市 补充排名如下 南阳师范学院
			
@@ -3609,6 +3609,8 @@ class ProductAttributesPredictor():
 
				                                 # print('产品拆分：', len(products),len(quantitys) , len(unitPrices),len(brands),len(specses))
			
 
				                                 if len(products) == len(quantitys) == len(unitPrices) == len(brands) == len(specses):
			
 
				                                     for product, quantity, unitPrice, brand, specs, total_price, parameter in zip(products,quantitys,unitPrices, brands, specses, total_prices, parameters):
			
 
				+                                        if product.strip() == '': # 20241219修复 572876124 最后一个符号分割产品所有要素为空问题
			
 
				+                                            continue
			
 
				                                         if quantity != "":
			
 
				                                             quantity, quantity_unit_ = self.fix_quantity(quantity, header_quan_unit)
			
 
				                                             quantity_unit = quantity_unit_ if quantity_unit_ != "" else quantity_unit
			
@@ -4128,14 +4130,14 @@ class DocChannel():
 
				           '土地矿产': '供地结果|(土地|用地|宗地|地块|海域|矿)的?(基本信息|基本情况|概况|信息|详情|来源|用途|性质|编号|位置|坐落|使用年限|出让年限)|(土地|山地|农田)(经营权)?(出让|出租|招租|租赁|承包|流转)|流转土地',
			
 
				           '拍卖出让': '(拍卖|变卖|流拍|竞拍)的?(公告|活动|信息|结果|成交|主体|标的|资产|财产|方式|类型|流程|程序|规则|价格|保证金|时间)|(公开|进行|密封)(拍卖|变卖|竞拍)|第[一二三]次拍卖|(资产|司法|网络)拍卖|交易方式.{,2}拍卖|拍卖会',
			
 
				           '产权交易': '(产权|资产|权证)的?(类型|类别|用途|性质|状态|信息|名称|编号|(基本)?情况)|(经营权|承包权|使用权|租赁权|股权|债权|排污权|化学需氧量|储备量)(挂牌|转让|出让)|竞价销售|销售结果|房屋所有权房产|免租期限|交易期限|(受让|转让|承租|出租)(人|方)|(店面|店铺|商铺|铺位?|门面|门市|食堂|饭堂|校舍|车位|停车场|厂?房|仓?库|馆|资产|物业|房产|房屋|场地|农田|鱼?塘)\w{,4}(处置|招租|出租|续租|租赁|转让)|(出租|转让|产权|资产)(项目|中标|成交|流标|废标)|出租(用途|类型)|转让底价|租赁(标的物|情况)|看[样货](时间|地[点址]|方式|仓库|验货)|最小加价|加价[幅梯]度|交易模式[：:\s]*延时竞价销售|挂牌(开始|结束)时间',
			
 
				-          '采招数据': '(采购|招标)(条件|范围|文件|内容)|(申请人|投标人|供应商|报价人|参选人)的?资格要求；|采购需求清单|最低价排序|竞争性采购方式|采购进行公开竞价|竞价模式[:：\s]*一次报价|预算金额'  # |变更|答疑|澄清|中标|成交|合同|废标|流标 |(采购|招标|代理)(人|机构|单位)|
			
 
				+          '采招数据': '(采购|招标)(条件|范围|文件|内容)|(申请人|投标人|供应商|报价人|参选人)的?资格要求；|采购需求清单|最低价排序|竞争性采购方式|采购进行公开竞价|竞价模式[:：\s]*一次报价|预算金额|代理银行资格选定'  # |变更|答疑|澄清|中标|成交|合同|废标|流标 |(采购|招标|代理)(人|机构|单位)|
			
 
				       }
			
 
				 
			
 
				       self.title_type_dic = {
			
 
				           '土地矿产': '(土地|用地|宗地|荒地|山地|海域|矿)(出让|出租|招租|租赁|承包|流转|使用权|经营权|征收|划拨|中标|成交)|供地结果|矿业权|探矿权|采矿权|(土地|用地|宗地|地块)(使用权)?(终止|中止|网上)?(挂牌|出让|拍卖|招拍|划拨)|征收土地',
			
 
				           '拍卖出让': '(拍卖|变卖|流拍|竞拍)的?(公告|公示)|拍卖|变卖|流拍|竞拍',
			
 
				           '产权交易': '经营权|承包权|使用权|租赁权|股权|债权|排污权|化学需氧量|储备量|竞价销售|销售结果|出租|招租|拍租|竞租|续租|挂牌|出让',
			
 
				-          '采招数据': '(采购|招标|询价|议价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|征询|调研)的?(公告|公示|中标|成交|结果|$)|工程招标|定点服务|(设备|服务|\w{2})[直采]购|(建设|改造)项目|工程|拦标价|控制价',
			
 
				+          '采招数据': '(采购|招标|询价|议价|比价|比选|遴选|邀请|邀标|磋商|洽谈|约谈|谈判|征询|调研)的?(公告|公示|中标|成交|结果|$)|工程招标|定点服务|(设备|服务|\w{2})[直采]购|(建设|改造)项目|工程|拦标价|控制价|银行|资格选定|资金|公款|存款|存放|现金管理|招募|入围|入库',
			
 
				           # |竞价 采招/产权都有竞价方式 # 意向|需求|预公?告|报建|总承包|工程|施工|设计|勘察|代理|监理 |变更|答疑|澄清|中标|成交|合同|废标|流标
			
 
				           '新闻资讯': '(考试|面试|笔试)成绩|成绩的?(公告|公示|公布)|公开招聘|招聘(公告|简章|启事|合同制)|疫情防控\s{,5}(通知|情况|提示)|行政审批结果'
			
 
				       }
			
@@ -5811,7 +5813,7 @@ class DistrictPredictor():
 
				         with open(os.path.dirname(__file__) + "/area_variance_dic.pkl", 'rb') as f: # 20241113 地区变更新旧名称对照字典
			
 
				             self.area_variance_dic = pickle.load(f)
			
 
				 
			
 
				-    def predict_area(self, title, ree, addr, web_source_name):
			
 
				+    def predict_area(self, title, content, web_source_name, prem={}, addr_dic={}):
			
 
				         p_pro, p_city, p_dis, idx_dic, full_dic, short_dic = self.p_pro, self.p_city, self.p_dis, self.idx_dic, self.full_dic, self.short_dic
			
 
				 
			
 
				         def find_whole_areas(text, weight=1):
			
@@ -5823,8 +5825,9 @@ class DistrictPredictor():
 
				             '''
			
 
				             province_l, city_l, district_l = [], [], []
			
 
				 
			
 
				-            text = str(text)
			
 
				-            text = re.sub('复合肥|海南岛|兴业银行|双河口|阳光|杭州湾|新城区|中粮屯河|老城(区|改造|更新|升级|翻新)|沙县小吃|北京时间|福田汽车|中山(大学|公园|纪念堂)|孙中山|海天水泥|阳光采购|示范县',
			
 
				+            text = str(text).replace('(', '（').replace(')', '）')
			
 
				+            text = re.sub('\d{2,4}年度?|[\d/-]{1,5}[月日]|\d+|[a-zA-Z0-9]+', ' ', text)
			
 
				+            text = re.sub('复合肥|海南岛|兴业银行|双河口|阳光|杭州湾|新城区|中粮屯河|老城(区|改造|更新|升级|翻新)|沙县小吃|北京时间|福田汽车|中山(大学|公园|纪念堂)|孙中山|海天水泥|阳光采购|示范县|珠江城',
			
 
				                           ' ', text)  # 544151395 赤壁市老城区燃气管道老化更新改造
			
 
				             text = re.sub('珠海城市', '珠海', text)  # 修复 426624023 珠海城市 预测为海城市
			
 
				             text = re.sub('怒江州', '怒江傈僳族自治州', text)  # 修复 423589589  所属地域：怒江州 识别为广西 - 崇左 - 江州
			
@@ -5836,6 +5839,7 @@ class DistrictPredictor():
 
				                 text = text.replace(ser.group(0), ser.group(0) + '黎族')
			
 
				             for k, v in self.area_variance_dic.items():  # 20241113 根据地区变更信息替换文本
			
 
				                 text = text.replace(k, v)
			
 
				+            text = re.sub('\s+', '', text)
			
 
				 
			
 
				             if re.search('[\u4e00-\u9fa5]', text) == None:
			
 
				                 return province_l, city_l, district_l
			
@@ -5858,8 +5862,8 @@ class DistrictPredictor():
 
				                                 score = 2
			
 
				                             else:
			
 
				                                 score = 1
			
 
				-                                if it.start(k)==0 or re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站)'
			
 
				-                                        , text[it.end(k):]) or (it.start(k)>0 and it.end(k)<len(text) and text[it.start(k)-1]=='（' and text[it.end(k)]=='）'):
			
 
				+                                if re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站)'
			
 
				+                                        , text[it.end(k):]) or re.search('^(（%s）|\-%s)'%(v, v), text[max(0, it.start(k)-1):]):
			
 
				                                     score += 1
			
 
				                             score += it.end(k) / len(text) / 10
			
 
				                             province_l.append((v, score * weight))
			
@@ -5868,8 +5872,8 @@ class DistrictPredictor():
 
				                                 score = 2
			
 
				                             else:
			
 
				                                 score = 1
			
 
				-                                if it.start(k)==0 or re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站)'
			
 
				-                                        , text[it.end(k):]) or (it.start(k)>0 and it.end(k)<len(text) and text[it.start(k)-1]=='（' and text[it.end(k)]=='）'):
			
 
				+                                if re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站)'
			
 
				+                                        , text[it.end(k):]) or re.search('^(（%s）|\-%s)'%(v, v), text[max(0, it.start(k)-1):]):
			
 
				                                     score += 1
			
 
				                             score += it.end(k) / len(text) / 10
			
 
				                             city_l.append((v, score * weight))
			
@@ -5880,11 +5884,11 @@ class DistrictPredictor():
 
				                                 score = 2
			
 
				                             else:
			
 
				                                 score = 0.5
			
 
				-                                if it.start(k)==0 or re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站)'
			
 
				-                                        , text[it.end(k):]) or (it.start(k)>0 and it.end(k)<len(text) and text[it.start(k)-1]=='（' and text[it.end(k)]=='）'):
			
 
				-                                    score += 1
			
 
				-                                    # print('县区加分：', v, text)
			
 
				-                            score += it.end(k) / len(text) / 10
			
 
				+                                if re.search('^(\w{,2}[分支](公司|局|行|校|院|干?线)|校区|\w{,3}段|地铁|(火车|高铁)?站)'
			
 
				+                                        , text[it.end(k):]) or (re.match('\s*%s'%v, text) and it.start(k)<2) or re.search(
			
 
				+                                    '^(（%s）|\-%s)'%(v, v), text[max(0, it.start(k)-1):]):
			
 
				+                                    score += 0.5
			
 
				+                            # score += it.end(k) / len(text) / 10
			
 
				                             if v == '昌江' and '景德镇' not in it.group(0):
			
 
				                                 district_l.append(('昌江黎族', score * weight))
			
 
				                             else:
			
@@ -5964,7 +5968,7 @@ class DistrictPredictor():
 
				                             dis_ids[idx] = 0
			
 
				                         dis_ids[idx] += score
			
 
				                         pro_idx = idx_dic[idx]['省']
			
 
				-                        if filter_short_dist and pro_idx not in pro_ids:
			
 
				+                        if filter_short_dist and score < 1: # pro_idx not in pro_ids
			
 
				                             continue
			
 
				                         if pro_idx in tmp_pro:
			
 
				                             tmp_pro[pro_idx] += score
			
@@ -6042,7 +6046,7 @@ class DistrictPredictor():
 
				             tenderee = ""
			
 
				             tenderee_address = ""
			
 
				             try:
			
 
				-                for v in prem[0]['prem'].values():
			
 
				+                for v in prem.values():
			
 
				                     for link in v['roleList']:
			
 
				                         if link['role_name'] == 'tenderee' and tenderee == "":
			
 
				                             tenderee = link['role_text']
			
@@ -6068,23 +6072,6 @@ class DistrictPredictor():
 
				             else:
			
 
				                 return ''
			
 
				 
			
 
				-        def get_project_addr(text):
			
 
				-            p1 = '(项目|施工|实施|建设|工程|服务|交货|送货|收货|展示|看样|拍卖)(地址|地点|位置|所在地区?)(位于)?：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+([\w（）]{,20}[，。])?|\w{2,15}[，。])'
			
 
				-            p2 = '项目位于(?P<addr>\w{2}市\w{2,4}区)'
			
 
				-            if re.search(p1, text):
			
 
				-                return re.search(p1, text).group('addr')
			
 
				-            elif re.search(p2, text):
			
 
				-                return re.search(p2, text).group('addr')
			
 
				-            else:
			
 
				-                return ''
			
 
				-
			
 
				-        def get_bid_addr(text):
			
 
				-            p2 = '(磋商|谈判|开标|投标|评标|报名|递交|评审|发售|所属)(地址|地点|所在地区?|地域)：(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
			
 
				-            if re.search(p2, text):
			
 
				-                return re.search(p2, text).group('addr')
			
 
				-            else:
			
 
				-                return ''
			
 
				-
			
 
				         def get_all_addr(list_entitys):
			
 
				             tenderee_l = []
			
 
				             addr_l = []
			
@@ -6096,20 +6083,24 @@ class DistrictPredictor():
 
				                         tenderee_l.append(ent.entity_text)
			
 
				             return ' '.join(addr_l), ' '.join(tenderee_l)
			
 
				 
			
 
				-        def get_title_addr(text):
			
 
				-            p1 = '(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[，。])'
			
 
				-            if re.search(p1, text):
			
 
				-                return re.search(p1, text).group('addr')
			
 
				-            else:
			
 
				-                return ''
			
 
				-
			
 
				         area_dic = {'area': '全国', 'province': '全国', 'city': '未知', 'district': '未知', "is_in_text": False}
			
 
				-        province_l, city_l, district_l = find_whole_areas(title)
			
 
				+        addr_project = addr_dic.get('addr_project', '')
			
 
				+        addr_delivery = addr_dic.get('addr_delivery', '')
			
 
				+        addr_bidopen = addr_dic.get('addr_bidopen', '')
			
 
				+        addr_bidsend = addr_dic.get('addr_bidsend', '')
			
 
				+        province_l, city_l, district_l = find_whole_areas('%s %s %s'%(title, addr_delivery, addr_project))
			
 
				         pro_ids, city_ids, dis_ids = merge_score(province_l, city_l, district_l)
			
 
				         big_area, pred_pro, pred_city, pred_dis, prob, max_score = get_final_addr(pro_ids, city_ids, dis_ids)
			
 
				         # print('关键词1：', province_l, city_l, district_l)
			
 
				         # print('分数：', pro_ids, city_ids, dis_ids, prob, max_score)
			
 
				         if pred_city == "" or prob < 0.7 or max_score<2:
			
 
				+            ree, addr = get_ree_addr(prem)
			
 
				+            rule_ree_addr = get_role_address(content)
			
 
				+            if rule_ree_addr:
			
 
				+                addr = rule_ree_addr
			
 
				+
			
 
				+            # addr = content
			
 
				+            # ree = ''
			
 
				             province_l2, city_l2, district_l2 = find_whole_areas('%s %s' % (ree, addr), weight=0.8)
			
 
				             province_l.extend(province_l2)
			
 
				             city_l.extend(city_l2)
			
@@ -6119,7 +6110,7 @@ class DistrictPredictor():
 
				             # print('关键词2：', province_l, city_l, district_l)
			
 
				             # print('分数：', pro_ids, city_ids, dis_ids, prob, max_score)
			
 
				             if pred_city == "" or prob < 0.7 or max_score<2:
			
 
				-                province_l3, city_l3, district_l3 = find_whole_areas(web_source_name, weight=0.6)
			
 
				+                province_l3, city_l3, district_l3 = find_whole_areas('%s %s %s'%(web_source_name, addr_bidopen, addr_bidsend), weight=0.6)
			
 
				                 province_l.extend(province_l3)
			
 
				                 city_l.extend(city_l3)
			
 
				                 district_l.extend(district_l3)
			
@@ -6588,7 +6579,7 @@ class DistrictPredictor():
 
				 
			
 
				 class TableTag2List():
			
 
				     '''把soup table 转化为表格补全后的文本列表[[td, td, td], [td, td, td]]'''
			
 
				-    def table2list(self, table, text_process=None, return_html_table=False):
			
 
				+    def table2list(self, table, text_process=None, return_html_table=False,return_kv=False):
			
 
				         self._output = []
			
 
				         row_ind = 0
			
 
				         col_ind = 0
			
@@ -6631,14 +6622,23 @@ class TableTag2List():
 
				                             if 'title' in cell.attrs and cell.get_text().strip().endswith('...') and cell.get_text().strip()[:-3] in cell.attrs['title']:
			
 
				                                 td_text = cell.attrs['title']  # 修复 类似 215597851 省略号隐藏内容
			
 
				                             elif len(td_text)>30:
			
 
				-                                td_text = re.sub('\xa0', '', text_process(cell, final=False))
			
 
				+                                if return_kv:
			
 
				+                                    td_text = cell.get_text()
			
 
				+                                else:
			
 
				+                                    td_text = re.sub('\xa0', '', text_process(cell, final=False))
			
 
				                             if td_text == "":
			
 
				                                 td_text = ' '
			
 
				                             text = [td_text,0]
			
 
				                         else:
			
 
				-                            text = str(cell.get_text()).strip().replace("\x06", "").replace("\x05", "").replace("\x07", "").replace('\\', '').replace("(", "（").replace(')', '）').replace('?', '')
			
 
				-                            # text = re.sub('\s', '', text)[:200] # 只需取前200字即可
			
 
				-                            text = ' ' if text == "" else text
			
 
				+                            if return_kv:
			
 
				+                                td_text = cell.get_text()
			
 
				+                            else:
			
 
				+                                td_text = str(cell.get_text()).strip().replace("\x06", "").replace("\x05", "").replace("\x07", "").replace('\\', '').replace("(", "（").replace(')', '）').replace('?', '')
			
 
				+                            text = td_text
			
 
				+
			
 
				+                            # text = str(cell.get_text()).strip().replace("\x06", "").replace("\x05", "").replace("\x07", "").replace('\\', '').replace("(", "（").replace(')', '）').replace('?', '')
			
 
				+                            # # text = re.sub('\s', '', text)[:200] # 只需取前200字即可
			
 
				+                            # text = ' ' if text == "" else text
			
 
				 
			
 
				                         self._insert(row_ind, col_ind, row_span, col_span, text)
			
 
				                         if return_html_table:
			
@@ -7846,6 +7846,7 @@ class ApprovalPredictor():
 
				         found_key = 0
			
 
				         code_name_set = set() # 项目编号、名称集合
			
 
				         org_set = set() # 保存可能为审批部门的角色
			
 
				+        not_sure_role = '' # 不确定角色， 例：单位名称：长沙驰能新能源开发有限公司眉县分公司
			
 
				         for entity in list_entitys[0]:
			
 
				             entities[entity.sentence_index].append(entity)
			
 
				 
			
@@ -7871,6 +7872,10 @@ class ApprovalPredictor():
 
				                         multi_project[k] = entity.entity_text
			
 
				                         found_key = 1
			
 
				                         flag = 0
			
 
				+                        if not_sure_role == entity.entity_text:
			
 
				+                            not_sure_role = ''
			
 
				+                    elif re.search('(，|^)单位名称：', sentences[entity.sentence_index][max(0, b - span):b]):
			
 
				+                        not_sure_role = entity.entity_text
			
 
				                     if flag and entity.entity_type == "org" and re.search('(局|委员会|委|厅)$', entity.entity_text):
			
 
				                         org_set.add(entity.entity_text)
			
 
				                 elif entity.entity_type in ['person']:
			
@@ -7980,7 +7985,14 @@ class ApprovalPredictor():
 
				                     multi_project['district'] = district['district']['district']
			
 
				                 multi_project = {k: v for k, v in multi_project.items() if v != ''}
			
 
				                 rs_l.append(multi_project)
			
 
				+        if not_sure_role != '' and rs_dic.get('construct_company', '') == '' and not_sure_role not in org_set: # 补充，单位名称：这种作为建设单位 例：400069851014
			
 
				+            rs_dic['construct_company'] = not_sure_role
			
 
				         if len(rs_l)>1 and len(set(rs_l[0].keys()))>2 and set(rs_l[0].keys())==set(rs_l[1].keys()):
			
 
				+            for k in self.role_type.keys(): # 多项目无建设单位等通过整篇提取补充
			
 
				+                if rs_dic.get(k, '') != '' and k not in rs_l[0].get(k, '') == '':
			
 
				+                    for d in rs_l:
			
 
				+                        if d.get(k, '') == '':
			
 
				+                            d[k] = rs_dic[k]
			
 
				             return rs_l
			
 
				         elif found_key == 1:
			
 
				             district = getPredictor('district').get_area(
			
@@ -8031,6 +8043,27 @@ class ApprovalPredictor():
 
				             return [rs_dic]
			
 
				         return []
			
 
				 
			
 
				+    def add_ree2approval(self, approval, prem):
			
 
				+        '''
			
 
				+        把招标人补充到审批项目建设单位
			
 
				+        :param approval:
			
 
				+        :param prem:
			
 
				+        :return:
			
 
				+        '''
			
 
				+        ree = ''
			
 
				+        if "Project" in prem:
			
 
				+            for d in prem["Project"]['roleList']:
			
 
				+                if d["role_name"] == "tenderee":
			
 
				+                    ree = d["role_text"]
			
 
				+                    break
			
 
				+        if ree != '':
			
 
				+            for d in approval:
			
 
				+                if d.get('construct_company', '') == '':
			
 
				+                    d['construct_company'] = ree
			
 
				+                else:
			
 
				+                    break
			
 
				+        return approval
			
 
				+
			
 
				 class BiddingScore():
			
 
				     def __init__(self):
			
 
				         self.head_rule_dic = {
			
@@ -8240,7 +8273,7 @@ class EntityTypeRulePredictor():
 
				     def __init__(self):
			
 
				         self.pattern_addr_bidopen = '([开评]标|开启|评选|比选|磋商|遴选|寻源|采购|招标|竞价|议价|委托|询比?价|比价|谈判|邀标|邀请|洽谈|约谈|选取|抽取|抽选)）?(会议)?地[点址]([(（]网址[)）])?[：为]'
			
 
				         self.pattern_addr_bidsend = '((\w{,4}文件)?(提交|递交)(\w{,4}文件)?|投标)地[点址]([(（]网址[)）])?[：为]'
			
 
				-        self.pattern_addr_delivery = '(交货|交付|收货|提货|交接|送货(安装)?|送达|到货|卸货)((期|时间)[及和、])?）?地[点址][：为]'
			
 
				+        self.pattern_addr_delivery = '(交货|交付|收货|提货|交接|送货(安装)?|送达|到货|卸货)((期|时间)[及和、])?）?地[点址]?[：为]'
			
 
				         self.pattern_addr_project = '(项目|施工|实施|建设|工程|服务|交货|送货|收货|展示|看样|拍卖)(实施|服务)?(地址|地点|位置|所在地区?)(位于)?[：为]|项目位于'
			
 
				         self.pattern_time_planned = '(计划|预计|预期)(采购|招标|发包)时间|招标(公告|文件)(预计|预期|计划)发布时间'
			
 
				         self.pattern_code_investment = '投资(审批)?项目[编代]码[：为]'
			
@@ -8279,13 +8312,13 @@ class EntityTypeRulePredictor():
 
				         ser3 = re.search('(%s)(?P<addr>[\w（）-]{5,100})[，。]'%self.pattern_addr_delivery, list_articles[0].content)
			
 
				         ser4 = re.search('(%s)(?P<addr>[\w（）-]{5,100})[，。]'%self.pattern_addr_project, list_articles[0].content)
			
 
				         ser5 = re.search('(%s)(?P<code>[\da-zA-Z（）-]{5,30})[，。]'%self.pattern_code_investment, list_articles[0].content)
			
 
				-        if ser1 and re.search('\w{2,5}[省市区]|\d号|采购网|http', ser1.group('addr')) and addr_dic.get('addr_bidopen', '') in ser1.group('addr'):
			
 
				+        if ser1 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]|采购网|http', ser1.group('addr')) and addr_dic.get('addr_bidopen', '') in ser1.group('addr'):
			
 
				             addr_dic['addr_bidopen'] = ser1.group('addr')
			
 
				-        if ser2 and re.search('\w{2,5}[省市区]|\d号|采购网|http', ser2.group('addr')) and addr_dic.get('addr_bidsend', '') in ser2.group('addr'):
			
 
				+        if ser2 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]|采购网|http', ser2.group('addr')) and addr_dic.get('addr_bidsend', '') in ser2.group('addr'):
			
 
				             addr_dic['addr_bidsend'] = ser2.group('addr')
			
 
				-        if ser3 and re.search('\w{2,5}[省市区]|\d号', ser3.group('addr')) and addr_dic.get('addr_delivery', '') in ser3.group('addr'):
			
 
				+        if ser3 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]', ser3.group('addr')) and addr_dic.get('addr_delivery', '') in ser3.group('addr'):
			
 
				             addr_dic['addr_delivery'] = ser3.group('addr')
			
 
				-        if ser4 and re.search('\w{2,5}[省市区]|\d号', ser4.group('addr')) and addr_dic.get('addr_project', '') in ser4.group('addr'):
			
 
				+        if ser4 and re.search('\w{2,5}[省市区]|\d号|\w{2,12}自治[区州县旗]', ser4.group('addr')) and addr_dic.get('addr_project', '') in ser4.group('addr'):
			
 
				             addr_dic['addr_project'] = ser4.group('addr')
			
 
				         if ser5 and code_investment == '':
			
 
				             code_investment = ser5.group('code')