5 maanden geleden · 9e5621cde3
--- a/BaseDataMaintenance/chat/ERNIE_utils.py
+++ b/BaseDataMaintenance/chat/ERNIE_utils.py
@@ -0,0 +1,77 @@
 
				+
			
 
				+import requests
			
 
				+import json
			
 
				+
			
 
				+def get_access_token():
			
 
				+    """
			
 
				+    使用 API Key，Secret Key 获取access_token，替换下列示例中的应用API Key、应用Secret Key
			
 
				+    """
			
 
				+
			
 
				+    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=gnwVXv96An9qMYqq9eWbeNqk&client_secret=mDsRQbCPsV4N7x28LbwkhTAaLmrrDnXk"
			
 
				+    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Ok8QMe4qIQOAex0F9Gf1uns0&client_secret=6DjGGDdvhnBaEOMdSXAg02KxZnQhWpbd"
			
 
				+
			
 
				+    payload = json.dumps("")
			
 
				+    headers = {
			
 
				+        'Content-Type': 'application/json',
			
 
				+        'Accept': 'application/json'
			
 
				+    }
			
 
				+
			
 
				+    response = requests.request("POST", url, headers=headers, data=payload)
			
 
				+    return response.json().get("access_token")
			
 
				+
			
 
				+def main():
			
 
				+    _token = get_access_token()
			
 
				+    # _token = "24.93c9d66ffc94ffaef6c6c9d35770a5f5.2592000.1701242081.282335-37357318"
			
 
				+    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=" + _token
			
 
				+
			
 
				+    # url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/xuanyuan_70b_chat?access_token=" + _token
			
 
				+
			
 
				+    payload = json.dumps({
			
 
				+        "messages": [
			
 
				+            {
			
 
				+                "role": "user",
			
 
				+                "content": '''
			
 
				+               今天是几号
			
 
				+                '''
			
 
				+            }
			
 
				+        ]
			
 
				+    })
			
 
				+    headers = {
			
 
				+        'Content-Type': 'application/json'
			
 
				+    }
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+    response = requests.request("POST", url, headers=headers, data=payload)
			
 
				+
			
 
				+    print(response.text)
			
 
				+
			
 
				+def chat(msg,token=None,api_url=None):
			
 
				+    if token is None:
			
 
				+        token = get_access_token()
			
 
				+    # _token = "24.93c9d66ffc94ffaef6c6c9d35770a5f5.2592000.1701242081.282335-37357318"
			
 
				+    if api_url is None:
			
 
				+        api_url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions"
			
 
				+        # api_url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/ernie-3.5-128k"
			
 
				+    url =  api_url+"?access_token="+ token
			
 
				+    payload = json.dumps({
			
 
				+        "messages": [
			
 
				+            {
			
 
				+                "role": "user",
			
 
				+                "content": '''
			
 
				+               %s
			
 
				+                '''%msg
			
 
				+            }
			
 
				+        ],
			
 
				+        "stream":False
			
 
				+    })
			
 
				+    headers = {
			
 
				+        'Content-Type': 'application/json'
			
 
				+    }
			
 
				+    response = requests.request("POST", url, headers=headers, data=payload)
			
 
				+
			
 
				+    return response
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    main()
			
--- a/BaseDataMaintenance/chat/chatUtil.py
+++ b/BaseDataMaintenance/chat/chatUtil.py
@@ -0,0 +1,86 @@
 
				+#coding:utf8
			
 
				+
			
 
				+from bs4 import BeautifulSoup
			
 
				+import re
			
 
				+
			
 
				+def html2text(_html):
			
 
				+
			
 
				+    if type(_html)==str:
			
 
				+        _soup = BeautifulSoup(_html,"lxml")
			
 
				+    else:
			
 
				+        _soup = _html
			
 
				+    list_table = _soup.find_all("table")
			
 
				+    list_tbody = _soup.find_all("tbody")
			
 
				+    if len(list_table)>0 or len(list_tbody)>0:
			
 
				+        list_childs = _soup.find_all(recursive=False)
			
 
				+        list_child_text = []
			
 
				+        for child in list_childs:
			
 
				+            list_child_text.append(html2text(child))
			
 
				+        return "\n".join(list_child_text)
			
 
				+
			
 
				+    else:
			
 
				+        if _soup.name=="table" or _soup.name=="tbody":
			
 
				+            _table_text = ""
			
 
				+            trs = _soup.find_all("tr")
			
 
				+            list_tr_text = []
			
 
				+            for tr in trs:
			
 
				+                tds = tr.find_all("th")
			
 
				+                if len(tds)>0:
			
 
				+                    list_td_text = []
			
 
				+                    for td in tds:
			
 
				+                        list_td_text.append(re.sub('\s','',td.get_text()))
			
 
				+                    list_tr_text.append("|".join(list_td_text))
			
 
				+                tds = tr.find_all("td")
			
 
				+                if len(tds)>0:
			
 
				+                    list_td_text = []
			
 
				+                    for td in tds:
			
 
				+                        list_td_text.append(re.sub('\s','',td.get_text()))
			
 
				+                    list_tr_text.append("|".join(list_td_text))
			
 
				+            _table_text = "%s\n\n"%"\n".join(list_tr_text)
			
 
				+            if _table_text == "":
			
 
				+                _table_text = _soup.get_text()
			
 
				+            _soup.decompose()
			
 
				+            return _table_text
			
 
				+        else:
			
 
				+            _text = re.sub('\s','',_soup.get_text().strip())
			
 
				+            _soup.decompose()
			
 
				+            return _text
			
 
				+
			
 
				+def table2list(_html):
			
 
				+    if type(_html)==str:
			
 
				+        _soup = BeautifulSoup(_html,'lxml')
			
 
				+    else:
			
 
				+        _soup = _html
			
 
				+    print("===",type(_soup),_soup.name)
			
 
				+    if _soup.name=="table" or _soup.name=="tbody":
			
 
				+        _table_text = ""
			
 
				+        trs = _soup.find_all("tr")
			
 
				+        list_tr_text = []
			
 
				+        for tr in trs:
			
 
				+            tds = tr.find_all("th")
			
 
				+            if len(tds)>0:
			
 
				+                list_td_text = []
			
 
				+                for td in tds:
			
 
				+                    list_td_text.append(re.sub('\s','',td.get_text()))
			
 
				+                if len(list_td_text)>0:
			
 
				+                    list_tr_text.append(list_td_text)
			
 
				+            tds = tr.find_all("td")
			
 
				+            if len(tds)>0:
			
 
				+                list_td_text = []
			
 
				+                for td in tds:
			
 
				+                    list_td_text.append(re.sub('\s','',td.get_text()))
			
 
				+                if len(list_td_text)>0:
			
 
				+                    list_tr_text.append(list_td_text)
			
 
				+        return list_tr_text
			
 
				+
			
 
				+def tableList2text(table_list):
			
 
				+    list_tr_text = []
			
 
				+    for tr in table_list:
			
 
				+        tds = tr
			
 
				+        if len(tds)>0:
			
 
				+            list_td_text = []
			
 
				+            for td in tds:
			
 
				+                list_td_text.append(re.sub('\s','',td))
			
 
				+            list_tr_text.append("|".join(list_td_text))
			
 
				+    _table_text = "%s\n\n"%"\n".join(list_tr_text)
			
 
				+    return _table_text
			
--- a/BaseDataMaintenance/maintenance/dataflow.py
+++ b/BaseDataMaintenance/maintenance/dataflow.py
@@ -2571,7 +2571,7 @@ class Dataflow_dumplicate(Dataflow):
 
				                 else:
			
 
				                     bool_query = _query
			
 
				                 rows,next_token,total_count,is_all_succeed = self.ots_client.search(table_name,table_index,
			
 
				-                                                                                    SearchQuery(bool_query,sort=Sort(sorters=[FieldSort(sort_column)]),limit=60,get_total_count=True),
			
 
				+                                                                                    SearchQuery(bool_query,sort=Sort(sorters=[FieldSort(sort_column)]),limit=100,get_total_count=True),
			
 
				                                                                                     ColumnsToGet(columns,return_type=ColumnReturnType.SPECIFIED))
			
 
				                 list_dict = getRow_ots(rows)
			
 
				                 list_data = []
			
@@ -3291,33 +3291,42 @@ class Dataflow_dumplicate(Dataflow):
 
				             list_projects = dumplicate_projects(list_projects)
			
 
				         list_projects.extend(list_delete_projects)
			
 
				         project_json = to_project_json(list_projects)
			
 
				-        print("delete_json",project_json)
			
 
				         return project_json
			
 
				 
			
 
				 
			
 
				     def delete_doc_handle(self,_dict,result_queue):
			
 
				         headers = _dict.get("frame")
			
 
				         conn = _dict.get("conn")
			
 
				-        log("==========delete")
			
 
				+
			
 
				         if headers is not None:
			
 
				             message_id = headers.headers["message-id"]
			
 
				             body = headers.body
			
 
				             item = json.loads(body)
			
 
				             docid = item.get("docid")
			
 
				+            log("==========start delete docid:%s"%(str(docid)))
			
 
				             if docid is None:
			
 
				-                return
			
 
				+                ackMsg(conn,message_id)
			
 
				             delete_result = self.delete_projects_by_document(docid)
			
 
				 
			
 
				+            log("1")
			
 
				             _uuid = uuid4().hex
			
 
				             _d = {PROJECT_PROCESS_UUID:_uuid,
			
 
				                   PROJECT_PROCESS_CRTIME:1,
			
 
				                   PROJECT_PROCESS_PROJECTS:delete_result}
			
 
				             _pp = Project_process(_d)
			
 
				-            if _pp.update_row(self.ots_client):
			
 
				+            log("2")
			
 
				+            try:
			
 
				+                if _pp.update_row(self.ots_client):
			
 
				+                    ackMsg(conn,message_id)
			
 
				+            except Exception as e:
			
 
				                 ackMsg(conn,message_id)
			
 
				+            log("3")
			
 
				             #取消插入结果队列,改成插入project_process表
			
 
				             # if send_msg_toacmq(self.pool_mq_ali,delete_result,self.doc_delete_result):
			
 
				             #     ackMsg(conn,message_id)
			
 
				+            log("==========end delete docid:%s"%(str(docid)))
			
 
				+        else:
			
 
				+            log("has not headers")
			
 
				 
			
 
				     def generate_common_properties(self,list_docs):
			
 
				         '''
			
@@ -3693,6 +3702,14 @@ class Dataflow_dumplicate(Dataflow):
 
				                       should_q_cod]
			
 
				             list_query.append([_query,2])
			
 
				 
			
 
				+        if win_tenderer!="" and sub_project_name!="":
			
 
				+            _query = [TermQuery(project_win_tenderer,win_tenderer),
			
 
				+                      TermQuery(project_sub_project_name,sub_project_name)
			
 
				+                                             ]
			
 
				+            list_query.append([_query,2])
			
 
				+
			
 
				+
			
 
				+
			
 
				         if win_tenderer!="" and float(win_bid_price)>0:
			
 
				             _query = [TermQuery(project_win_tenderer,win_tenderer),
			
 
				                                              TermQuery(project_win_bid_price,win_bid_price)]
			
@@ -3749,10 +3766,7 @@ class Dataflow_dumplicate(Dataflow):
 
				                 _uuid = _proj.get("uuid")
			
 
				                 if _uuid is not None:
			
 
				                     set_uuid = set_uuid | set(_uuid.split(","))
			
 
				-            must_not_q = []
			
 
				-            for _uuid in list(set_uuid):
			
 
				-                must_not_q.append(TermQuery("uuid",_uuid))
			
 
				-                print("must_not_q uuid:%s"%(_uuid))
			
 
				+
			
 
				 
			
 
				 
			
 
				             projects_merge_count = 0
			
@@ -3768,6 +3782,10 @@ class Dataflow_dumplicate(Dataflow):
 
				             docids = ""
			
 
				             for _proj in list_projects[:30]:
			
 
				 
			
 
				+                must_not_q = []
			
 
				+                for _uuid in list(set_uuid):
			
 
				+                    must_not_q.append(TermQuery("uuid",_uuid))
			
 
				+
			
 
				                 docids = _proj.get(project_docids,"")
			
 
				                 page_time = _proj.get(project_page_time,"")
			
 
				                 project_codes = _proj.get(project_project_codes,"")
			
@@ -3872,7 +3890,8 @@ class Dataflow_dumplicate(Dataflow):
 
				                 list_merge_data.sort(key=lambda x:x.get(project_page_time,""))
			
 
				                 list_merge_data.sort(key=lambda x:x.get(project_bidding_budget,-1))
			
 
				                 # log(page_time_less+"=="+page_time_greater)
			
 
				-                # log("list_merge_data:%s"%(str(list_merge_data)))
			
 
				+                if b_log:
			
 
				+                    log("list_merge_data count:%d"%(len(list_merge_data)))
			
 
				                 list_check_data = []
			
 
				                 for _data in list_merge_data:
			
 
				                     _time = time.time()
			
@@ -3933,10 +3952,9 @@ class Dataflow_dumplicate(Dataflow):
 
				             list_docids = [a for a in list_docids if a is not None]
			
 
				 
			
 
				 
			
 
				-
			
 
				             _time = time.time()
			
 
				             list_projects = self.search_projects_with_document(list_docids)
			
 
				-            # log("search projects takes:%.3f"%(time.time()-_time))
			
 
				+            log("search %d projects takes:%.3f"%(len(list_projects),time.time()-_time))
			
 
				             if len(list_projects)==0:
			
 
				                 # _time = time.time()
			
 
				                 list_docs = self.search_docs(list_docids)
			
@@ -4497,7 +4515,7 @@ if __name__ == '__main__':
 
				     # test_attachment_interface()
			
 
				     df_dump = Dataflow_dumplicate(start_delete_listener=False)
			
 
				     # df_dump.start_flow_dumplicate()
			
 
				-    df_dump.test_dumplicate(562889387
			
 
				+    df_dump.test_dumplicate(576859812
			
 
				                             )
			
 
				     # compare_dumplicate_check()
			
 
				     # df_dump.test_merge([391898061
			
--- a/BaseDataMaintenance/maintenance/document/ApprovalData.py
+++ b/BaseDataMaintenance/maintenance/document/ApprovalData.py
@@ -0,0 +1,646 @@
 
				+
			
 
				+from BaseDataMaintenance.common.Utils import *
			
 
				+from BaseDataMaintenance.dataSource.source import getConnect_ots,getConnect_ots_capacity
			
 
				+from tablestore import *
			
 
				+import pandas as pd
			
 
				+from queue import Queue
			
 
				+from BaseDataMaintenance.common.multiThread import MultiThreadHandler
			
 
				+from BaseDataMaintenance.model.ots.document import Document
			
 
				+
			
 
				+import json
			
 
				+from uuid import uuid4
			
 
				+from bs4 import BeautifulSoup
			
 
				+
			
 
				+'''
			
 
				+"approval": [
			
 
				+        {
			
 
				+            "approval_items": "", #审批事项
			
 
				+            "approval_result": "", #审批结果
			
 
				+            "approver": "",#审批部门
			
 
				+            "city": "深圳",
			
 
				+            "construct_company": "深圳市赛孚电子科技有限公司",# 建设单位
			
 
				+            "construction_scale": "",#建设规模
			
 
				+            "declare_company": "",#申报单位
			
 
				+            "district": "光明",
			
 
				+            "doc_num": "",#审批文号
			
 
				+            "evaluation_agency": "",#环评机构
			
 
				+            "legal_person": "陈雷", # 项目法人
			
 
				+            "moneysource": "",# 资金来源
			
 
				+            "phone": "",
			
 
				+            "pro_type": "",#申报类型
			
 
				+            "project_addr": "广东省深圳市光明区玉塘街道田寮社区第七工业区26栋301",
			
 
				+            "project_code": "",
			
 
				+            "project_name": "深圳市赛孚电子科技有限公司销售医用射线装置项目",
			
 
				+            "properties": "新建", #建设性质
			
 
				+            "province": "广东",
			
 
				+            "time_commencement": "",# 开工时间
			
 
				+            "time_completion": "",#竣工时间
			
 
				+            "time_declare": "",#申报时间
			
 
				+            "total_tendereeMoney": "200000", # 总投资
			
 
				+            "year_limit": ""#建设年限,
			
 
				+"compilation_unit": "编制单位", 
			
 
				+"publisher": "发布单位",
			
 
				+"time_approval":"审批时间",
			
 
				+"time_release": "发布日期"
			
 
				+        }
			
 
				+    ]
			
 
				+'''
			
 
				+
			
 
				+
			
 
				+key_trans = {
			
 
				+    "doctitle":"公告标题",
			
 
				+    "page_time":"公告时间",
			
 
				+    "province": "省份",
			
 
				+    "city": "城市",
			
 
				+    "district": "地区",
			
 
				+
			
 
				+    "approval_items": "审批事项",
			
 
				+    "approval_result": "审批结果",
			
 
				+    "declare_company": "申报单位",
			
 
				+    "construct_company": "建设单位",
			
 
				+    "evaluation_agency": "环评机构",
			
 
				+    "approver": "审批部门",
			
 
				+    "compilation_unit": "编制单位",
			
 
				+    "publisher": "发布单位",
			
 
				+
			
 
				+    "total_tendereeMoney": "总投资",
			
 
				+    "construction_scale": "建设规模",
			
 
				+    "proportion":"建筑面积",
			
 
				+    "usearea":"用地面积",
			
 
				+
			
 
				+    "doc_num": "审批文号",
			
 
				+
			
 
				+    "legal_person": "项目法人",
			
 
				+    "moneysource": "资金来源",
			
 
				+    "moneyuse":"资金构成",
			
 
				+    "env_invest":"环保投资",
			
 
				+    "phone": "电话",
			
 
				+    "pro_type": "申报类型",
			
 
				+    "project_addr": "项目地址",
			
 
				+    "project_code": "项目编号",
			
 
				+    "project_name": "项目名称",
			
 
				+    "properties": "建设性质",
			
 
				+    "time_commencement": "开工时间",
			
 
				+    "time_completion": "竣工时间",
			
 
				+    "time_declare": "申报时间",
			
 
				+
			
 
				+    "year_limit": "建设年限",
			
 
				+
			
 
				+    "time_approval":"审批时间",
			
 
				+    "time_release": "发布日期"
			
 
				+}
			
 
				+
			
 
				+key_trans_d = {"docid":"公告id"}
			
 
				+key_trans_d.update(key_trans)
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+def extract_proportion(content, has_preffix=True):
			
 
				+    if not content:
			
 
				+        return "", ""
			
 
				+    # log("content")
			
 
				+    # log(content)
			
 
				+    suffix = "[大概约为是:：【\[\s]*[\d,]+(\.\d+)?[十百千万亿]*([\]】平方kK千万公㎡mM米里顷亩]+2?))"
			
 
				+    reg_dict = {
			
 
				+        0: "(?P<proportion>(总((建筑|建设)(面积|规模)|长|长度))" + suffix,
			
 
				+        1: "(?P<proportion>((建筑|建设)(面积|规模)|全长)" + suffix,
			
 
				+        2: "(?P<proportion>((建筑|建设|区域)?面积|全长|项目规模)" + suffix
			
 
				+    }
			
 
				+
			
 
				+    if not has_preffix:
			
 
				+        reg_dict[3] = "(?P<proportion>" + suffix
			
 
				+
			
 
				+    _proportion = ""
			
 
				+    for i in range(len(list(reg_dict.keys()))):
			
 
				+        if _proportion:
			
 
				+            break
			
 
				+        _pattern = reg_dict.get(i)
			
 
				+        # logging.info('content ' + str(content))
			
 
				+        match = re.search(_pattern, str(content))
			
 
				+        if match:
			
 
				+            _proportion = match.groupdict().get("proportion", "")
			
 
				+
			
 
				+    if not _proportion:
			
 
				+        return "", ""
			
 
				+
			
 
				+    # 统一格式
			
 
				+    multiple_cnt = 1
			
 
				+    digit = ""
			
 
				+
			
 
				+    # 确定具体数字
			
 
				+    match = re.search('(?P<d1>[\d,]+)(?P<d2>(\.\d+)?)', _proportion)
			
 
				+    if match:
			
 
				+        # logging.info(str(_proportion) + '  ' + str(match.group()))
			
 
				+        d1 = match.group('d1')
			
 
				+        d2 = match.group('d2')
			
 
				+        try:
			
 
				+            d1 = int(re.sub(',', '', d1))
			
 
				+        except:
			
 
				+            return "", ""
			
 
				+        if d2:
			
 
				+            d2 = Decimal(d2[1:]) / Decimal(str(int(10 ** len(d2[1:]))))
			
 
				+            # print('d1, d2', d1, d2)
			
 
				+            d1 += d2
			
 
				+        digit = d1
			
 
				+    # print('digit', digit)
			
 
				+
			
 
				+    # 确定中文倍数
			
 
				+    _proportion2 = re.sub(re.escape(match.group()), '', _proportion)
			
 
				+    match = re.search('[十百千万亿]+', _proportion2)
			
 
				+    _dict = {'十': 10, '百': 100, '千': 1000, '万': 10000, '亿': 100000000}
			
 
				+    if match:
			
 
				+        for c in match.group():
			
 
				+            multiple_cnt *= _dict.get(c)
			
 
				+        _proportion3 = re.sub(re.escape(match.group()), '', _proportion2)
			
 
				+    else:
			
 
				+        _proportion3 = _proportion2
			
 
				+    # print('multiple_cnt2', multiple_cnt)
			
 
				+
			
 
				+    # 确定面积/长度
			
 
				+    match = re.search('[平方㎡顷亩]+|[mM]2', _proportion3)
			
 
				+    if match:
			
 
				+        unit = '㎡'
			
 
				+    else:
			
 
				+        unit = 'm'
			
 
				+
			
 
				+    # 确定单位倍数
			
 
				+    match = re.search('[平方kK千万公㎡mM米里顷亩]+2?', _proportion3)
			
 
				+    if match:
			
 
				+        if unit == 'm':
			
 
				+            if re.search('[kK千公]', match.group()):
			
 
				+                multiple_cnt *= 1000
			
 
				+            elif re.search('[里]', match.group()):
			
 
				+                multiple_cnt *= Decimal(str(500))
			
 
				+        else:
			
 
				+            if '亩' in match.group():
			
 
				+                multiple_cnt *= Decimal(str(666.67))
			
 
				+            elif '顷' in match.group():
			
 
				+                multiple_cnt *= 10000
			
 
				+            elif re.search('千米|公里|k[mM㎡]', match.group()):
			
 
				+                multiple_cnt *= 1000000
			
 
				+    # print('multiple_cnt1', multiple_cnt)
			
 
				+
			
 
				+    # 拼接
			
 
				+    digit = str(digit * multiple_cnt) + unit
			
 
				+
			
 
				+    return _proportion, digit
			
 
				+
			
 
				+def extract_usearea(content, has_preffix=True):
			
 
				+    if not content:
			
 
				+        return "", ""
			
 
				+    # log("content")
			
 
				+    # log(content)
			
 
				+    suffix = "[大概约为是:：【\[\s]*[\d,]+(\.\d+)?[十百千万亿]*([\]】平方kK千万公㎡mM米里顷亩]+2?))"
			
 
				+    reg_dict = {
			
 
				+        0: "(?P<proportion>(总((用地|占地|使用)(面积|规模)|长|长度))" + suffix,
			
 
				+        1: "(?P<proportion>((用地|占地|使用)(面积|规模)|全长)" + suffix,
			
 
				+        2: "(?P<proportion>((用地|占地|使用)?面积)" + suffix
			
 
				+    }
			
 
				+
			
 
				+    if not has_preffix:
			
 
				+        reg_dict[3] = "(?P<proportion>" + suffix
			
 
				+
			
 
				+    _proportion = ""
			
 
				+    for i in range(len(list(reg_dict.keys()))):
			
 
				+        if _proportion:
			
 
				+            break
			
 
				+        _pattern = reg_dict.get(i)
			
 
				+        # logging.info('content ' + str(content))
			
 
				+        match = re.search(_pattern, str(content))
			
 
				+        if match:
			
 
				+            _proportion = match.groupdict().get("proportion", "")
			
 
				+
			
 
				+    if not _proportion:
			
 
				+        return "", ""
			
 
				+
			
 
				+    # 统一格式
			
 
				+    multiple_cnt = 1
			
 
				+    digit = ""
			
 
				+
			
 
				+    # 确定具体数字
			
 
				+    match = re.search('(?P<d1>[\d,]+)(?P<d2>(\.\d+)?)', _proportion)
			
 
				+    if match:
			
 
				+        # logging.info(str(_proportion) + '  ' + str(match.group()))
			
 
				+        d1 = match.group('d1')
			
 
				+        d2 = match.group('d2')
			
 
				+        try:
			
 
				+            d1 = int(re.sub(',', '', d1))
			
 
				+        except:
			
 
				+            return "", ""
			
 
				+        if d2:
			
 
				+            d2 = Decimal(d2[1:]) / Decimal(str(int(10 ** len(d2[1:]))))
			
 
				+            # print('d1, d2', d1, d2)
			
 
				+            d1 += d2
			
 
				+        digit = d1
			
 
				+    # print('digit', digit)
			
 
				+
			
 
				+    # 确定中文倍数
			
 
				+    _proportion2 = re.sub(re.escape(match.group()), '', _proportion)
			
 
				+    match = re.search('[十百千万亿]+', _proportion2)
			
 
				+    _dict = {'十': 10, '百': 100, '千': 1000, '万': 10000, '亿': 100000000}
			
 
				+    if match:
			
 
				+        for c in match.group():
			
 
				+            multiple_cnt *= _dict.get(c)
			
 
				+        _proportion3 = re.sub(re.escape(match.group()), '', _proportion2)
			
 
				+    else:
			
 
				+        _proportion3 = _proportion2
			
 
				+    # print('multiple_cnt2', multiple_cnt)
			
 
				+
			
 
				+    # 确定面积/长度
			
 
				+    match = re.search('[平方㎡顷亩]+|[mM]2', _proportion3)
			
 
				+    if match:
			
 
				+        unit = '㎡'
			
 
				+    else:
			
 
				+        unit = 'm'
			
 
				+
			
 
				+    # 确定单位倍数
			
 
				+    match = re.search('[平方kK千万公㎡mM米里顷亩]+2?', _proportion3)
			
 
				+    if match:
			
 
				+        if unit == 'm':
			
 
				+            if re.search('[kK千公]', match.group()):
			
 
				+                multiple_cnt *= 1000
			
 
				+            elif re.search('[里]', match.group()):
			
 
				+                multiple_cnt *= Decimal(str(500))
			
 
				+        else:
			
 
				+            if '亩' in match.group():
			
 
				+                multiple_cnt *= Decimal(str(666.67))
			
 
				+            elif '顷' in match.group():
			
 
				+                multiple_cnt *= 10000
			
 
				+            elif re.search('千米|公里|k[mM㎡]', match.group()):
			
 
				+                multiple_cnt *= 1000000
			
 
				+    # print('multiple_cnt1', multiple_cnt)
			
 
				+
			
 
				+    # 拼接
			
 
				+    digit = str(digit * multiple_cnt) + unit
			
 
				+
			
 
				+    return _proportion, digit
			
 
				+
			
 
				+def extract_env_invest(content):
			
 
				+    pattern = "环保投资[大概约为是:：]*(?P<invs>\d+(\.\d+)?万?元)"
			
 
				+
			
 
				+    match = re.search(pattern,content)
			
 
				+    if match is not None:
			
 
				+        invest =  match.groupdict().get("invs","")
			
 
				+        money = getUnifyMoney(invest)
			
 
				+        if money>0:
			
 
				+            return money
			
 
				+    return ""
			
 
				+
			
 
				+def extract_moneyuse(content):
			
 
				+    list_sentences = re.split("，|。",content)
			
 
				+    list_data = []
			
 
				+    pattern = "^.{,20}[费用|预备费|费][大概约为是:：]*\d+(\.\d+)?万?元.{,20}$"
			
 
				+    for sentence in list_sentences:
			
 
				+        match = re.search(pattern,sentence)
			
 
				+        if match is not None:
			
 
				+            list_data.append(sentence)
			
 
				+    return "，".join(list_data)
			
 
				+
			
 
				+def get_approval_data(ots_client,ots_capacity,docid):
			
 
				+
			
 
				+    bool_query = BoolQuery(must_queries=[
			
 
				+        TermQuery("docid",docid)
			
 
				+    ])
			
 
				+    rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query),
			
 
				+                                                                   ColumnsToGet(["doctitle","project_name","page_time","project_code","approval_json","extract_json"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+    list_data = getRow_ots(rows)
			
 
				+    for _d in list_data:
			
 
				+        approval_json = _d.get("approval_json")
			
 
				+        partitionkey = _d.get("partitionkey")
			
 
				+        docid = _d.get("docid")
			
 
				+        doctitle = _d.get("doctitle")
			
 
				+        project_name = _d.get("project_name")
			
 
				+        page_time = _d.get("page_time")
			
 
				+        extract_json = _d.get("extract_json")
			
 
				+
			
 
				+        _d_html = {"partitionkey":partitionkey,"docid":docid}
			
 
				+        _html = Document(_d_html)
			
 
				+        _html.fix_columns(ots_capacity,["dochtmlcon"],True)
			
 
				+        dochtml = _html.getProperties().get("dochtmlcon","")
			
 
				+        doctextcon = BeautifulSoup(dochtml,"lxml").get_text()
			
 
				+        attachmenttextcon = ""
			
 
				+        try:
			
 
				+            _extract = json.loads(extract_json)
			
 
				+        except Exception  as e:
			
 
				+            _extract = {}
			
 
				+        proportion = _extract.get("pb",{}).get("proportion")
			
 
				+        _,usearea = extract_usearea(doctextcon+attachmenttextcon)
			
 
				+        env_invest = extract_env_invest(doctextcon+attachmenttextcon)
			
 
				+        moneyuse = extract_moneyuse(doctextcon+attachmenttextcon)
			
 
				+
			
 
				+        if approval_json:
			
 
				+            list_approval = json.loads(approval_json)
			
 
				+            for _appr in list_approval:
			
 
				+                _appr["partitionkey"] = partitionkey
			
 
				+                _appr["docid"] = docid
			
 
				+                _appr["doctitle"] = doctitle
			
 
				+                _appr["page_time"] = page_time
			
 
				+                _appr["proportion"] = proportion
			
 
				+                _appr["usearea"] = usearea
			
 
				+                _appr["env_invest"] = env_invest
			
 
				+                _appr["moneyuse"] = moneyuse
			
 
				+
			
 
				+                fix_area(ots_client,_appr)
			
 
				+
			
 
				+                construction_scale = _d.get("construction_scale","")
			
 
				+                proportion,_ = extract_proportion(construction_scale)
			
 
				+                if proportion!="":
			
 
				+                    _appr["proportion"] = proportion
			
 
				+                _,usearea = extract_usearea(construction_scale)
			
 
				+                if usearea!="":
			
 
				+                    _appr["usearea"] = usearea
			
 
				+                env_invest = extract_env_invest(construction_scale)
			
 
				+                if env_invest!="":
			
 
				+                    _appr["env_invest"] = env_invest
			
 
				+                moneyuse = extract_moneyuse(construction_scale)
			
 
				+                if moneyuse!="":
			
 
				+                    _appr["moneyuse"] = moneyuse
			
 
				+
			
 
				+            return list_approval
			
 
				+
			
 
				+
			
 
				+def check_approval(appr1,appr2):
			
 
				+    check_keys = ["declare_company","construct_company","total_tendereeMoney","proportion","usearea","doc_num","project_code"]
			
 
				+    same_count = 0
			
 
				+    for k in check_keys:
			
 
				+        if k in appr1 and k in appr2:
			
 
				+            if appr1[k]==appr2[k] and appr1[k] is not None and appr1[k]!="":
			
 
				+                same_count += 1
			
 
				+
			
 
				+    if same_count>=1:
			
 
				+        return True
			
 
				+    return False
			
 
				+
			
 
				+
			
 
				+def merge_approval_real(ots_client,ots_capacity,approval):
			
 
				+    doc_num = approval.get("doc_num","")
			
 
				+    doctitle = approval.get("doctitle","")
			
 
				+    project_name = approval.get("project_name","")
			
 
				+    project_code = approval.get("project_code","")
			
 
				+
			
 
				+    docid = approval.get("docid")
			
 
				+    should_queries = []
			
 
				+
			
 
				+    if doc_num!="":
			
 
				+        should_queries.append(MatchPhraseQuery("doctitle",doc_num))
			
 
				+        should_queries.append(MatchPhraseQuery("doctextcon",doc_num))
			
 
				+        should_queries.append(MatchPhraseQuery("attachmenttextcon",doc_num))
			
 
				+    if doctitle!="":
			
 
				+        should_queries.append(MatchPhraseQuery("doctitle",doctitle))
			
 
				+        should_queries.append(MatchPhraseQuery("doctextcon",doctitle))
			
 
				+        should_queries.append(MatchPhraseQuery("attachmenttextcon",doctitle))
			
 
				+    if project_name!="":
			
 
				+        should_queries.append(MatchPhraseQuery("doctitle",project_name))
			
 
				+        should_queries.append(MatchPhraseQuery("doctextcon",project_name))
			
 
				+        should_queries.append(MatchPhraseQuery("attachmenttextcon",project_name))
			
 
				+    if project_code!="":
			
 
				+        should_queries.append(MatchPhraseQuery("doctitle",project_code))
			
 
				+        should_queries.append(MatchPhraseQuery("doctextcon",project_code))
			
 
				+        should_queries.append(MatchPhraseQuery("attachmenttextcon",project_code))
			
 
				+
			
 
				+
			
 
				+    _query = BoolQuery(should_queries=should_queries,must_not_queries=[TermQuery("docid",docid)])
			
 
				+    bool_query = BoolQuery(must_queries=[
			
 
				+        RangeQuery("status",201,301),
			
 
				+        _query
			
 
				+    ])
			
 
				+    rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query),
			
 
				+                                                                   ColumnsToGet(["doctitle","page_time","project_name","project_code","approval_json","extract_json"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+    list_data = getRow_ots(rows)
			
 
				+    approvals = [approval]
			
 
				+    for _d in list_data:
			
 
				+        approval_json = _d.get("approval_json")
			
 
				+        partitionkey = _d.get("partitionkey")
			
 
				+        docid = _d.get("docid")
			
 
				+        doctitle = _d.get("doctitle")
			
 
				+        project_name = _d.get("project_name")
			
 
				+        page_time = _d.get("page_time")
			
 
				+        extract_json = _d.get("extract_json")
			
 
				+
			
 
				+
			
 
				+        _d_html = {"partitionkey":partitionkey,"docid":docid}
			
 
				+        _html = Document(_d_html)
			
 
				+        _html.fix_columns(ots_capacity,["dochtmlcon"],True)
			
 
				+        dochtml = _html.getProperties().get("dochtmlcon","")
			
 
				+        doctextcon = BeautifulSoup(dochtml,"lxml").get_text()
			
 
				+        attachmenttextcon = ""
			
 
				+
			
 
				+        try:
			
 
				+            _extract = json.loads(extract_json)
			
 
				+        except Exception  as e:
			
 
				+            _extract = {}
			
 
				+        proportion = _extract.get("pb",{}).get("proportion")
			
 
				+        _,usearea = extract_usearea(doctextcon+attachmenttextcon)
			
 
				+        env_invest = extract_env_invest(doctextcon+attachmenttextcon)
			
 
				+        moneyuse = extract_moneyuse(doctextcon+attachmenttextcon)
			
 
				+        if approval_json:
			
 
				+            list_approval = json.loads(approval_json)
			
 
				+            for _appr in list_approval:
			
 
				+                _appr["partitionkey"] = partitionkey
			
 
				+                _appr["docid"] = docid
			
 
				+                _appr["doctitle"] = doctitle
			
 
				+                _appr["page_time"] = page_time
			
 
				+                _appr["usearea"] = usearea
			
 
				+                _appr["env_invest"] = env_invest
			
 
				+                _appr["moneyuse"] = moneyuse
			
 
				+
			
 
				+                fix_area(ots_client,_appr)
			
 
				+
			
 
				+                construction_scale = _d.get("construction_scale","")
			
 
				+                proportion,_ = extract_proportion(construction_scale)
			
 
				+                if proportion!="":
			
 
				+                    _appr["proportion"] = proportion
			
 
				+                _,usearea = extract_usearea(construction_scale)
			
 
				+                if usearea!="":
			
 
				+                    _appr["usearea"] = usearea
			
 
				+                env_invest = extract_env_invest(construction_scale)
			
 
				+                if env_invest!="":
			
 
				+                    _appr["env_invest"] = env_invest
			
 
				+                moneyuse = extract_moneyuse(construction_scale)
			
 
				+                if moneyuse!="":
			
 
				+                    _appr["moneyuse"] = moneyuse
			
 
				+                if check_approval(approval,_appr):
			
 
				+                    approvals.append(_appr)
			
 
				+    return approvals
			
 
				+
			
 
				+def get_enterprise_area(ots_client,name):
			
 
				+    bool_query = BoolQuery(must_queries=[
			
 
				+        TermQuery("name",name)
			
 
				+    ])
			
 
				+    rows,next_token,total_count,is_all_succeed = ots_client.search("enterprise","enterprise_index",
			
 
				+                                                                   SearchQuery(bool_query),
			
 
				+                                                                   ColumnsToGet(["province","city","district"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+    list_data = getRow_ots(rows)
			
 
				+    _d = {}
			
 
				+    if len(list_data)>0:
			
 
				+        _d["province"] = list_data[0].get("province","")
			
 
				+        _d["city"] = list_data[0].get("city","")
			
 
				+        _d["district"] = list_data[0].get("district","")
			
 
				+    return _d
			
 
				+
			
 
				+def area_count(_d):
			
 
				+    keys = ["province","city","district"]
			
 
				+    return sum([1 if _d.get(k,"") not in ("","全国","未知") else 0 for k in keys])
			
 
				+
			
 
				+def fix_area(ots_client,appr):
			
 
				+    if appr.get("district","")!="":
			
 
				+        return
			
 
				+    declare_company = appr.get("declare_company","")
			
 
				+    _d = get_enterprise_area(ots_client,declare_company)
			
 
				+    if area_count(_d)>area_count(appr):
			
 
				+        appr.update(_d)
			
 
				+
			
 
				+    construct_company = appr.get("construct_company","")
			
 
				+    _d = get_enterprise_area(ots_client,construct_company)
			
 
				+    if area_count(_d)>area_count(appr):
			
 
				+        appr.update(_d)
			
 
				+
			
 
				+    approver = appr.get("approver","")
			
 
				+    _d = get_enterprise_area(ots_client,approver)
			
 
				+    if area_count(_d)>area_count(appr):
			
 
				+        appr.update(_d)
			
 
				+
			
 
				+    compilation_unit = appr.get("compilation_unit","")
			
 
				+    _d = get_enterprise_area(ots_client,approver)
			
 
				+    if area_count(_d)>area_count(appr):
			
 
				+        appr.update(_d)
			
 
				+
			
 
				+    publisher = appr.get("publisher","")
			
 
				+    _d = get_enterprise_area(ots_client,publisher)
			
 
				+    if area_count(_d)>area_count(appr):
			
 
				+        appr.update(_d)
			
 
				+
			
 
				+
			
 
				+
			
 
				+def generate_projects(approvals):
			
 
				+    project_id = str(uuid4())
			
 
				+    approvals.sort(key=lambda x:x.get("page_time",""),reverse=False)
			
 
				+    _dict = {}
			
 
				+    for appr in approvals:
			
 
				+        _d = {}
			
 
				+        _d_area = {}
			
 
				+        for k,v in appr.items():
			
 
				+            if v is not None and v!="":
			
 
				+                if k in ("province","city","district"):
			
 
				+                    _d_area[k] = v
			
 
				+                else:
			
 
				+                    _d[k] = v
			
 
				+        if _dict.get("province","")=="" and _d_area.get("province","")!="":
			
 
				+            _dict.update(_d_area)
			
 
				+        if _dict.get("city","")=="" and _d_area.get("city","")!="":
			
 
				+            _dict.update(_d_area)
			
 
				+        if _dict.get("district","")=="" and _d_area.get("district","")!="":
			
 
				+            _dict.update(_d_area)
			
 
				+        _dict.update(_d)
			
 
				+    _dict["id"] = project_id
			
 
				+    return _dict
			
 
				+
			
 
				+
			
 
				+def merge_approval():
			
 
				+    ots_client = getConnect_ots()
			
 
				+    ots_capacity = getConnect_ots_capacity()
			
 
				+
			
 
				+    list_data = []
			
 
				+
			
 
				+    # filename = r"G:\新建文件夹\WeChat Files\wxid_kluerlj8cn3b21\FileStorage\File\2024-11\20241104审批项目公告_审批要素.xlsx"
			
 
				+    # df = pd.read_excel(filename)
			
 
				+    # _count = 0
			
 
				+    # for docid in df["公告id"]:
			
 
				+    #     docid = int(docid)
			
 
				+    #     _count += 1
			
 
				+    #     # if _count>3000:
			
 
				+    #     #     break
			
 
				+    #     # if docid!=400066972170 and docid!=400066972181:
			
 
				+    #     #     continue
			
 
				+    #     # list_approval = get_approval_data(ots_client,docid)
			
 
				+    #     # if list_approval:
			
 
				+    #     #     list_data.extend(list_approval)
			
 
				+    #     list_data.append(docid)
			
 
				+
			
 
				+    bool_query = BoolQuery(must_queries=[
			
 
				+        RangeQuery("status",201,301),
			
 
				+        TermQuery("page_time","2024-11-04"),
			
 
				+        TermQuery("docchannel",302),
			
 
				+    ])
			
 
				+    rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query,sort=Sort(sorters=[FieldSort("page_time")]),limit=100,get_total_count=True),
			
 
				+                                                                   ColumnsToGet(["docid"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+    list_row = getRow_ots(rows)
			
 
				+    for _data in list_row:
			
 
				+        list_data.append(_data.get("docid"))
			
 
				+
			
 
				+    while next_token:
			
 
				+        rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query,next_token=next_token,limit=100,get_total_count=True),
			
 
				+                                                                   ColumnsToGet(["docid"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+        list_row = getRow_ots(rows)
			
 
				+        for _data in list_row:
			
 
				+            list_data.append(_data.get("docid"))
			
 
				+        print("%d/%d"%(len(list_data),total_count))
			
 
				+        # if len(list_data)>=2000:
			
 
				+        #     break
			
 
				+
			
 
				+    task_queue = Queue()
			
 
				+    for _data in list_data:
			
 
				+        task_queue.put(_data)
			
 
				+
			
 
				+    result_queue = Queue()
			
 
				+
			
 
				+    def merge_approval_handle(docid,result_queue):
			
 
				+        print("docid",docid)
			
 
				+        list_approval = get_approval_data(ots_client,ots_capacity,docid)
			
 
				+        if list_approval:
			
 
				+            for appr in list_approval:
			
 
				+                approvals = merge_approval_real(ots_client,ots_capacity,appr)
			
 
				+                result_queue.put(approvals)
			
 
				+
			
 
				+    mt = MultiThreadHandler(task_queue,merge_approval_handle,result_queue,30)
			
 
				+    mt.run()
			
 
				+
			
 
				+    list_approvals = []
			
 
				+    try:
			
 
				+        while 1:
			
 
				+            item = result_queue.get(timeout=1)
			
 
				+            list_approvals.append(item)
			
 
				+    except:
			
 
				+        pass
			
 
				+
			
 
				+    data_approval = []
			
 
				+    data_approvals_p = []
			
 
				+    for approvals in list_approvals:
			
 
				+        _project = generate_projects(approvals)
			
 
				+        _project_id = _project.get("id")
			
 
				+
			
 
				+        for _approval in approvals:
			
 
				+
			
 
				+            _d = {"项目id":_project_id}
			
 
				+            for k,v in key_trans_d.items():
			
 
				+                if k in _approval:
			
 
				+                    _d[v] = _approval[k]
			
 
				+                else:
			
 
				+                    _d[v] = ""
			
 
				+            data_approval.append(_d)
			
 
				+        _d = {"项目id":_project_id}
			
 
				+        for k,v in key_trans.items():
			
 
				+            if k in _project:
			
 
				+                _d[v] = _project[k]
			
 
				+            else:
			
 
				+                _d[v] = ""
			
 
				+        data_approvals_p.append(_d)
			
 
				+
			
 
				+
			
 
				+
			
 
				+    df_approval = pd.DataFrame(data_approval)
			
 
				+    df_approvals_p = pd.DataFrame(data_approvals_p)
			
 
				+    df_approval.to_excel("a.xlsx")
			
 
				+    df_approvals_p.to_excel("b.xlsx")
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    merge_approval()
			
--- a/BaseDataMaintenance/maintenance/gpt_extract.py
+++ b/BaseDataMaintenance/maintenance/gpt_extract.py
@@ -0,0 +1,164 @@
 
				+#coding:utf8
			
 
				+
			
 
				+from BaseDataMaintenance.chat.ERNIE_utils import *
			
 
				+
			
 
				+from BaseDataMaintenance.dataSource.source import getConnect_ots
			
 
				+from BaseDataMaintenance.chat.chatUtil import *
			
 
				+
			
 
				+from tablestore import *
			
 
				+from BaseDataMaintenance.common.Utils import getRow_ots,getCurrent_date,timeAdd
			
 
				+from bs4 import BeautifulSoup
			
 
				+import json
			
 
				+import re
			
 
				+import pandas as pd
			
 
				+import time
			
 
				+
			
 
				+
			
 
				+
			
 
				+def get_columns(ots_client,docid,columns):
			
 
				+
			
 
				+    bool_query = BoolQuery(must_queries=[TermQuery("docid",docid)])
			
 
				+    rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query),
			
 
				+                                                                   ColumnsToGet(columns,return_type=ColumnReturnType.SPECIFIED))
			
 
				+    list_data = getRow_ots(rows)
			
 
				+    _dict = {}
			
 
				+    if len(list_data)==1:
			
 
				+        _dict = list_data[0]
			
 
				+    return _dict
			
 
				+
			
 
				+
			
 
				+def jsonchat(msg,try_times):
			
 
				+
			
 
				+    try:
			
 
				+        print(msg)
			
 
				+    except Exception as e:
			
 
				+        pass
			
 
				+    while try_times>0:
			
 
				+        try:
			
 
				+            try_times -= 1
			
 
				+            resp = chat(msg)
			
 
				+            time.sleep(1)
			
 
				+
			
 
				+            if resp.status_code == 200:
			
 
				+                result_dict = json.loads(resp.text)
			
 
				+                result = result_dict.get("result", "")
			
 
				+                error_msg = result_dict.get("error_msg")
			
 
				+                if error_msg is not None:
			
 
				+                    print("error_msg",error_msg)
			
 
				+                    time.sleep(10)
			
 
				+                    continue
			
 
				+                _pattern = "```json(?P<json>.*)```"
			
 
				+                _search = re.search(_pattern, result, re.DOTALL)
			
 
				+                if _search is not None:
			
 
				+                    _json = _search.groupdict().get("json")
			
 
				+                    _d = json.loads(_json)
			
 
				+                    return _json
			
 
				+        except Exception as e:
			
 
				+            pass
			
 
				+
			
 
				+
			
 
				+def extract_tenderee():
			
 
				+    filename = r'F:\Workspace2016\DataMining\data\2024-11-26_174430_数据导出.xlsx'
			
 
				+    df = pd.read_excel(filename)
			
 
				+
			
 
				+    ots_client = getConnect_ots()
			
 
				+
			
 
				+    list_data = []
			
 
				+
			
 
				+    for docid in df["docid"]:
			
 
				+        docid = int(docid)
			
 
				+        # if docid!=559799502:
			
 
				+        #     continue
			
 
				+        _dict = get_columns(ots_client,docid,["doctextcon","attachmenttextcon","nlp_enterprise","nlp_enterprise_attachment"])
			
 
				+        doctextcon = _dict.get("doctextcon","")
			
 
				+        attachmenttextcon = _dict.get("attachmenttextcon","")
			
 
				+        nlp_enterprise = _dict.get("nlp_enterprise","")
			
 
				+        nlp_enterprise_attachment = _dict.get("nlp_enterprise_attachment","")
			
 
				+
			
 
				+        pre_tenderee = ""
			
 
				+        if len(nlp_enterprise)>2:
			
 
				+            _ent = json.loads(nlp_enterprise)
			
 
				+            pre_tenderee = _ent[0]
			
 
				+        if len(nlp_enterprise_attachment)>2:
			
 
				+            _ent = json.loads(nlp_enterprise_attachment)
			
 
				+            pre_tenderee = _ent[0]
			
 
				+
			
 
				+        msg = '''从内容中提取出招标人，招标人应该是公司实体，如果没有则返回"",返回结果为json格式{"tenderee":""}\n%s\n%s''' % (str(doctextcon),str(attachmenttextcon))
			
 
				+        _json = jsonchat(msg,3)
			
 
				+        new_tenderee = ""
			
 
				+        if _json is not None:
			
 
				+            _d = json.loads(_json)
			
 
				+            new_tenderee = _d.get("tenderee")
			
 
				+        new_d = {"docid":docid,"nlp_enterprise":nlp_enterprise,"nlp_enterprise_attachment":nlp_enterprise_attachment,
			
 
				+                 "pre_tenderee":pre_tenderee,"new_tenderee":new_tenderee}
			
 
				+        list_data.append(new_d)
			
 
				+        print(new_d)
			
 
				+    df1 = pd.DataFrame(list_data)
			
 
				+    df1.to_excel("tenderee_extract.xlsx",columns=["docid","nlp_enterprise","nlp_enterprise_attachment","pre_tenderee","new_tenderee"])
			
 
				+
			
 
				+def prompt_tenderee():
			
 
				+    _prompt = '招标人，招标人应该是公司实体，如果没有则返回""'
			
 
				+    _ret = {"招标人":""}
			
 
				+    return _prompt,_ret
			
 
				+
			
 
				+def prompt_budget():
			
 
				+    _prompt = "预算金额，如果没有则默认0"
			
 
				+    _ret = {"预算金额":0}
			
 
				+    return _prompt,_ret
			
 
				+
			
 
				+def prompt_win_tenderer():
			
 
				+    _prompt = '中标人及其中标金额，中标人应该是公司实体，中标金额没有则默认0，中标人与中标金额放到一个字典中，如果有多个，则在数组中分别返回，如果没有则返回空数组'
			
 
				+    _ret = {"中标人及金额":[{"中标人":"","中标金额":0}]}
			
 
				+    return _prompt,_ret
			
 
				+
			
 
				+def extract_bidding_budget():
			
 
				+    pass
			
 
				+
			
 
				+def extract_win_tenderer():
			
 
				+    pass
			
 
				+
			
 
				+
			
 
				+def get_data_to_qualify(ots_client,count=-1):
			
 
				+    current_date = getCurrent_date('%Y-%m-%d')
			
 
				+    last_date = timeAdd(current_date,-1)
			
 
				+    bool_query = BoolQuery(
			
 
				+        must_queries=[
			
 
				+            RangeQuery("crtime",last_date,current_date),
			
 
				+            RangeQuery("status",201,301),
			
 
				+            TermsQuery("docchannel",[52,101,119,120])
			
 
				+        ]
			
 
				+    )
			
 
				+
			
 
				+    list_data = []
			
 
				+    rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query,limit=100,get_total_count=True),
			
 
				+                                                                   ColumnsToGet(["extract_json"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+    list_data.extend(getRow_ots(rows))
			
 
				+    while 1:
			
 
				+        if next_token is None or len(list_data)>=30*10000:
			
 
				+            break
			
 
				+        rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+                                                                   SearchQuery(bool_query,next_token=next_token,limit=100,get_total_count=True),
			
 
				+                                                                   ColumnsToGet(["extract_json"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+        list_data.extend(getRow_ots(rows))
			
 
				+        if count>0 and list_data>=count:
			
 
				+            break
			
 
				+    return list_data
			
 
				+
			
 
				+
			
 
				+def quality_inspection():
			
 
				+
			
 
				+
			
 
				+def merge_extract_json():
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    extract_tenderee()
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
--- a/BaseDataMaintenance/maintenance/product/htmlparser.py
+++ b/BaseDataMaintenance/maintenance/product/htmlparser.py
@@ -200,7 +200,7 @@ class ParseDocument():
 
				                 if v is not None:
			
 
				                     groups.append((k,v))
			
 
				         if len(groups):
			
 
				-            # groups.sort(key=lambda x:x[0])
			
 
				+            groups.sort(key=lambda x:x[0])
			
 
				             return groups
			
 
				         return None
			
 
				 
			
--- a/BaseDataMaintenance/maxcompute/documentDumplicate.py
+++ b/BaseDataMaintenance/maxcompute/documentDumplicate.py
@@ -1328,9 +1328,10 @@ def check_dumplicate_rule(docid_less,docid_greater,fingerprint_less,fingerprint_
 
				     else:
			
 
				         base_prob = 0.6
			
 
				     _prob = base_prob*same_count/all_count
			
 
				-    if min(extract_count_less,extract_count_greater)<=3:
			
 
				-        if _prob<0.1:
			
 
				-            _prob = 0.15
			
 
				+    if min(extract_count_less,extract_count_greater)<=3 and max(extract_count_less,extract_count_greater)>=5:
			
 
				+        if _prob<0.1 and str(page_time_less)==str(page_time_greater):
			
 
				+            if str(docchannel_less) not in ("302","303"):
			
 
				+                _prob = 0.15
			
 
				         if getLength(province_less)>0 and getLength(province_greater)>0 and province_less not in ("全国","未知") and province_greater not in ("全国","未知") and province_less!=province_greater:
			
 
				             if b_log:
			
 
				                 logging.info("province not same:%s-%s"%(province_less,province_greater))
			
--- a/BaseDataMaintenance/maxcompute/documentMerge.py
+++ b/BaseDataMaintenance/maxcompute/documentMerge.py
@@ -2647,6 +2647,7 @@ def check_project_codes_merge(list_code,list_code_to_merge,b_log):
 
				 
			
 
				 
			
 
				 def check_merge_rule(_proj,_dict,b_log=False,time_limit=86400*300,return_prob=False,simple_check=False):
			
 
				+
			
 
				     docids = _proj.get(project_docids,"")
			
 
				     page_time = _proj.get(project_page_time,"")
			
 
				     project_codes = _proj.get(project_project_codes,"")
			
@@ -2699,6 +2700,14 @@ def check_merge_rule(_proj,_dict,b_log=False,time_limit=86400*300,return_prob=Fa
 
				 
			
 
				     project_dynamics_to_merge = _dict.get(project_project_dynamics)
			
 
				 
			
 
				+    # if len(set([docids,docids_to_merge])&set(["576859812","545764033"]))==2:
			
 
				+    #     if return_prob:
			
 
				+    #         return True,1
			
 
				+    #     return True
			
 
				+
			
 
				+    if b_log:
			
 
				+        log("check %s-%s ,%s-%s"%(docids,docids_to_merge,sub_project_name,sub_project_name_to_merge))
			
 
				+
			
 
				     is_few = False
			
 
				     if (0 if project_codes=="" else 1) + (0 if project_name=="" else 1) + (0 if bidding_budget<0 else 1) +(0 if tenderee=="" else 1) + (0 if win_bid_price<0 else 1) + (0 if win_tenderer=="" else 1)<=1:
			
 
				         is_few = True
			
@@ -2815,8 +2824,7 @@ def check_merge_rule(_proj,_dict,b_log=False,time_limit=86400*300,return_prob=Fa
 
				 
			
 
				     _prob = prob_count/8
			
 
				 
			
 
				-    if b_log:
			
 
				-        log("check %s-%s result%s"%(docids,docids_to_merge,str(check_dict)))
			
 
				+
			
 
				     if _prob<0.15:
			
 
				         if b_log:
			
 
				             log("prob less than 0.15 prob_count:%d"%(prob_count))
			
--- a/BaseDataMaintenance/model/oracle/QiTaShiXinTemp.py
+++ b/BaseDataMaintenance/model/oracle/QiTaShiXinTemp.py
@@ -0,0 +1,17 @@
 
				+
			
 
				+import traceback
			
 
				+from BaseDataMaintenance.model.oracle.TouSuTemp import SouSuTemp
			
 
				+
			
 
				+dict_replace = {""}
			
 
				+
			
 
				+class QiTaShiXin(SouSuTemp):
			
 
				+
			
 
				+    def __init__(self,_dict):
			
 
				+        SouSuTemp.__init__(self,_dict)
			
 
				+        self.table_name = "bxkc.t_qi_ta_shi_xin_temp"
			
 
				+        self.setValue("docchannel",303,True)
			
 
				+        self.setValue("original_type","qi_ta_shi_xin",True)
			
 
				+
			
 
				+    def getPrimary_keys(self):
			
 
				+        return ["ID"]
			
 
				+
			
--- a/BaseDataMaintenance/model/oracle/TouSuChuLiTemp.py
+++ b/BaseDataMaintenance/model/oracle/TouSuChuLiTemp.py
@@ -0,0 +1,17 @@
 
				+
			
 
				+import traceback
			
 
				+from BaseDataMaintenance.model.oracle.TouSuTemp import SouSuTemp
			
 
				+
			
 
				+dict_replace = {""}
			
 
				+
			
 
				+class TouSuChuLiTemp(SouSuTemp):
			
 
				+
			
 
				+    def __init__(self,_dict):
			
 
				+        SouSuTemp.__init__(self,_dict)
			
 
				+        self.table_name = "bxkc.t_tou_su_chu_li_temp"
			
 
				+        self.setValue("docchannel",303,True)
			
 
				+        self.setValue("original_type","tou_su_chu_li",True)
			
 
				+
			
 
				+    def getPrimary_keys(self):
			
 
				+        return ["ID"]
			
 
				+
			
--- a/BaseDataMaintenance/model/oracle/TouSuTemp.py
+++ b/BaseDataMaintenance/model/oracle/TouSuTemp.py
@@ -0,0 +1,215 @@
 
				+
			
 
				+import traceback
			
 
				+from BaseDataMaintenance.model.oracle.BaseModel import BaseModel
			
 
				+from datetime import datetime
			
 
				+from BaseDataMaintenance.common.Utils import getCurrent_date,log
			
 
				+
			
 
				+dict_oracle2ots = {"WEB_SOURCE_NO":"web_source_no",
			
 
				+                    "AREA":"area",
			
 
				+                    "PROVINCE":"province",
			
 
				+                    "CITY":"city",
			
 
				+                    "WEB_SOURCE_NAME":"web_source_name",
			
 
				+                    "INFO_SOURCE":"info_source",
			
 
				+                    "INFO_TYPE":"info_type",
			
 
				+                    "INDUSTRY":"industry",
			
 
				+                    "ID":"uuid",
			
 
				+                    "PAGE_TITLE":"doctitle",
			
 
				+                    "PAGE_TIME":"page_time",
			
 
				+                    "PAGE_CONTENT":"dochtmlcon",
			
 
				+                    "ATTACHMENT_PATH":"page_attachments",
			
 
				+                    "CREATE_TIME":"crtime",
			
 
				+                    "DISTRICT":"district",
			
 
				+                    "DETAILLINK":"detail_link",
			
 
				+                   "RECORD_ID":"record_id",
			
 
				+                   "PUNISHNO":"punishno",
			
 
				+                   "INSTITUTION":"institution",
			
 
				+                   "PUNISHTIME":"punish_time",
			
 
				+                   "PUNISHTYPE":"punish_type",
			
 
				+                   "COMPLAINANT":"complainant",
			
 
				+                   "PUNISHPERPLE":"punish_perple",
			
 
				+                   "PUNISHWHETHER":"punish_whether",
			
 
				+                   "PUNISHDECISION":"punish_decision",
			
 
				+                   "docchannel":"docchannel",
			
 
				+                   "original_type":"original_type"}
			
 
				+
			
 
				+
			
 
				+class SouSuTemp(BaseModel):
			
 
				+
			
 
				+    def __init__(self,_dict):
			
 
				+        self.all_columns = []
			
 
				+        for k,v in _dict.items():
			
 
				+            self.setValue(k,v,True)
			
 
				+
			
 
				+    def getPrimary_keys(self):
			
 
				+        raise NotImplementedError()
			
 
				+
			
 
				+    def getProperties(self):
			
 
				+        return self.__dict__
			
 
				+
			
 
				+    def getProperties_ots(self):
			
 
				+        new_dict = {}
			
 
				+        for k,v in self.__dict__.items():
			
 
				+            if k in dict_oracle2ots:
			
 
				+                n_k = dict_oracle2ots[k]
			
 
				+                if v is not None:
			
 
				+                    if isinstance(v,(str,int,float)):
			
 
				+                        pass
			
 
				+                    elif isinstance(v,(datetime)):
			
 
				+                        v = v.strftime("%Y-%m-%d %H:%M:%S")
			
 
				+                    else:
			
 
				+                        v = str(v)
			
 
				+                    new_dict[n_k] = v
			
 
				+        opertime = getCurrent_date(format="%Y-%m-%d %H:%M:%S")
			
 
				+        publishtime = "%s %s"%(new_dict.get("page_time",""),opertime.split(" ")[1])
			
 
				+        new_dict["opertime"] = opertime
			
 
				+        new_dict["publishtime"] = publishtime
			
 
				+        if "docchannel" in new_dict:
			
 
				+            new_dict["original_docchannel"] = new_dict["docchannel"]
			
 
				+        return new_dict
			
 
				+
			
 
				+    def setValue(self,k,v,isColumn=False):
			
 
				+        if "all_columns" not in self.__dict__:
			
 
				+            self.all_columns = []
			
 
				+        self.__dict__[k] = v
			
 
				+        if isColumn:
			
 
				+            if k not in (set(self.all_columns)):
			
 
				+                self.all_columns.append(k)
			
 
				+
			
 
				+    def delete_row(self,conn):
			
 
				+        try:
			
 
				+            cursor = conn.cursor()
			
 
				+            sql = "delete %s  "%(self.table_name)
			
 
				+            s_where = " where 1=1 "
			
 
				+            _set_keys = set(self.getPrimary_keys())
			
 
				+            has_key = False
			
 
				+            if len(_set_keys)==0:
			
 
				+                return
			
 
				+            for k,v in self.__dict__.items():
			
 
				+                if k in _set_keys:
			
 
				+                    if v is None or str(v)=="":
			
 
				+                        raise RuntimeError("主键%s为空"%k)
			
 
				+                    s_where += " and %s="%k
			
 
				+                    if isinstance(v,str):
			
 
				+                        s_where += "'%s' "%v
			
 
				+                    else:
			
 
				+                        s_where += "%d "%v
			
 
				+                    has_key = True
			
 
				+            log("delete sql:%s-%s %s"%(str(has_key),sql,s_where))
			
 
				+            if has_key:
			
 
				+                sql = "%s %s"%(sql,s_where)
			
 
				+                update_rows = cursor.execute(sql)
			
 
				+                conn.commit()
			
 
				+                return update_rows
			
 
				+        except Exception as e:
			
 
				+            traceback.print_exc()
			
 
				+        return 0
			
 
				+
			
 
				+    def insert_row(self,conn):
			
 
				+        try:
			
 
				+            cursor = conn.cursor()
			
 
				+            sql = "insert into %s"%(self.table_name)
			
 
				+            s_columns = "("
			
 
				+            s_values = "values("
			
 
				+            _set_columns = set(self.all_columns)
			
 
				+            for k,v in self.__dict__.items():
			
 
				+                if k in _set_columns:
			
 
				+                    if v is not None and str(v)!="":
			
 
				+                        s_columns += "%s,"%k
			
 
				+
			
 
				+                        if isinstance(v,(int,)):
			
 
				+                            s_values += "%d,"%v
			
 
				+
			
 
				+                        elif isinstance(v,(datetime)):
			
 
				+                            s_values += "to_date('%s','yyyy-MM-dd HH24:mi:ss'),"%v.strftime("%Y-%m-%d %H:%M:%S")
			
 
				+                        else:
			
 
				+                            s_values += "'%s',"%str(v).replace("'","\'")
			
 
				+            s_columns = "%s)"%s_columns[:-1]
			
 
				+            s_values = "%s)"%s_values[:-1]
			
 
				+            sql = "%s%s%s"%(sql,s_columns,s_values)
			
 
				+            print("sql",sql)
			
 
				+            cursor.execute(sql)
			
 
				+            conn.commit()
			
 
				+        except Exception as e:
			
 
				+            traceback.print_exc()
			
 
				+
			
 
				+
			
 
				+    def update_row(self,conn,conditions=[]):
			
 
				+        cursor = conn.cursor()
			
 
				+        sql = "update %s set "%(self.table_name)
			
 
				+        s_columns = ""
			
 
				+        s_where = " where 1=1 "
			
 
				+        _set_columns = set(self.all_columns)
			
 
				+        _set_keys = set(self.getPrimary_keys())
			
 
				+        for k,v in self.__dict__.items():
			
 
				+            if k in _set_columns and k not in _set_keys:
			
 
				+                if v is not None and str(v)!="":
			
 
				+                    s_columns += "%s="%k
			
 
				+                    if isinstance(v,str):
			
 
				+                        s_columns += "'%s',"%v
			
 
				+                    else:
			
 
				+                        s_columns += "%d,"%v
			
 
				+            elif k in _set_keys:
			
 
				+                if v is None or str(v)=="":
			
 
				+                    raise RuntimeError("主键%s为空"%k)
			
 
				+                s_where += " and %s="%k
			
 
				+                if isinstance(v,str):
			
 
				+                    s_where += "'%s' "%v
			
 
				+                else:
			
 
				+                    s_where += "%d "%v
			
 
				+        s_columns = "%s"%s_columns[:-1]
			
 
				+        sql = "%s%s%s"%(sql,s_columns,s_where)
			
 
				+        update_rows = cursor.execute(sql)
			
 
				+        conn.commit()
			
 
				+        return update_rows
			
 
				+
			
 
				+
			
 
				+
			
 
				+    def exists(self,conn):
			
 
				+        s_where = " where 1=1 "
			
 
				+        _set_columns = set(self.all_columns)
			
 
				+        _set_keys = set(self.getPrimary_keys())
			
 
				+        for k,v in self.__dict__.items():
			
 
				+            if k in _set_keys:
			
 
				+                if v is None or str(v)=="":
			
 
				+                    raise RuntimeError("主键%s为空"%k)
			
 
				+                s_where += " and %s="%k
			
 
				+                if isinstance(v,str):
			
 
				+                    s_where += "'%s' "%v
			
 
				+                else:
			
 
				+                    s_where += "%d "%v
			
 
				+        cursor = conn.cursor()
			
 
				+        sql = "select count(1) from %s %s"%(self.table_name,s_where)
			
 
				+        cursor.execute(sql)
			
 
				+        rows = cursor.fetchall()
			
 
				+        if rows[0][0]==0:
			
 
				+            return False
			
 
				+        return True
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def select_rows(conn,cls,table_name,conditions,rows_to_get="*",limit=60):
			
 
				+        list_result = []
			
 
				+        s_limit = ""
			
 
				+        if limit is not None:
			
 
				+            s_limit = " and rownum<=%d"%limit
			
 
				+        if len(conditions)>0:
			
 
				+            s_where = " where %s"%(" and ".join(conditions))
			
 
				+        else:
			
 
				+            s_where = " where 1=1 "
			
 
				+
			
 
				+        cursor = conn.cursor()
			
 
				+        sql = "select %s from %s %s %s"%(rows_to_get,table_name,s_where,s_limit)
			
 
				+        log(sql)
			
 
				+        cursor.execute(sql)
			
 
				+
			
 
				+        vol = cursor.description
			
 
				+        rows = cursor.fetchall()
			
 
				+        for row in rows:
			
 
				+            _dict = {}
			
 
				+            for _vol,_val in zip(vol,row):
			
 
				+                _name = _vol[0]
			
 
				+                _dict[_name] = _val
			
 
				+            list_result.append(cls(_dict))
			
 
				+        return list_result
			
 
				+
			
 
				+
			
 
				+
			
--- a/BaseDataMaintenance/model/oracle/WeiFaJiLuTemp.py
+++ b/BaseDataMaintenance/model/oracle/WeiFaJiLuTemp.py
@@ -0,0 +1,56 @@
 
				+
			
 
				+import traceback
			
 
				+from BaseDataMaintenance.model.oracle.TouSuTemp import SouSuTemp
			
 
				+
			
 
				+dict_replace = {""}
			
 
				+
			
 
				+class WeiFaJiLuTemp(SouSuTemp):
			
 
				+
			
 
				+    def __init__(self,_dict):
			
 
				+        SouSuTemp.__init__(self,_dict)
			
 
				+        self.table_name = "bxkc.t_wei_fa_ji_lu_temp"
			
 
				+        self.setValue("docchannel",303,True)
			
 
				+        self.setValue("original_type","wei_fa_ji_lu",True)
			
 
				+
			
 
				+    def getPrimary_keys(self):
			
 
				+        return ["ID"]
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def synchonize():
			
 
				+        try:
			
 
				+            print("123")
			
 
				+            from BaseDataMaintenance.dataSource.source import getConnection_oracle
			
 
				+            conn = getConnection_oracle()
			
 
				+            cursor = conn.cursor()
			
 
				+            has_commit = 0
			
 
				+            while 1:
			
 
				+                sql = '''
			
 
				+                INSERT INTO bxkc.t_wei_fa_ji_lu_temp
			
 
				+SELECT *
			
 
				+FROM (
			
 
				+         SELECT w.*
			
 
				+         FROM bxkc.t_wei_fa_ji_lu w
			
 
				+                  LEFT JOIN bxkc.id_wei_fa_ji_lu b ON w.id = b.id
			
 
				+         WHERE b.id IS not NULL
			
 
				+     ) res
			
 
				+WHERE ROWNUM < 10001
			
 
				+                '''
			
 
				+                cursor.execute(sql)
			
 
				+                row_effected = cursor.rowcount
			
 
				+
			
 
				+                if row_effected==0:
			
 
				+                    break
			
 
				+                print("row_effected",row_effected)
			
 
				+                sql1 = '''
			
 
				+                delete bxkc.id_wei_fa_ji_lu where id in (select id from bxkc.t_wei_fa_ji_lu_temp)
			
 
				+                '''
			
 
				+                cursor.execute(sql1)
			
 
				+                conn.commit()
			
 
				+
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            traceback.print_exc()
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    WeiFaJiLuTemp.synchonize()
			
--- a/BaseDataMaintenance/model/ots/document.py
+++ b/BaseDataMaintenance/model/ots/document.py
@@ -342,25 +342,25 @@ def turn_document_status():
 
				         #
			
 
				         # )
			
 
				 
			
 
				-        rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				-                                                                       SearchQuery(bool_query,sort=Sort(sorters=[FieldSort("docid",SortOrder.DESC)]),limit=100,get_total_count=True),
			
 
				-                                                                       columns_to_get=ColumnsToGet(["product","product_number"],return_type=ColumnReturnType.SPECIFIED))
			
 
				-        list_data = getRow_ots(rows)
			
 
				-        print(total_count)
			
 
				-        _count = len(list_data)
			
 
				-        for _data in list_data:
			
 
				-            _document = Document(_data)
			
 
				-            task_queue.put(_document)
			
 
				-        while next_token:
			
 
				-            rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				-                                                                           SearchQuery(bool_query,next_token=next_token,limit=100,get_total_count=True),
			
 
				-                                                                           columns_to_get=ColumnsToGet(["product"],return_type=ColumnReturnType.SPECIFIED))
			
 
				-            list_data = getRow_ots(rows)
			
 
				-            _count += len(list_data)
			
 
				-            print("%d/%d"%(_count,total_count))
			
 
				-            for _data in list_data:
			
 
				-                _document = Document(_data)
			
 
				-                task_queue.put(_document)
			
 
				+        # rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+        #                                                                SearchQuery(bool_query,sort=Sort(sorters=[FieldSort("docid",SortOrder.DESC)]),limit=100,get_total_count=True),
			
 
				+        #                                                                columns_to_get=ColumnsToGet(["product","product_number"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+        # list_data = getRow_ots(rows)
			
 
				+        # print(total_count)
			
 
				+        # _count = len(list_data)
			
 
				+        # for _data in list_data:
			
 
				+        #     _document = Document(_data)
			
 
				+        #     task_queue.put(_document)
			
 
				+        # while next_token:
			
 
				+        #     rows,next_token,total_count,is_all_succeed = ots_client.search("document","document_index",
			
 
				+        #                                                                    SearchQuery(bool_query,next_token=next_token,limit=100,get_total_count=True),
			
 
				+        #                                                                    columns_to_get=ColumnsToGet(["product"],return_type=ColumnReturnType.SPECIFIED))
			
 
				+        #     list_data = getRow_ots(rows)
			
 
				+        #     _count += len(list_data)
			
 
				+        #     print("%d/%d"%(_count,total_count))
			
 
				+        #     for _data in list_data:
			
 
				+        #         _document = Document(_data)
			
 
				+        #         task_queue.put(_document)
			
 
				 
			
 
				         # docids = [223820830,224445409]
			
 
				         # for docid in docids:
			
@@ -368,9 +368,9 @@ def turn_document_status():
 
				         #              document_partitionkey:int(docid)%500+1,
			
 
				         #              }
			
 
				         #     task_queue.put(Document(_dict))
			
 
				-        # import pandas as pd
			
 
				-        # df = pd.read_excel(r"F:\Workspace2016\DataMining\data\2024-07-24_143135_数据导出.xlsx")
			
 
				-        # list_docid = df["docid"]
			
 
				+        import pandas as pd
			
 
				+        df = pd.read_csv(r"C:\Users\Administrator\Desktop\export_241224_6.csv")
			
 
				+        list_docid = df["docid"]
			
 
				         # list_docid = [519497468]
			
 
				 
			
 
				         # list_docid = []
			
@@ -385,11 +385,13 @@ def turn_document_status():
 
				         #         if re.search("^\d+$",docid) is not None:
			
 
				         #             list_docid.append(int(docid))
			
 
				 
			
 
				-        # for docid in list_docid:
			
 
				-        #     _dict = {document_docid:int(docid),
			
 
				-        #              document_partitionkey:int(docid)%500+1,
			
 
				-        #              }
			
 
				-        #     task_queue.put(Document(_dict))
			
 
				+        for docid,construct_company,recall_flag in zip(list_docid,df["construct_company"],df["recall_flag"]):
			
 
				+            if recall_flag == 1:
			
 
				+                _dict = {document_docid:int(docid),
			
 
				+                         document_partitionkey:int(docid)%500+1,
			
 
				+                         "construct_company":construct_company
			
 
				+                         }
			
 
				+                task_queue.put(Document(_dict))
			
 
				         # for docid in df["docid2"]:
			
 
				         #     _dict = {document_docid:int(docid),
			
 
				         #              document_partitionkey:int(docid)%500+1,
			
@@ -426,11 +428,12 @@ def turn_document_status():
 
				         # item.setValue(document_district,"金湾区",True)
			
 
				         # item.setValue(document_status,66,True)
			
 
				         # print(item.getProperties())
			
 
				-        item.setValue(document_status,1,True)
			
 
				+        # item.setValue(document_status,1,True)
			
 
				         # product = item.getProperties().get(document_product)
			
 
				         # l_product = product.split(",")
			
 
				         # n_product = ",".join(l_product[:500])
			
 
				         # item.setValue(document_product,n_product,True)
			
 
				+        # item.fix_columns(ots_client,["extract_json","doctitle",""],True)
			
 
				         item.update_row(ots_client)
			
 
				         # log("update %d status done"%(item.getProperties().get(document_docid)))
			
 
				         pass