hace 3 meses · c18ccf9298
--- a/BaseDataMaintenance/maintenance/dataflow.py
+++ b/BaseDataMaintenance/maintenance/dataflow.py
@@ -1273,6 +1273,20 @@ class Dataflow():
 
				                 dict_source_count[_web_source].add(_fingerprint)
			
 
				                 if len(dict_source_count[_web_source])>=2:
			
 
				                     to_reverse=True
			
 
				+        # 专项债
			
 
				+        if len(base_list)>0 and base_list[0].get("is_special_bonds")==1:
			
 
				+            for _item in base_list:
			
 
				+                detail_link = _item.get("detail_link")
			
 
				+                detail_link = detail_link.strip() if detail_link else ""
			
 
				+                if "bondId=" in detail_link:
			
 
				+                    bondId = detail_link.split("bondId=")[1]
			
 
				+                    bondId = bondId.split(",") if bondId else []
			
 
				+                else:
			
 
				+                    bondId = []
			
 
				+                _item['bondId_num'] = len(bondId)
			
 
				+            # print([i.get("bondId_num") for i in base_list])
			
 
				+            base_list.sort(key=lambda x:x["bondId_num"],reverse=True)
			
 
				+            return base_list[0]["docid"]
			
 
				         if len(base_list)>0:
			
 
				             base_list.sort(key=lambda x:x["docid"],reverse=to_reverse)
			
 
				             base_list.sort(key=lambda x:x.get(document_attachment_extract_status,0),reverse=True)
			
@@ -2209,7 +2223,9 @@ class Dataflow_dumplicate(Dataflow):
 
				     def get_dict_time(self,_extract,keys=["time_bidclose","time_bidopen","time_bidstart","time_commencement","time_completion","time_earnestMoneyEnd","time_earnestMoneyStart","time_getFileEnd","time_getFileStart","time_publicityEnd","time_publicityStart","time_registrationEnd","time_registrationStart"]):
			
 
				         dict_time = {}
			
 
				         for k in keys:
			
 
				-            dict_time[k] = _extract.get(k)
			
 
				+            _time = _extract.get(k)
			
 
				+            _time = _time[:10] if _time else ""
			
 
				+            dict_time[k] = _time
			
 
				         return dict_time
			
 
				 
			
 
				 
			
@@ -2258,6 +2274,15 @@ class Dataflow_dumplicate(Dataflow):
 
				         _dict["dict_time"] = self.get_dict_time(_extract)
			
 
				         _dict["punish"] = _extract.get("punish",{})
			
 
				         _dict["approval"] = _extract.get("approval",[])
			
 
				+
			
 
				+        # 专项债字段
			
 
				+        issue_details = _extract.get("debt_dic",{}).get("issue_details",[])
			
 
				+        _dict["is_special_bonds"] = 1 if _dict.get(document_tmp_docchannel)==302 and _dict.get(document_tmp_web_source_name)=='专项债券信息网' and issue_details else 0
			
 
				+        # 采购意向字段
			
 
				+        if _dict.get("docchannel")==114:
			
 
				+            _dict["demand_info"] = _extract.get("demand_info",{}).get("data",[])
			
 
				+        else:
			
 
				+            _dict["demand_info"] = []
			
 
				         return _dict
			
 
				 
			
 
				     def dumplicate_fianl_check(self,base_list,b_log=False):
			
@@ -2371,11 +2396,14 @@ class Dataflow_dumplicate(Dataflow):
 
				         pagetime_stamp_greater = getTimeStamp(page_time_greater)
			
 
				         
			
 
				         day_dis = abs(pagetime_stamp_greater-pagetime_stamp_less)//86400
			
 
				-        if day_dis>7:
			
 
				-            _prob = 0
			
 
				-        elif day_dis>3:
			
 
				-            if _prob<0.4:
			
 
				+        if document_less.get("is_special_bonds",0)==document_greater.get("is_special_bonds",0)==1:
			
 
				+            pass
			
 
				+        else:
			
 
				+            if day_dis>7:
			
 
				                 _prob = 0
			
 
				+            elif day_dis>3:
			
 
				+                if _prob<0.4:
			
 
				+                    _prob = 0
			
 
				 
			
 
				         return _prob,day_dis
			
 
				 
			
@@ -2661,7 +2689,7 @@ class Dataflow_dumplicate(Dataflow):
 
				 
			
 
				         if table_name in {"document_tmp","document"}:
			
 
				 
			
 
				-            if page_time>=timeAdd(current_date,-7):
			
 
				+            if page_time>=timeAdd(current_date,-7) and item.get("is_special_bonds")!=1:
			
 
				                 table_name = "document_tmp"
			
 
				                 table_index = "document_tmp_index"
			
 
				                 base_dict = {
			
@@ -2891,6 +2919,17 @@ class Dataflow_dumplicate(Dataflow):
 
				         confidence=80
			
 
				         _dict = {doctitle_refine_name:doctitle_refine}
			
 
				         self.appendRule(list_rules,_dict,base_dict,must_not_dict,confidence,item,b_log=to_log)
			
 
				+        # 专项债
			
 
				+        if item.get("is_special_bonds")==1:
			
 
				+            confidence = 90
			
 
				+            _dict = {doctitle_refine_name: doctitle_refine,
			
 
				+                     document_tmp_web_source_name:"专项债券信息网"}
			
 
				+            tmp_base_dict = {
			
 
				+                "docchannel": item["docchannel"],
			
 
				+                "status": [201, 450],
			
 
				+                # "page_time": [timeAdd(page_time, -365), timeAdd(page_time, 365)]
			
 
				+            }
			
 
				+            self.appendRule(list_rules, _dict, tmp_base_dict, must_not_dict, confidence, item, b_log=to_log)
			
 
				 
			
 
				 
			
 
				         confidence=70
			
@@ -2900,7 +2939,7 @@ class Dataflow_dumplicate(Dataflow):
 
				 
			
 
				         return list_rules,table_name,table_index
			
 
				 
			
 
				-    def producer_flow_dumplicate(self,process_count,status_from,columns=[document_tmp_status,document_tmp_save,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle,document_tmp_sub_docs_json,document_tmp_extract_json,document_attachment_extract_status,document_update_document,document_province,document_city,document_district,document_tmp_attachment_path,document_tmp_web_source_no,document_tmp_web_source_name,document_tmp_source_stage,document_tmp_source_type]):
			
 
				+    def producer_flow_dumplicate(self,process_count,status_from,columns=[document_tmp_status,document_tmp_save,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle,document_tmp_sub_docs_json,document_tmp_extract_json,document_attachment_extract_status,document_update_document,document_province,document_city,document_district,document_tmp_attachment_path,document_tmp_web_source_no,document_tmp_web_source_name,document_tmp_source_stage,document_tmp_source_type,"detail_link"]):
			
 
				         q_size = self.queue_dumplicate.qsize()
			
 
				         log("dumplicate queue size %d"%(q_size))
			
 
				 
			
@@ -4424,7 +4463,7 @@ class Dataflow_dumplicate(Dataflow):
 
				                 singleNum_keys = _rule["singleNum_keys"]
			
 
				                 contain_keys = _rule["contain_keys"]
			
 
				                 multiNum_keys = _rule["multiNum_keys"]
			
 
				-                self.add_data_by_query(item,base_list,set_docid,_query,confidence,table_name=table_name,table_index=table_index,singleNum_keys=singleNum_keys,contain_keys=contain_keys,multiNum_keys=multiNum_keys,columns=[document_tmp_status,document_tmp_save,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle_refine,document_tmp_sub_docs_json,document_tmp_extract_json,document_tmp_web_source_no,document_tmp_fingerprint,document_attachment_extract_status,document_province,document_city,document_district,document_doctitle,document_tmp_attachment_path,document_tmp_source_stage,document_tmp_source_type,document_update_document],b_log=b_log)
			
 
				+                self.add_data_by_query(item,base_list,set_docid,_query,confidence,table_name=table_name,table_index=table_index,singleNum_keys=singleNum_keys,contain_keys=contain_keys,multiNum_keys=multiNum_keys,columns=[document_tmp_status,document_tmp_save,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle_refine,document_tmp_sub_docs_json,document_tmp_extract_json,document_tmp_web_source_no,document_tmp_fingerprint,document_attachment_extract_status,document_province,document_city,document_district,document_doctitle,document_tmp_attachment_path,document_tmp_source_stage,document_tmp_source_type,document_update_document,document_tmp_web_source_name,'detail_link'],b_log=b_log)
			
 
				                 _i += step
			
 
				 
			
 
				 
			
@@ -4874,12 +4913,13 @@ class Dataflow_dumplicate(Dataflow):
 
				 
			
 
				     def test_dumplicate(self,docid):
			
 
				         # columns=[document_tmp_status,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle,document_tmp_sub_docs_json,document_tmp_extract_json,document_tmp_web_source_no,document_tmp_fingerprint,document_attachment_extract_status]
			
 
				-        columns=[document_tmp_status,document_tmp_save,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle,document_tmp_sub_docs_json,document_tmp_extract_json,document_attachment_extract_status,document_update_document,document_province,document_city,document_district,document_tmp_attachment_path,document_tmp_web_source_no,document_tmp_web_source_name,document_tmp_source_stage,document_tmp_source_type]
			
 
				+        columns=[document_tmp_status,document_tmp_save,document_tmp_page_time,document_tmp_docchannel,document_tmp_tenderee,document_tmp_agency,document_tmp_doctitle,document_tmp_sub_docs_json,document_tmp_extract_json,document_attachment_extract_status,document_update_document,document_province,document_city,document_district,document_tmp_attachment_path,document_tmp_web_source_no,document_tmp_web_source_name,document_tmp_source_stage,document_tmp_source_type,'detail_link']
			
 
				+        # print('columns',columns)
			
 
				         item = self.get_attrs_before_dump(docid,columns)
			
 
				 
			
 
				         if item:
			
 
				             log("start dumplicate_comsumer_handle")
			
 
				-            self.dumplicate_comsumer_handle(item,None,self.ots_client,get_all=False,upgrade=True)
			
 
				+            self.dumplicate_comsumer_handle(item,None,self.ots_client,get_all=False,upgrade=False)
			
 
				             return
			
 
				 
			
 
				     def test_merge(self,list_docid_less,list_docid_greater):
			
@@ -5118,7 +5158,7 @@ if __name__ == '__main__':
 
				     # test_attachment_interface()
			
 
				     df_dump = Dataflow_dumplicate(start_delete_listener=False)
			
 
				     # df_dump.start_flow_dumplicate()
			
 
				-    df_dump.test_dumplicate(613075691
			
 
				+    df_dump.test_dumplicate(400075415256
			
 
				                             )
			
 
				     # df_dump.dumplicate_comsumer_handle_interface(603504420,document_table="document_0000",document_table_index="document_0000_index",project_table="project_0000",project_table_index="project_0000_index_formerge")
			
 
				     # compare_dumplicate_check()
			
--- a/BaseDataMaintenance/maxcompute/documentDumplicate.py
+++ b/BaseDataMaintenance/maxcompute/documentDumplicate.py
@@ -783,7 +783,7 @@ def check_money(bidding_budget_less,bidding_budget_greater,
 
				                 win_bid_price_less,win_bid_price_greater,
			
 
				                 moneys_less,moneys_greater,
			
 
				                 moneys_attachment_less,moneys_attachment_greater):
			
 
				-
			
 
				+    # print('bidding_budget_less',bidding_budget_less,'bidding_budget_greater',bidding_budget_greater)
			
 
				     bidding_budget_less_source = bidding_budget_less
			
 
				     bidding_budget_greater_source = bidding_budget_greater
			
 
				     win_bid_price_less_source = win_bid_price_less
			
@@ -816,9 +816,11 @@ def check_money(bidding_budget_less,bidding_budget_greater,
 
				 
			
 
				 
			
 
				         if budget_less!=budget_greater:
			
 
				-
			
 
				             if min(budget_less,budget_greater)>0:
			
 
				-                if max(budget_less,budget_greater)/min(budget_less,budget_greater)==10000:
			
 
				+                # if max(budget_less,budget_greater)/min(budget_less,budget_greater)==10000:
			
 
				+                # 金额单位错误，对比时为一万倍，考虑部分小数点后的数，9999<x<10001
			
 
				+                if (max(budget_less,budget_greater)/min(budget_less,budget_greater)>9999 and max(budget_less,budget_greater)/min(budget_less,budget_greater)<10001)\
			
 
				+                        or (max(bidding_budget_less_source,bidding_budget_greater_source)/min(bidding_budget_less_source,bidding_budget_greater_source)>9999 and max(bidding_budget_less_source,bidding_budget_greater_source)/min(bidding_budget_less_source,bidding_budget_greater_source)<10001):
			
 
				                     budget_is_same = True
			
 
				             if budget_less>10000 and budget_greater>10000 and round(budget_less/10000,2)==round(budget_greater/10000,2):
			
 
				                 budget_is_same = True
			
@@ -842,7 +844,9 @@ def check_money(bidding_budget_less,bidding_budget_greater,
 
				         if price_less!=price_greater:
			
 
				 
			
 
				             if min(price_less,price_greater)>0:
			
 
				-                if max(price_less,price_greater)/min(price_less,price_greater)==10000:
			
 
				+                # if max(price_less,price_greater)/min(price_less,price_greater)==10000:
			
 
				+                if (max(price_less,price_greater)/min(price_less,price_greater)>9999 and max(price_less,price_greater)/min(price_less,price_greater)<10001)\
			
 
				+                        or (max(win_bid_price_less_source,win_bid_price_greater_source)/min(win_bid_price_less_source,win_bid_price_greater_source)>9999 and max(win_bid_price_less_source,win_bid_price_greater_source)/min(win_bid_price_less_source,win_bid_price_greater_source)<10001):
			
 
				                     price_is_same = True
			
 
				             if price_less>10000 and price_greater>10000 and round(price_less/10000,2)==round(price_greater/10000,2):
			
 
				                 price_is_same = True
			
@@ -1241,6 +1245,8 @@ def check_dumplicate_rule(document_less,document_greater,min_counts,b_log=False,
 
				     punish_less = document_less.get("punish",{})
			
 
				     approval_less = document_less.get("approval",[])
			
 
				     source_type_less = document_less.get("source_type")
			
 
				+    detail_link_less = document_less.get("detail_link")
			
 
				+    is_special_bonds_less = document_less.get("is_special_bonds")
			
 
				 
			
 
				 
			
 
				     docid_greater = document_greater["docid"]
			
@@ -1264,6 +1270,8 @@ def check_dumplicate_rule(document_less,document_greater,min_counts,b_log=False,
 
				     province_greater = document_greater.get("province")
			
 
				     city_greater = document_greater.get("city")
			
 
				     district_greater = document_greater.get("district")
			
 
				+    detail_link_greater = document_greater.get("detail_link")
			
 
				+    is_special_bonds_greater = document_greater.get("is_special_bonds")
			
 
				 
			
 
				     moneys_greater = document_greater.get("moneys")
			
 
				     moneys_attachment_greater = document_greater.get("moneys_attachment")
			
@@ -1322,7 +1330,6 @@ def check_dumplicate_rule(document_less,document_greater,min_counts,b_log=False,
 
				         if b_log:
			
 
				             logging.info("same web_site,both has attach but not same web_source_no_less:%s,web_source_no_greater:%s"%(web_source_no_less,web_source_no_greater))
			
 
				         return 0
			
 
				-
			
 
				     if isinstance(project_codes_less,str):
			
 
				         project_codes_less = [a for a in project_codes_less.split(",") if a!=""]
			
 
				     elif project_codes_less is None:
			
@@ -1333,6 +1340,73 @@ def check_dumplicate_rule(document_less,document_greater,min_counts,b_log=False,
 
				     elif project_codes_greater is None:
			
 
				         project_codes_greater = []
			
 
				 
			
 
				+    # 采购意向去重
			
 
				+    if docchannel_greater==docchannel_less==114:
			
 
				+        sign = True
			
 
				+        demand_info_less = document_less.get("demand_info",[])
			
 
				+        demand_info_greater = document_greater.get("demand_info",[])
			
 
				+        # if demand_info_less and not demand_info_greater:
			
 
				+        #     sign = False
			
 
				+        # elif not demand_info_less and demand_info_greater:
			
 
				+        #     sign = False
			
 
				+        # elif demand_info_less and demand_info_greater:
			
 
				+        if demand_info_less and demand_info_greater:
			
 
				+            # 重新确定demand_info的数量排序,按大小排序
			
 
				+            if len(demand_info_greater)<len(demand_info_less):
			
 
				+                _demand_info_less = demand_info_greater
			
 
				+                _demand_info_greater = demand_info_less
			
 
				+                demand_info_less = _demand_info_less
			
 
				+                demand_info_greater = _demand_info_greater
			
 
				+            for item1 in demand_info_less:
			
 
				+                tmp_project_name_less = re.sub("\s","",item1.get("project_name","").strip())
			
 
				+                tmp_project_name_less = tmp_project_name_less.replace("（","(").replace("）",")")
			
 
				+                tmp_budget_less = float(item1.get("budget",0) if item1.get("budget",0) else 0)
			
 
				+                tmp_order_begin_less = item1.get("order_begin","")
			
 
				+                tmp_order_end_less = item1.get("order_end", "")
			
 
				+                get_same = False
			
 
				+                for item2 in demand_info_greater:
			
 
				+                    tmp_project_name_greater = re.sub("\s", "", item2.get("project_name", "").strip())
			
 
				+                    tmp_project_name_greater = tmp_project_name_greater.replace("（", "(").replace("）", ")")
			
 
				+                    tmp_budget_greater = float(item2.get("budget",0) if item2.get("budget",0) else 0)
			
 
				+                    tmp_order_begin_greater = item2.get("order_begin", "")
			
 
				+                    tmp_order_end_greater = item2.get("order_end", "")
			
 
				+                    # 项目名称相同或包含关系，预算金额对比，预计采购时间开始或结束相等（只对比到月份）
			
 
				+                    if (tmp_project_name_less==tmp_project_name_greater or
			
 
				+                        (len(tmp_project_name_less)>0 and len(tmp_project_name_greater)>0 and (tmp_project_name_less.find(tmp_project_name_greater)>=0 or tmp_project_name_greater.find(tmp_project_name_less)>=0))) and \
			
 
				+                            check_money(tmp_budget_less,tmp_budget_greater,0,0,[],[],[],[]) and \
			
 
				+                            (tmp_order_begin_less[:7]==tmp_order_begin_greater[:7] or tmp_order_end_less[:7]==tmp_order_end_greater[:7]):
			
 
				+                        get_same = True
			
 
				+                        break
			
 
				+                if not get_same:
			
 
				+                    sign = False
			
 
				+                    break
			
 
				+        if not sign:
			
 
				+            return 0
			
 
				+        else:
			
 
				+            if demand_info_greater and len(demand_info_greater)==len(demand_info_less):# demand_info完全相同
			
 
				+                return 1
			
 
				+
			
 
				+    # 专项债去重
			
 
				+    if is_special_bonds_greater==is_special_bonds_less==1:
			
 
				+        detail_link_less = detail_link_less.strip() if detail_link_less else ""
			
 
				+        detail_link_greater = detail_link_greater.strip() if detail_link_greater else ""
			
 
				+        if "bondId=" in detail_link_less:
			
 
				+            bondId_less = detail_link_less.split("bondId=")[1]
			
 
				+            bondId_less = bondId_less.split(",") if bondId_less else []
			
 
				+        else:
			
 
				+            bondId_less = []
			
 
				+        if "bondId=" in detail_link_greater:
			
 
				+            bondId_greater = detail_link_greater.split("bondId=")[1]
			
 
				+            bondId_greater = bondId_greater.split(",") if bondId_greater else []
			
 
				+        else:
			
 
				+            bondId_greater = []
			
 
				+        # print('bondId_less',bondId_less)
			
 
				+        # print('bondId_greater',bondId_greater)
			
 
				+        if bondId_less and bondId_greater:
			
 
				+            bondId_less = set(bondId_less)
			
 
				+            bondId_greater = set(bondId_greater)
			
 
				+            if bondId_less.issubset(bondId_greater) or bondId_greater.issubset(bondId_less):
			
 
				+                return 1
			
 
				 
			
 
				     same_count = 0
			
 
				     all_count = 8