|
@@ -2293,6 +2293,8 @@ def get_preprocessed_article(articles,cost_time = dict(),useselffool=True):
|
|
|
article_processed = re.sub('备选中标人', '第二候选人', article_processed) # 341344142 # 2023/7/17 特殊表达修改
|
|
|
if web_source_no.startswith('DX002756-'):
|
|
|
article_processed = re.sub('状态:(进行中|已结束)单位', ',项目单位', article_processed) # 376225646
|
|
|
+ if web_source_no.startswith('DX006116-') and re.search('结果公告如下:.{5,50},单位名称:', article_processed): # 2023/11/20 特殊处理 381591924 381592533 这种提取不到情况
|
|
|
+ article_processed = re.sub(',单位名称:', ',供应商名称:', article_processed)
|
|
|
ser = re.search('(采购|招标|比选)人(名称)?/(采购|招标|比选)?代理机构(名称)?:(?P<tenderee>[\w()]{4,25}(/[\w()]{4,25})?)/(?P<agency>[\w()]{4,25})[,。]', article_processed)
|
|
|
if ser:
|
|
|
article_processed = article_processed.replace(ser.group(0), '采购人名称:%s,采购代理机构名称:%s,' % (ser.group('tenderee'), ser.group('agency')))
|