|
@@ -5489,7 +5489,7 @@ class DistrictPredictor():
|
|
|
return ''
|
|
|
|
|
|
def get_bid_addr(text):
|
|
|
- p2 = '(磋商|谈判|开标|投标|评标|报名|递交|评审|发售)(地址|地点|所在地区?):(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[,。])'
|
|
|
+ p2 = '(磋商|谈判|开标|投标|评标|报名|递交|评审|发售|所属)(地址|地点|所在地区?|地域):(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[,。])'
|
|
|
if re.search(p2, text):
|
|
|
return re.search(p2, text).group('addr')
|
|
|
else:
|
|
@@ -5525,6 +5525,8 @@ class DistrictPredictor():
|
|
|
if re.search('[省市区县旗盟]$', it.group(0)) == None and re.search(
|
|
|
'^([东南西北中一二三四五六七八九十大小]?(村|镇|街|路|道|社区)|酒店|宾馆)', text[it.end():]):
|
|
|
continue
|
|
|
+ if it.group(0) == '站前': # 20240314 修复类似 中铁二局新建沪苏湖铁路工程站前VI标项目 错识别为 省份:辽宁, 城市:营口,区县:站前
|
|
|
+ continue
|
|
|
addr.append((it.group(0), it.start(), it.end()))
|
|
|
if re.search('^([分支](公司|局|行|校|院|干?线)|\w{,3}段|地铁|(火车|高铁)?站|\w{,3}项目)', text[it.end():]):
|
|
|
addr.append((it.group(0), it.start(), it.end()))
|
|
@@ -5532,6 +5534,8 @@ class DistrictPredictor():
|
|
|
|
|
|
def get_pro_city_dis_score(text, text_weight=1):
|
|
|
text = re.sub('复合肥|海南岛|兴业银行|双河口', '', text)
|
|
|
+ text = re.sub('珠海城市', '珠海', text) # 修复 426624023 珠海城市 预测为海城市
|
|
|
+ text = re.sub('怒江州', '怒江傈僳族自治州', text) # 修复 423589589 所属地域:怒江州 识别为广西 - 崇左 - 江州
|
|
|
province_l = find_areas(p_pro, text)
|
|
|
city_l = find_areas(p_city, text)
|
|
|
district_l = find_areas(p_dis, text)
|