Procházet zdrojové kódy

修复站前、怒江州、珠海城市地区匹配

lsm před 1 rokem
rodič
revize
e0091aa61c
1 změnil soubory, kde provedl 5 přidání a 1 odebrání
  1. 5 1
      BiddingKG/dl/interface/predictor.py

+ 5 - 1
BiddingKG/dl/interface/predictor.py

@@ -5489,7 +5489,7 @@ class DistrictPredictor():
                 return ''
 
         def get_bid_addr(text):
-            p2 = '(磋商|谈判|开标|投标|评标|报名|递交|评审|发售)(地址|地点|所在地区?):(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[,。])'
+            p2 = '(磋商|谈判|开标|投标|评标|报名|递交|评审|发售|所属)(地址|地点|所在地区?|地域):(?P<addr>(\w{1,13}(自治[区州县旗]|地区|[省市区县旗盟])[^\w]*)+|\w{2,15}[,。])'
             if re.search(p2, text):
                 return re.search(p2, text).group('addr')
             else:
@@ -5525,6 +5525,8 @@ class DistrictPredictor():
                 if re.search('[省市区县旗盟]$', it.group(0)) == None and re.search(
                         '^([东南西北中一二三四五六七八九十大小]?(村|镇|街|路|道|社区)|酒店|宾馆)', text[it.end():]):
                     continue
+                if it.group(0) == '站前': # 20240314 修复类似 中铁二局新建沪苏湖铁路工程站前VI标项目 错识别为 省份:辽宁, 城市:营口,区县:站前
+                    continue
                 addr.append((it.group(0), it.start(), it.end()))
                 if re.search('^([分支](公司|局|行|校|院|干?线)|\w{,3}段|地铁|(火车|高铁)?站|\w{,3}项目)', text[it.end():]):
                     addr.append((it.group(0), it.start(), it.end()))
@@ -5532,6 +5534,8 @@ class DistrictPredictor():
 
         def get_pro_city_dis_score(text, text_weight=1):
             text = re.sub('复合肥|海南岛|兴业银行|双河口', '', text)
+            text = re.sub('珠海城市', '珠海', text) # 修复 426624023 珠海城市 预测为海城市
+            text = re.sub('怒江州', '怒江傈僳族自治州', text) # 修复 423589589  所属地域:怒江州 识别为广西 - 崇左 - 江州
             province_l = find_areas(p_pro, text)
             city_l = find_areas(p_city, text)
             district_l = find_areas(p_dis, text)