Bladeren bron

bidway名称统一

znj 3 jaren geleden
bovenliggende
commit
1d4a6ca7ec

+ 29 - 2
BiddingKG/dl/bidway/re_bidway.py

@@ -385,6 +385,32 @@ def extract_bidway(text, title):
         # print(d.get("body"), d.get("begin_index"), d.get("end_index"))
     return list_bidway
 
+bidway_dict = {'询价': '询价', '竞争性谈判': '竞争性谈判',
+               '公开比选': '其他', '国内竞争性磋商': '竞争性磋商',
+               '招标方式:t公开': '公开招标', '竞价': '竞价',
+               '竞标': '竞价', '电子竞价': '竞价',
+               '电子书面竞投': '竞价', '单一来源': '单一来源',
+               '网上竞价': '竞价', '公开招标': '公开招标',
+               '询比': '询价', '定点采购': '其他',
+               '招标方式:■公开': '公开招标', '交易其他,付款其他': '其他',
+               '竞争性评审': '竞争性磋商', '公开招租': '其他', '\\N': '',
+               '比选': '其他', '比质比价': '其他', '分散采购': '其他',
+               '内部邀标': '邀请招标', '邀请招标': '邀请招标',
+               '网上招标': '公开招标', '非定向询价': '询价',
+               '网络竞价': '竞价', '公开询价': '询价',
+               '定点采购议价': '其他', '询单': '询价',
+               '网上挂牌': '其他', '网上直购': '其他',
+               '定向询价': '询价', '采购方式:公开': '公开招标',
+               '磋商': '竞争性磋商', '公开招投标': '公开招标',
+               '招标方式:√公开': '公开招标', '公开选取': '公开招标',
+               '网上电子投标': '公开招标', '公开竞谈': '竞争性谈判',
+               '竞争性磋商': '竞争性磋商', '采购方式:邀请': '邀请招标',
+               '公开竞价': '竞价', '其他': '其他', '公开招募': '其他',
+               '网上询价': '询价'}
+# bidway名称统一规范
+def bidway_integrate(bidway):
+    integrate_name = bidway_dict.get(bidway,"其他")
+    return integrate_name
 
 def test_csv():
     df = pd.read_csv("C:\\Users\\Administrator\\Desktop\\bidway_text.csv")
@@ -441,7 +467,8 @@ def test_html():
 if __name__ == "__main__":
     # extract_bidway(s)
 
-    test_csv()
-    # test_str()
+    # test_csv()
+    test_str()
     # test_html()
+    pass
 

+ 3 - 1
BiddingKG/dl/interface/Preprocessing.py

@@ -16,7 +16,7 @@ from BiddingKG.dl.common.nerUtils import *
 from BiddingKG.dl.money.moneySource.ruleExtra import extract_moneySource
 from BiddingKG.dl.time.re_servicetime import extract_servicetime
 from BiddingKG.dl.relation_extraction.re_email import extract_email
-from BiddingKG.dl.bidway.re_bidway import extract_bidway
+from BiddingKG.dl.bidway.re_bidway import extract_bidway,bidway_integrate
 from BiddingKG.dl.fingerprint.documentFingerprint import getFingerprint
 from BiddingKG.dl.entityLink.entityLink import *
 
@@ -1489,6 +1489,8 @@ def get_preprocessed_article(articles,cost_time = dict(),useselffool=True):
         list_bidway = extract_bidway(article_processed, _title)
         if list_bidway:
             bidway = list_bidway[0].get("body")
+            # bidway名称统一规范
+            bidway = bidway_integrate(bidway)
         else:
             bidway = ""
 

+ 1 - 1
BiddingKG/dl/test/测试整个要素提取流程.py

@@ -69,7 +69,7 @@ class MyEncoder(json.JSONEncoder):
 
 
 def predict(doc_id,text):
-    list_articles,list_sentences,list_entitys,_ = Preprocessing.get_preprocessed([[doc_id,text,"","",""]],useselffool=True)
+    list_articles,list_sentences,list_entitys,_ = Preprocessing.get_preprocessed([[doc_id,text,"","","",""]],useselffool=True)
     for articles in list_articles:
         print('预处理后文本信息')
         print(articles.content)