|
@@ -79,7 +79,7 @@ def predict(doc_id,text):
|
|
codeName = codeNamePredict.predict(list_sentences,list_entitys=list_entitys)
|
|
codeName = codeNamePredict.predict(list_sentences,list_entitys=list_entitys)
|
|
print(codeName)
|
|
print(codeName)
|
|
premPredict.predict(list_sentences,list_entitys)
|
|
premPredict.predict(list_sentences,list_entitys)
|
|
- roleRulePredict.predict(list_articles,list_sentences, list_entitys,codeName)
|
|
|
|
|
|
+ # roleRulePredict.predict(list_articles,list_sentences, list_entitys,codeName)
|
|
print("epcPredict")
|
|
print("epcPredict")
|
|
epcPredict.predict(list_sentences,list_entitys)
|
|
epcPredict.predict(list_sentences,list_entitys)
|
|
print("entityLink")
|
|
print("entityLink")
|
|
@@ -113,9 +113,9 @@ def test(name,content):
|
|
|
|
|
|
if __name__=="__main__":
|
|
if __name__=="__main__":
|
|
# filename = "比地_52_79929693.html"
|
|
# filename = "比地_52_79929693.html"
|
|
- # #text = codecs.open("C:\\Users\\User\\Desktop\\数据20191014\\"+filename,"r",encoding="utf8").read()
|
|
|
|
- # text = codecs.open("C:\\Users\\User\\Desktop\\2.html","r",encoding="utf8").read()
|
|
|
|
- # content = str(BeautifulSoup(text).find("div",id="pcontent"))
|
|
|
|
|
|
+ #text = codecs.open("C:\\Users\\User\\Desktop\\数据20191014\\"+filename,"r",encoding="utf8").read()
|
|
|
|
+ text = codecs.open("C:\\Users\\User\\Desktop\\2.html","r",encoding="utf8").read()
|
|
|
|
+ content = str(BeautifulSoup(text).find("div",id="pcontent"))
|
|
# df_a = {"html":[]}
|
|
# df_a = {"html":[]}
|
|
# df_a["html"].append(re.sub('\r|\n|\r\n',"",content))
|
|
# df_a["html"].append(re.sub('\r|\n|\r\n',"",content))
|
|
# import pandas as pd
|
|
# import pandas as pd
|
|
@@ -134,13 +134,12 @@ if __name__=="__main__":
|
|
# 建设资金来源及性质:资本金40%,自筹60%,,xx.=建设资金来源自筹,项目出资比例为100%,\
|
|
# 建设资金来源及性质:资本金40%,自筹60%,,xx.=建设资金来源自筹,项目出资比例为100%,\
|
|
# 二次供水泵房浊度仪进行国内组织公开招标采购,时间:2020-05-26,15:15:00,竞价结束时间:2020-05-26,15:45:00允许延时:是,'
|
|
# 二次供水泵房浊度仪进行国内组织公开招标采购,时间:2020-05-26,15:15:00,竞价结束时间:2020-05-26,15:45:00允许延时:是,'
|
|
a = time.time()
|
|
a = time.time()
|
|
- text = '''
|
|
|
|
- ,光大证券统一认证系统服务器硬件设备更新项目中标候选人公示,项目名称:光大证券统一认证系统服务器硬件设备更新项目,招标编号:CG-202011-030-001,公告日期:2020年12月3日,评标日期:2020年11月30日13时32分,评标地点:光大证券集中采购管理平台,推荐中标候选人:上海致为信息技术有限公司,联系人:殷志超,联系电话:021-22169419
|
|
|
|
- '''
|
|
|
|
|
|
+ # text = '''
|
|
|
|
+ # ,光大证券统一认证系统服务器硬件设备更新项目中标候选人公示,项目名称:光大证券统一认证系统服务器硬件设备更新项目,招标编号:CG-202011-030-001,公告日期:2020年12月3日,评标日期:2020年11月30日13时32分,评标地点:光大证券集中采购管理平台,推荐中标候选人:上海致为信息技术有限公司,联系人:殷志超,联系电话:021-22169419
|
|
|
|
+ # '''
|
|
print("start")
|
|
print("start")
|
|
- # print(predict("12",content))
|
|
|
|
- # 评审专家 100005322
|
|
|
|
- print(predict("投诉处理公告", text))
|
|
|
|
|
|
+ print(predict("12",content))
|
|
|
|
+ # print(predict("投诉处理公告", text))
|
|
#test("12",text)
|
|
#test("12",text)
|
|
print("takes",time.time()-a)
|
|
print("takes",time.time()-a)
|
|
pass
|
|
pass
|