瀏覽代碼

附件文本无法识别的问题

luojiehua 3 年之前
父節點
當前提交
4c4e85637a
共有 2 個文件被更改,包括 5 次插入3 次删除
  1. 1 0
      BiddingKG/dl/interface/Preprocessing.py
  2. 4 3
      BiddingKG/dl/test/test4.py

+ 1 - 0
BiddingKG/dl/interface/Preprocessing.py

@@ -1464,6 +1464,7 @@ def get_preprocessed_article(articles,cost_time = dict(),useselffool=True):
     for article in articles:
         doc_id = article[0]
         sourceContent = article[1]
+        sourceContent = re.sub("<html>|</html>|<body>|</body>","",sourceContent)
         _send_doc_id = article[3]
         _title = article[4]
         #表格处理

文件差異過大導致無法顯示
+ 4 - 3
BiddingKG/dl/test/test4.py


部分文件因文件數量過多而無法顯示