ソースを参照

公告内容截断修复

luojiehua 2 年 前
コミット
141b4b02c9
1 ファイル変更3 行追加2 行削除
  1. 3 2
      BaseDataMaintenance/maintenance/dataflow_mq.py

+ 3 - 2
BaseDataMaintenance/maintenance/dataflow_mq.py

@@ -754,9 +754,10 @@ class Dataflow_ActivteMQ_extract(Dataflow_extract):
 
             html_len = len(_dochtmlcon)
             if html_len>200000:
-                if int(item.get("docid"))==238431011:
-                    save(item,"238431011.pk")
+                # if int(item.get("docid"))==238431011:
+                #     save(item,"238431011.pk")
                 try:
+                    _dochtmlcon = re.sub("<html>|</html>|<body>|</body>", "", _dochtmlcon)
                     _soup = BeautifulSoup(_dochtmlcon,"lxml")
                     _soup = article_limit(_soup,200000)
                     _dochtmlcon = str(_soup)