zhounaijun/PytorchOCR @ c4a2410ca7389df24d7e438a3f3733adc2a40b1f

文字检测

数据准备

PytorchOCR的检测模块只支持JsonDataset 形式的数据格式

构造数据集 JsonDataset 使用 json 格式来存储标注信息，具体格式为

"data_root": "存放图片文件的目录",
"data_list": [
      {
        "img_name": "relative/path/xxx.jpg",# 图片相对于 data_root 的相对路径
        "annotations": [ # 当前图片的所有标注
            "polygon": [[x1,y1],[x2,y2],...,[xn,yn]], # 文本框的多点标注
            "text": "label", # 文本框内容
            "illegibility":false, # 是否模糊
            "language":"Latin", # 文本语言类型
            "chars": [  # 当前文本框的字符集标注，标注含义同上
                  "polygon": [[x1,y1],[x2,y2],...,[xn,yn]],
                  "char": "c",
                  "illegibility": false,
                  "language":"Latin"
            ]
         ]
      } 
  ]

我们提供了转换工具以方便开发者将现有的公开数据集进行转换

除此之外，我们也为你准备了一批准换好的公开数据集，具体请参考 https://github.com/WenmuZhou/OCR_DataSet

启动训练

PytorchOCR提供了训练脚本和预测脚本，本节将以 DB 检测模型为例，按照如下步骤启动训练：

从百度网盘pytorchocr/det/imagenet下载预训练模型并放于PytorchOCR/weights目录下
拷贝config/det_train_db_config.py 为自己的配置文件
修改配置文件
- 必须修改的字段说明
  1. config.dataset.train.dataset.file: 训练集json文件路径
  2. config.dataset.eval.dataset.file: 验证集集json文件路径
- 可选修改字段说明
- config.train_options.checkpoint_save_dir: 模型和日志文件保存地址
其他字段可根据需要修改

通过如下命令启动训练

CUDA_VISIBLE_DEVICES=0 python3 tools/det_train.py --config '你的配置文件路径'

PytorchOCR支持训练和评估交替进行, 可以在 config.train_options中修改 val_interval 设置评估频率，评估过程中默认将最佳hmean模型，保存为 best.pth。

恢复训练

只需修改 config.train_options.resume_from 为模型地址，即可从该模型断掉的地方继续训练

预测

通过以下命令启动预测

CUDA_VISIBLE_DEVICES=0 python3 tools/det_infer.py --model_path '' --img_path ''

检测.md 2.5 KB Історія Запис

文字检测

数据准备

启动训练

恢复训练

预测

检测.md 2.5 KB

Історія Запис