Download Latest Version 8.1.0 source code.tar.gz (61.9 kB)
Email in envelope

Get an email when there's a new version of eSearch-OCR

Home / 4.0.0
Name Modified Size InfoDownloads / Week
Parent folder
4.0.0.tar.gz 2023-07-09 25.9 kB
4.0.0.zip 2023-07-09 29.6 kB
README.md 2023-07-09 1.1 kB
Totals: 3 Items   56.6 kB 0

支持空格识别了! 按理来说paddleocr的onnx模型是支持空格的,但我本以为是图像预处理问题,由于我对python的调试不是很了解,所以旧先用简单的分词去暂时修复空格识别问题。 最近着手修复这个问题,注意到ppocr_keys_v1.txt字典文件本身不包含空格,我开始怀疑是decode出了问题。 paddleocr源码里通过use_space这个参数自动为字典追加一个空格,而3.0.0的源码里没有这个操作(decode部分摘自paddlejs)。这样的话,当ocr识别出空格,应该会返回undefined(超出索引),可调试时并没有。于是乎,我发现了盲点: https://github.com/xushengfeng/eSearch-OCR/blob/a1e940a12be069500218b8b7a273796e0597ea1c/js/js.js#L253 中的pred_len - 1,起初我认为是由于列表区间开闭问题所以才添加的,后来我发现,Array.prototype.slice()不包括end,所以空格索引被意外裁剪了。

Full Changelog: https://github.com/xushengfeng/eSearch-OCR/compare/3.0.0...4.0.0

Source: README.md, updated 2023-07-09