Menu

How to create tiff files for training

Help
Dec Snow
2014-12-01
2014-12-17
  • Dec Snow

    Dec Snow - 2014-12-01

    Hi Quan,

    If possible, please let me know how to create tiff files for training,

    Thanks!

     

    Last edit: Quan Nguyen 2014-12-02
  • Quan Nguyen

    Quan Nguyen - 2014-12-02

    In TIFF/Box Generator tab in jTessBoxEditor, either paste some text or open a UTF-8-encoded text file of a few pages long, select a compatible font, and then click Generate button to create a TIFF/Box pair you can use for training.

    http://vietocr.sourceforge.net/training.html

     
  • Dec Snow

    Dec Snow - 2014-12-09

    Quan, thanks so much!

     
  • Dec Snow

    Dec Snow - 2014-12-09

    Chào Quân,

    Có nguyên tắc soạn text nào để gen TIFF/Box files để cho chất lượng nhận dạng tốt nhất không?
    Mình đã sử dụng "vie-data.txt" của bạn để tạo thêm TIFF/Box files cho một số fonts mới, ví dụ như Cambria, Calibri ... sau đó huấn luyện cùng với các TIFF/Box files của bạn (Arial, Courier New, Tahoma, Times New Roman, Vernada) nhưng kết quả nhận dạng lại tồi hơn
    Mình cũng đã thử nghiệm tạo ngẫu nhiên text trong đó các ký tự lặp lại hơn 20 lần, nhưng kết quả vẫn tồi hơn file huấn luyện trong VietOCR
    Bạn có thể chia sẻ kinh nghiệm huấn luyện tiếng Việt cho kết quả tốt hơn được không?

    Thanks bạn nhiều!

     

    Last edit: Dec Snow 2014-12-09
  • Quan Nguyen

    Quan Nguyen - 2014-12-12

    Tôi đã sử dụng cùng "vie-data.txt", mà nội dung tuân theo tiêu chuẩn đề ra trong tài liệu training Tesseract, cho tất cả các font để tiện việc edit.

    Những ảnh đầu tiên cho việc tập huấn cho Tiếng Việt được tạo bởi Photoshop hay GIMP có cho kết quả OCR chính xác lên đến 97% trong Tesseract 2.0x. Tính năng tạo đôi TIFF/Box được thiết kế sau này cho jTessBoxEditor để cho thuận tiện và loại bớt công việc edit box file.

    Bạn thử tạo ảnh lại với PS/GIMP thử xem có kết quả tốt hơn không. Nên nhớ rằng box file tạo ra từ Tesseract executable sẽ có nhiều lỗi, sẽ mất nhiều thời gian để sửa chữa và đòi hỏi đúng 100%, bởi nếu sai chỉ vài ký tự sẽ ảnh hưởng tiêu cực tới kết quả OCR.

     
  • Dec Snow

    Dec Snow - 2014-12-12

    Cảm ơn Quân,

    Ngoài words list và frequent words list, unicharambigs Quân có dùng thêm các từ điển khác không?
    Trong file unicharambigs có ghi các giá trị 2, 3 (ở cuối mỗi dòng):
    v2
    1 " 2 ' ' 3
    1 " 1 “ 2
    1 " 1 ” 2
    1 ' 1 " 2
    Mấy giá trị 2, 3 này có nghĩa là gì? Trên trang Tesseract chỉ ghi ý nghĩa của các giá trị và 0 và 1.

     
  • Quan Nguyen

    Quan Nguyen - 2014-12-12

    Không, chỉ dùng 2 danh sách đó thôi. Mang nghi ngờ đã lâu, mới đây tôi xác định Tesseract, trong bước postprocess, đã thay chữ Việt đã được OCR đúng với chữ sai dấu (tôi -> tội) hoặc, tệ hại hơn nữa, với chữ không hiện hữu trong dictionary (tựu -> tưu). Điều này đã ảnh hưởng nhiều tới độ chính xác Tiếng Việt ở phương diện dấu thanh trong Tesseract 3.0x version. Disable dictionary sẽ thấy tác dụng này. Tôi dự định sẽ report vấn đề này cho nhóm Tesseract.

    Nếu search kỹ, bạn đã có thể tìm ý nghĩa của các giá trị đó trong file ambigs.h.

     
  • Dec Snow

    Dec Snow - 2014-12-17

    Cảm ơn Quân nhiều!

     

Log in to post a comment.