VietOCR.NET

English | Vietnamese

MÔ TẢ

VietOCR.NET là một .NET GUI frontend cho Tesseract OCR engine, cung cấp hỗ trợ nhận dạng ký tự cho các dạng ảnh phổ thông, và ảnh chứa nhiều trang. Chương trình có phần hậu xử lý giúp sửa chữa các lỗi thường gặp trong quy trình OCR, tăng độ chính xác trên kết quả.

ĐÒI HỎI KỸ THUẬT

Microsoft .NET Framework 2.0 Redistributable.

CÀI ĐẶT

Nếu bạn không có quyền cài đặt (install) dưới C:\Program Files folder, bạn hãy chỉ định một folder khác trong Install Installation Folder dialog.

HƯỚNG DẪN

Các gói data ngôn ngữ (language data packs) cho Tesseract nên được giải nén vào tesseract installation folder; các data files, có tên bắt đầu với mã ISO639-3, sẽ được đặt vào tessdata subdirectory. Tesseract hiện tại chỉ có thể nhận dạng hình uncompressed TIFF; tuy nhiên, VietOCR.NET cho khả năng nhận diện các loại ảnh khác.

Bộ Vietnamese language data được tạo cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyph trông khác các font hỗ trợ thông thường sẽ đòi hỏi tập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.

Hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc grayscale. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt, và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số cho quét ảnh tiêu biểu là 300 DPI và 1 bpp (bit per pixel) trắng đen hoặc 8 bpp grayscale dạng TIFF.

Thông tin sau đây liên quan đến quy trình OCR nhận diện Tiếng Việt. Các lỗi nhận diện ký tự Việt có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả.

Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.

Sau đây là hướng dẫn cách sửa chữa 1 cách nhanh chóng và hiệu quả 2 loại lỗi đầu tiên, sử dụng chương trình VietPad (cả phiên bản Java và .NET). Quy trình có thể tóm tắt như sau:

  1. Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, các hàng chữ đứng riêng trong các đoạn 1 hàng (1-line paragraph). Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
  2. Cũng trong menu Định dạng , bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
  3. Sửa lỗi chính tả bằng tính năng Dò chính tả dưới menu Công cụ.

Qua các bước trên, mức chính xác có thể vượt hơn 99%. Những lỗi ngữ nghĩa semantic còn lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu muốn.

Mọi thắc mắc, xin đăng trong Diễn Đàn VietUnicode.