Menu

Nhận diện kí tự trong phim

Help
2016-06-14
2016-11-07
  • Kobayashi Fubuki

    AD ơi, cho em hỏi là có cách nào nhận diện được kí tự phụ đề tiếng việt trong phim không ạ, như chữ trong hình này nè http://i.imgur.com/RZa3kEV.jpg tại em đang muốn sử dụng Video Sub Finder để trích xuất phụ đề bị hardsub ra hình, rồi sau đó dùng OCR để quét chữ trong video ra text và tạo lại thành một file sub, vì nhiều bộ phim bị ghép phụ đề dính cứng vào trong video chuẩn 480p, nên em muốn trích xuất phụ đề ra để ghép vào video 1080p xem ạ, em nghĩ nếu OCR có thể nhận dạng được chữ trong video, thì những người thích xem phim chất lượng cao nhất như em sẽ rất biết ơn ad ấy ạ T T, em mò suốt 2 ngày nay thử đủ phần mềm nhưng vẫn không thể nào đọc được, nên em có một góp ý là, để nhận diện các dấu sắc, huyền, ngã, hỏi, trong video có lẽ là khá khó, vậy liệu ad có thể thêm tùy chọn chỉ nhận diện kí tự latin trong 24 chữ cái và số, còn tất cả các dấu đều bỏ không nhận diện được không ạ, rồi sau đó sử dụng phần mềm tự động thêm dấu, như vầy không chính xác 100% nhưng em nghĩ ít ra cũng sẽ chính xác hơn hiện tại ạ hoặc nếu không thì em có góp ý khác là hầu hết, hầu hết chữ phụ đề đều có màu viền chữ, liệu có thể để người dùng chọn màu viền chữ hoặc chữ không ạ, như vầy có lẽ sẽ đọc tốt hơn, xin ad ấy giúp em với T T điều này em nghĩ cũng có ít cho một số hình khó nhận dạng mà > <

     
  • Quan Nguyen

    Quan Nguyen - 2016-06-14

    Bạn hãy đọc qua tài liệu của Tesseract để biết thêm về khả năng nhận dạng và cách tùy biến customize OCR engine để làm điều bạn muốn.

    Nét chữ trong hình trên trông rõ, sắc nét, tốt cho việc nhận dạng, nhưng đó là 1 font đặc biệt nên bạn sẽ cần tập huấn Tessseract.

    Và để tăng phần chính xác, bạn cần lọc sạch background để ảnh chỉ còn nét chữ (glyph) đen trên nền trắng mà thôi. Công đoạn này cần hiểu biết về image processing để lọc ảnh, giúp loại trừ những noise hoặc artifact chi phối ảnh hưởng tiêu cực đến việc nhận dạng. Bạn hãy search web để tìm hiểu các technique xử lý ảnh.

    Nói chung là công việc khá phức tạp, nhiều công đoạn, đòi hỏi nhiều công phu và thử nghiệm.

     
  • Kobayashi Fubuki

    À về phần lọc sạch nền thì phần mềm Video Sub Finder đã làm giúp em rồi, dưới đây là hình đã qua lọc bằng video sub finder nè ad, nhưng mà sau khi lọc thì nó mất dấu tùm lùm :(( nên giờ em chỉ cần nhận diện được chữ cái không dấu rồi sử dụng phần mềm tự thêm dấu vào là ổn,vì em có thử để VietOCR đọc thì nó vẫn nhận diện được các kí tự chữ cái, chỉ có dấu là không được :(( mà em không biết tiếng anh, mà dùng google dịch thì khó hiểu quá, nên em có xem hướng dẫn đào tạo + khả năng tùy biến mà không hiểu :(( cả phần tập huấn cho Tesseract nữa, Em cũng có tải jTessBoxEditorFX về dùng thử, nhưng mà em cũng không hiểu phải dùng sao luôn T T Ad có thể trình bày cho nó dễ hiểu như phần huấn luyện của phần mềm ABBYY FineReader được không ạ, em có dùng phần mềm ABBYY, nhưng mà em thấy nó nhận diện không được tốt bằng VietOCR, mà em nghĩ nếu có thể thì ad có thể lấy thuật toán lọc ảnh bên Video Sub Finder về dùng cũng được mà, nó cũng là mã nguồn mở, em chỉ nói vầy thôi, có gì không phải ad bỏ qua ạ ^^ tại em thật sự cần cái này mà không biết phải làm sao :(((

     
  • Quan Nguyen

    Quan Nguyen - 2016-06-15

    Ảnh kết quả sau khi lọc sạch nền trông khá tốt, tuy dấu thanh bị rơi rớt ít nhiều. Nếu có thể, bạn hãy dùng TIFF hay PNG image format; JPEG thường có noise nhiễu, làm giảm độ chính xác.

    Font đó có lẽ không được hỗ trợ, cho nên bạn sẽ có kết quả khả quan hơn sau khi train Tesseract. Sau khi bạn đọc kỹ tài liệu Tesseract, việc sử dụng jTessBoxEditor tool sẽ trực quan hơn. Bạn hãy search tìm font đó tên gì để tạo ảnh training phù hợp.

    Bạn có thể sử dụng ct VietPad để tước dấu và điền dấu Tiếng Việt.

     
  • Kobayashi Fubuki

    Cảm ơn ad nhiều ạ ^^

     
  • Kobayashi Fubuki

    Ad ơi, cho em hỏi là liệu có thể để phần mềm vietocr mở nhiều ảnh cùng một lúc, rồi sau khi quét xong có thể lưu lại từng kết quả đã ocr của từng ảnh trong từng file text có cùng tên với ảnh đã ocr được không ạ

     
  • Quan Nguyen

    Quan Nguyen - 2016-07-08

    Chương trình không hỗ trợ mở nhiều file cùng một lúc, nhưng bạn có thể dùng Bulk OCR hoặc Batch OCR function.

     
  • Ngô Duy Hoàng

    Ngô Duy Hoàng - 2016-11-07

    Bạn ơi cho mình hỏi với:
    Mình dùng Videosubfinder nhưng rất hay bị dừng (báo là stopped working)
    Mình đã cắt video xuống còn khoảng 10' và đổi thành đuôi mkv nhưng vẫn ko được.
    Giúp mình với ah.

    Nếu được thì pm giúp mình qua face được ko (jsduyhoang@gmail.com)? Cái này nó ko báo về gmail. Mình sợ ko nhận được câu trả lời mất. Thanks bạn.

     
  • Dịch Lâm Hy

    Dịch Lâm Hy - 2017-07-18

    Mình cũng bị vấn đề như bạn Ngô Duy Hoàng, ad giúp mình được ko? Email của mình là dichlamhy890@gmail.com. Cảm ơn ad lắm lắm

     

Log in to post a comment.