bitfarm-Archiv Document Management - DMS / Discussion / Help (german): [solved] OCR funktioniert nicht

Claus Clausen - 2017-02-06

Guten Tag,

ich habe das Problem, dass die OCR Erkennung nicht arbeitet. Wenn ich ein Dokument mit 300 dpi über meinen Brother MFC einscanne wir kein Text eingelesen. Das gleiche bei einem PDF, dass per "Senden an Bitfarm Archiv" übertrtagen wird.
Ein Test über den Befehl: bfaocr.exe -i:c:\pfad\test.tif -console
hat nichts ergeben. Es folgt schlichtweg keine Ausgabe. Auch im Eventlog unter WSH ist nicht zu finden.

Es handelt sich hier um eine Erstinstallation auf Windows 7 in einer VM-Ware Umgebung.

MFG

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Claus Clausen - 2017-02-06

Nach weiteren Tests bekomme ich nun folgende Fehlermeldung wenn ich folgendes eingebe:
bfaocr.exe -i:c:\pfad\test.tif

"Allgemeiner Fehler bei der OCR: Recognition engine halted with code:0"

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm13 - 2017-02-07

Hallo,
haben Sie die Dokumente mit Manuscan gescannt und dort Scanprofile angelegt oder wurden die Dokumente direkt in den Import Ordner abgelegt?
Bitte überprüfen Sie die getroffenen Einstellungen für Ihre gescannten Dokumente. Für s/w Dokumente sollte eine Auflösung von 300dpi und der Kompressionstyp CCIT4 Group 4 eingestellt werden. Für farbige Scans sollte eine Auflösung von 150dpi und die Kompressionsart LZW eingestellt sein um bestmögliche Ergebnisse bei der Texterkennung zu erzielen.
Sie können diese Einstellungen in Manuscan vornehmen wenn Ihr Scanner über einen TWAIN Treiber ansprechbar ist. Sollte dies nicht gegeben sein überprüfen Sie bitte die Scaneinstellungen an Ihrem Scanner selbst.

Mit freundlichen Grüßen
bitfarm13

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Claus Clausen - 2017-02-07

Hallo,
ich habe das Scanprofil nach Ihren Vorgaben abgeändert, ohne Erfolg. Auch .tif Dateien, aus der Demo-Datenbank werden nicht vom OCR verarbeitet. Und wie bereits erwähnt gilt gleiches auch für .pdf Dateien.
Was bedeutet denn die Rückmeldung von der bfaocr.exe "Recognition engine halted with code:0" ?

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Claus Clausen - 2017-02-08

Hallo,
ich habe weiter getestet und folgendes herausgefunden:
Wenn man bfaocr.exe als über die Commandline mit "Ausführen als Administrator" ausführt funktioniert die Texterkennung und eine .txt Datei wird erstellt. Es funktioniert jedoch nicht mit einem User mit Administratorrechten !?!
Also habe ich das Verzeichnis C:\Program Files (x86)\Bitfarm-Archiv\Viewer-Files\bfaOCR samt deren Datein auf Vollzugriff für jedermann geändert, so dass jetzt jeder die bfaocr.exe ohne Fehler ausführen kann.
Die Texterkennung innerhalb von Manuscan funktioniert jedoch trotzdem noch nicht.
Weitere Vorschläge?

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm13 - 2017-02-08

Hallo,

bitte öffnen Sie das Skript "Archivierung.vbs" im bitfarm-Archiv Verzeichnis und setzen Sie den Schalter scriptdebug=true im oberen Bereich des Skripts. Archivieren Sie ein Dokument und schauen Sie danach in der Windows Ereignisanzeige nach Einträgen von der Quelle WSH. Sind dort Fehler- oder Warnmeldungen eingetragen worden?

Mit freundlichen Grüßen
bitfarm13

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Claus Clausen - 2017-02-08

Es werden 3 WSH Fehler ausgegeben:

1) Archivierung-Debug: Handle: Extension: .tif FromEMail: Falsch

2) Filtername:

3) Archivierung-Debug: docschangeable5:Falsch Ausgabename:\DMS\Archiv-RS$\IT-Dokumentationen08042009165219\022017\08\17281150297422

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm13 - 2017-02-08

Hallo,

besteht die Möglichkeit das wir uns das System mal in einer Teamviewer Sitzung bei Ihnen ansehen können? Dann rufen Sie uns bitte kurz an.

Mit freundlichen Grüßen
bitfarm13

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm13 - 2017-02-08

Hallo,

schön das wir Ihr Problem lösen konnten. Der Volltext eines Dokuments wird erst erstellt wenn in Manuscan auf Archivieren geklickt und somit das Dokument zur Verarbeitung an den bitfarm-Archiv Server überstellt wird. In Manuscan selbst wird kein Volltext erzeugt. Manuscan dient lediglich zum Einscannen von Dokumenten.

Mit freundlichen Grüßen
bitfarm13

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Claus Clausen - 2017-02-08

Es funktioniert. Mir fehlte die Info, das die OCR Erkennung erst beim Archivieren erfolgt und nicht im Programm ManuScan.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Achim Braun - 2017-02-24

Hallo Bitfarm,

ich teste gerade euer Produkt. Ich habe das gleiche Problem mit der OCR erkennung. Ich scanne das Dokument über Manuscan. ScanProfil wie von euch empfohlen. Ich archiviere es aber es wird bei Volltext nichts angezeigt. Was mache ich falsch?

Grüße
A. Braun

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm19 - 2017-02-28

Sehr geehrter Herr Braun,

in Manuscan erhalten Sie keinen Volltext zu dem archivierten Dokument.

Sie archivieren Ihr Dokument aus dem Manuscan in einer Ihrer Archive, im Anschluss starten Sie die ViewerV3.exe und selektieren das passende Archiv und führen dort eine Suche durch.

Wählen Sie das archivierte Dokument aus der Trefferliste aus und gehen dann auf den Register "Volltext".
In diesem Register finden Sie den von der OCR erzeugten Volltext.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Achim Braun - 2017-02-28

Hallo Bitfarm,

das habe ich gemacht. Leider steht im Register Volltext nichts drinnen. Vorausgesetzt Sie meinen das Register unter den Suchoptionen.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm19 - 2017-02-28

Guten Tag Herr Braun,

schauen Sie auf der rechten Seite, die Leiste befindet sich rechts von der Voransicht.

Dort finden Sie das Register "Volltext" und dort ist immer der Volltext des Dokumentes zusehen.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Achim Braun - 2017-02-28

oh man ist das peinlich!!
Vielen Dank habe es gefunden.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Alex - 2020-08-04

Hallo,

dies ist zwar ein alter Post, dennoch habe ich das Problem, dass bei mir die OCR-Funktion nicht funktoiniert. Bei der Anzeige "Volltext" erscheint bei mir kein Text und auch die Volltextsuche funktioniert nicht.
Ich habe das Programm erst frisch installiert, kann ich auch nichts verstellt haben. Zudem habe ich alle zuvor angegebenen Problemlösungen durchgemacht, leider ohne Erfolg.

Bevor ich vom Support von Bitfarm auf dieses Forum verwiesen wurde, hat er mich folgenden Tipp gegeben:
Schauen Sie bitte in der scripts.ini im bitfarm-Archiv Installationspfad, ob die Schalter gesetzt sind:

usetesseract=True

tesslang=deu+en

tessmaxpagetime=60

tessprocs=4

Dies habe ich schon überprüft.

Ich würde mich über Lösungsansätze freuen.

Viele Grüße

Alex

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm30 - 2020-08-05

Guten Morgen Alex,

hat die OCR Texterkennung vorher mal funktioniert und um welche
Dokumententypen handelt es sich?
Wie archivieren Sie? Über den Importer, Manuscan oder einem Importordner?

Sollten Sie über den Importer oder Manuscan archivieren überprüfen Sie bitte, ob Sie den Schalter "OCR Erkennung" im Reiter "Volltext" angehakt haben.

Bitte öffnen Sie im bitfarm-Archiv Verzeichnis die bfa_tessocr.ini und vergleichen Sie, ob Sie den Pfad zur Datei erreichen können.

Öffnen Sie anschließend die Archivierung.vbs und setzen Sie "scriptdebug=True"
Archivieren Sie ein Dokument und schauen Sie danach in der Windows Ereignisanzeige unter "Windows Protokolle" -> "Anwendung" nach Einträgen von der Quelle WSH.
Sind dort Fehler- oder Warnmeldungen eingetragen worden?

Schauen Sie zudem auch im bitfarm-Archiv Verzeichnis unter "logs" in die "tessocr.log" Datei rein.
Gibt es hier irgendwelche "Error", "Critical", "Warning" Meldungen?

Mit freundlichen Grüßen
bitfarm30

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Alex - 2020-08-05

Hallo bitfarm 30,

vielen Dank für Ihre Antwort.

Die OCR-Funktion hat noc nie funktioniert. Ich wollte das Programm erst vor kurzem ausprobieren, ob es etwas für mich ist.

Ich importiere über Manuscan. Die "OCR Erkennung" bei "Volltext" ist aktiviert.

Ich konnte in der Datei"bfa_tessocr.ini" die Dateien zu den Pfaden finden.

Ich habe in einer tessocr.log Datei eventuell etwas gefunden:

2020-07-25 11:16:48,598 - bfa_tessocr - INFO - bfa_tessocr init success, version 3.6.1.2
2020-07-25 11:16:48,598 - bfa_tessocr - INFO - running ocr on 'C:\Program Files (x86)\Bitfarm-Archiv\CRETemp\in\OCR.jpg'
2020-07-25 11:16:48,598 - bfa_tessocr - DEBUG - - ouput-filename conflict check
2020-07-25 11:16:48,614 - bfa_tessocr - INFO - splitting inputfile (thtiflib)
2020-07-25 11:16:48,661 - bfa_tessocr - WARNING - splitting tif with thtiflib failed. Error ('stream-error', 'invalid byteorder')
2020-07-25 11:16:48,691 - bfa_tessocr - WARNING - splitting with thtiflib failed, trying SplitterV4 now.
2020-07-25 11:16:48,723 - bfa_tessocr - CRITICAL - SplitterV4.exe not found, unable to split...
2020-07-25 11:16:48,739 - bfa_tessocr - CRITICAL - Traceback (most recent call last):
2020-07-25 11:16:48,739 - bfa_tessocr - CRITICAL - File "bfa_tessocr.py", line 538, in <module>
2020-07-25 11:16:48,894 - bfa_tessocr - CRITICAL - File "bfa_tessocr.py", line 218, in ocr
2020-07-25 11:16:48,957 - bfa_tessocr - CRITICAL - File "bfa_tessocr.py", line 395, in split
2020-07-25 11:16:49,036 - bfa_tessocr - CRITICAL - Exception
2020-07-25 11:16:49,082 - bfa_tessocr - CRITICAL - :
2020-07-25 11:16:49,114 - bfa_tessocr - CRITICAL - unable to split tif, thtiflib failed, SplitterV4 not found!</module>

Das Windowsprotokoll zeigte

archivierung(1): Fehler bei lockfile erstellen - Restart.

Archivierung bfa_tessocr.exe Fehler! Es wurde keine Textdatei zurückgegeben C:\Program Files (x86)\Bitfarm-Archiv\CRETemp\OUT\OCR.txt C:\Program Files (x86)\Bitfarm-Archiv\queue\temp00010

Vielen Dank!

Mit freunldichen Grüßen

Alex

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm30 - 2020-08-06

Hallo Alex,

könnten Sie mir für eine Analyse ein Testdokument zur Verfügung stellen?

Mit freundlichen Grüßen
bitfarm30

Last edit: bitfarm30 2020-08-06

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Alex - 2020-08-07

Guten Tag,

ich habe gestern per Zufall das "Testdokument" mir angeschaut. Das Dokument wurde komplett als Text erfasst. Ich habe nichts geändert, als in der Datei Archivierung.vbs "scriptdebug=True" zu setzen. Zuvor habe ich noch gesehen, dass es den Benutzer "bitfarm" gibt und habe mich dort angemeldet. Vielleicht hat es damit etwas zu tun, dass es jetzt funktioniert.

Jetzt ist aber das Problem aufgekommen, dass wenn ich per Dokumenteneinzug ein Dokument im Manuscan einscanne, der Scanprozess abgeschlossen wird aber es wird sofort ein schwarzes Dokument im Scanpool angehängt. Dies geschieht auch wenn ich zwei Dokumente eincanne, dann kommt als 3. das schwarze. Dann hängt sich Manuscan auf und ich kann nichts mehr machen.

Wenn ich ein Dokuent über den Flachscan einscanne funktioniert alles tadellos.

Ich gehe davon aus, dass es am Scanner liegt, da ich das Programm auf einem anderen Computer installiert habe und dort ist genau das gleiche Problem aufgetreten.

Bei dem Scanner/Drucker handelt es sich um einen Epson Stylus Office BX300F. Der Drucker ist per USB angeschlossen.

Bei einem Scanvorgang per Einzug über andere Apps, funktioniert alles tadellos.

Vielleicht könnten Sie mir dabei auch helfen?!

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

bitfarm30 - 2020-08-10

Guten Morgen Alex,

für Ihr zweiteres Problem gehen Sie bitte in der ManuScanV3.exe in den Reiter "Extras" -> "Optionen" -> "Scan-Profile". Dort können Sie die "Erfassung: Farbe" auswählen und unten rechts "ADF benutzen" anhaken (Automatic Document Feeder (Scannereinzug)).
Sie können zudem unter "Transfer:" im Dropdownmenü andere Werte ausprobieren.

Vergewissern Sie sich, dass Sie anschließend mit dem richtigen Scannerprofil archivieren.
Das ausgewählte Scanprofil sehen Sie in der ManuScanV3.exe ganz oben unter "Informationen zum Dokument"

Sollten die folgenden Schritte nicht funktionieren, können Sie den TWAIN-Treiber, sowie den Drucker deinstallieren und wieder erneut installieren.

Wenn Sie weitere Fragen zum Thema: "Scannen in bitfarm-Archiv" haben, können Sie im bitfarm-Archiv Stammverzeichnis unter "docs" -> "Systemhandbuch-GPL.pdf" auf der Seite 9 nachschlagen.

Mit freundlichen Grüßen
bitfarm30

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

Alex - 2020-08-12

Hallo Bitfarm30,

vielen Dank für die Hilfestellung.

Bei mir lag es anscheinend am vom Windows bereitgestellten Treiber für den Drucker.
Nachdem ich von der Herstellerwebseite die Treiber installiert habe, funktioniert alles reibungslos!

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:

[solved] OCR funktioniert nicht

Forums

Help

[solved] OCR funktioniert nicht document.SUBSCRIPTION_OPTIONS = { "thing": "topic", "subscribed": false, "url": "subscribe", "icon": { "css": "fa fa-envelope-o" } };

[solved] OCR funktioniert nicht