Beschreibung Prozesse der Volltextindizierung

2013-03-14
2013-03-27
  • Hallo zusammen,

    mein vorletzten Fragestellungen, die leider etwas komplexer ist.

    Zunächst zur Situation: OmniPage 16 ist installiert und gemäß Systemhandbuch eingebunden.

    1) Importiere ich Dokumente über einen Archivdrucker, dann sind Sie direkt volltextindiziert. Liegt das daran, dass die als PostScript übergeben werden?

    2) Wie verhält es sich mit Dokumenten die über das Kontextmenü (Senden an) in das Archiv kopiere oder verschiebe? Werden die auch automatisch volltextindiziert? Oder ist das abhängig vom Dokumententyp (.docx, .pdf, .tif, …)?

    3) Können Officedokumente auch ohne lokale Officeinstallation volltextindiziert werden? Irgendwas in mir will nicht, dass ich eine Clientapplikation auf dem Server installieren ;) Kann OpenOffice das nicht evtl. mitmachen oder sind die Ergebnisse dann nicht gut?

    4) Wann und wie wird Omnipage 16 als OCR Engine angesprochen? Wenn ich im Viewer über Werkzeuge > Dokument aktualisieren wähle, wird das Dokument ja noch einmal OCR'd. Gibt es da eine Art Warteschlange die man einsehen kann? Welche Engine OCR'd die kostenlose Beigabe (CRE?) oder OmniPage 16?

    Viele Fragen, ich bedanke mich im Vorfeld herzlichst für die Beantwortung!!

    Schöne Grüße,
    Jan

     
  • bitfarm10
    bitfarm10
    2013-03-14

    Hallo Jan,

    bezüglich der Omnipage…
    Welche Version des Archivierungsscript haben sie vorliegen und welche Version des Handbuchs?

    Gruß
    bitfarm10

     
  • Hallo bitfarm10,

    danke für die Rückmeldung!
    Die Datei Archivierung.vbs liegt in der Version 3.4.2.27 (steht im Quelltextheader) vor und das Systemhandbuch in der Version 1.01.70.

    Ich hoffe das hilft weiter.

    Können Sie auch noch eine Aussage zu den anderen Fragestellungen treffen?

    Schöne Grüße,
    Jan Loddenkemper

     
  • bitfarm7
    bitfarm7
    2013-03-15

    Hallo Jan,

    die Anbindung an die Omnipage OCR ist ein Feature der Enterprise. Das Systemhandbuch gehört auch zur Enterprise-Version, das GPL-Systemhandbuch hat derzeit Version 1.00.02 (darin steht auch nichts von der Omnipage Anbindung).

    Ob und wie Volltext zu Dokumenten erzeugt wird ist vom Importweg weitestgehend unabhängig, entscheidend ist was für ein Dokumententyp archiviert wird. Alle Office-Dokumente erhalten Ihren Volltext über ein vom Archivierungsskript gestartetes OO-Makro ("SpeichernAlsTXT"). Bei PDF wird der Volltext in Abhägigkeit des scripts.ini-Schalter "extractpdfdirect" entweder durch die Cuneiform erzeugt (extractpdfdirect=False) oder direkt aus dem PDF extrahiert (extractpdfdirect=true). Postscript und Tif-Dateien werden beim Archivieren immer durch Cuneiform gejagt.

    Gruß,
    bitfarm7

     
  • Hallo bitfarm7,

    danke für die Rückmeldung. Darf ich die Einbindung von OmniPage, wenn Sie mir denn gelingen würde, lizenzrechtlich denn vornehmen?

    Denn ich habe festgestellt, dass OmniPage sich warum auch immer, sporadisch einige Dokumente schnappt und die selbst OCR'd, allerdings sind die zugehörigen .TXT Dateien dann leer. Im Gegensatz zu denen, die von cuneiform OCR'd werden, da ist alles in Ordnung.

    Schöne Grüße,
    Jan

     
  • Hallo zusammen,

    hier muss ich noch einmal im Detail Nachfragen stellen…

    OmniPage habe ich wie im Enterprise-Handbuch ja irrtümlich installiert und konfiguriert. Nun funktioniert leider meine Volltextindizierung nicht mehr. Daraufhin habe ich aus der scripts.ini die beiden Einträge die mit OmniPage zu tun haben wieder rausgeworfen.

    Mein Gedankengang war, dass bitFarm jetzt wohl wieder CRE verwenden sollte, allerdings ist das nicht der Fall. Daraufhin habe ich im ArchivRS gestöbert und habe auch meine Dokumente und die zugehörigen .TXT und .JOB Datei gefunden die .TXT Dateien waren leer und in der JOB Datei stand als OCR_TYP=OMP hin.

    Die Fragestellung ist nun: Woher nimmt sich bitFarm die Information, dass OmniPage die OCR Engine ist, die genutzen werden soll? Und wie kann man es wieder rückgängig machen, sodass die CRE Engine wieder zu nutzen ist?

    Ich freue mich auf eine Rückmeldung und sage mal wieder DANKE!

    Schöne Grüße,
    Jan

     
  • Hallo,

    noch ein kleiner Nachtrag:
    Wenn ich vom Server aus die bfaOCR.exe mit entsprechenden Parametern ausführe, dann wird mir ein OCR Ergebnis geliefert. Also sollte das grundsätzlich funktionieren.

    Grüße,
    Jan

     
  • bitfarm7
    bitfarm7
    2013-03-18

    Hallo Jan,

    das Archivierungsskript der GPL-Version hat keine Anbindung an die Omnipage-OCR. Lizenzrechtlich gibts keine Probleme, wenn Sie die Anbindung selbst programmieren wollen. Im Moment sehe ich nicht, wie eine Omnipage-Installation die Verarbeitung durch die GPL-Version beeinflussen könnte. Deaktivieren Sie ggfs. den Überwachungsauftrag im Batch-Manager. In Ihren Job-Files (bzw. Templates) sollte als OCR-TYP "CRE" hinterlegt sein.

    Gruß,
    bitfarm7

     
  • Guten Morgen zusammen,

    danke für die Rückmeldung.
    ich habe nun die Templates angepasst und dort als OCR_TYP=CRE hinterlegt. Vorher war das nicht eingetragen, wie kommt das? Wird der Wert nicht aus der scripts.ini ausgelesen, wenn das Template erstellt wird?

    Außerdem habe ich festgestellt, wenn ich ein Dokument importiere oder automatisch importieren lasse, wird der OCR-Typ aus dem Template verwendet - super!
    Wenn ich dann auf Werkzeuge > Dokument aktualisieren gehe, dann steht nachher in der JOB Datei OCR_TYP=OMP und der zuvor erkannte Volltext ist weg :( Wie kann ich der Schaltfläche mitgeben, wecher OCR TYP verwendet werden soll?

    Danke für die Rückmeldungen im Voraus!

    Schöne Grüße,
    Jan

     
  • Hallo nochmal,

    auch das hat sich erledigt. Habe in der Archivierung.vbs etwas Debugging betrieben und gesehen, dass die .CON Datei geladen wird, dort war noch der Pfad zur Omnipage Installation (Parameter OmniPage= ) hinterlegt, weswegen versucht wurde die Datei mit OmniPage zu OCRn. Das funktioniert leider noch nicht, daher ging das natürlich auch nicht.

    Ich habe den Eintrag entfernt und nun funktioniert es - hat sich somit erledigt. Danke dennoch!