OCR-Fraktur einscannen

Dieses Thema im Forum "Tech & FAQ Forum" wurde erstellt von MCtRyeR, 10 März 2020.

  1. MCtRyeR

    MCtRyeR Aktives Mitglied

    Registriert seit:
    5 Mai 2001
    Beiträge:
    279
    Hallo beisammen,

    ich will ein altes Buch mit Frakrurschrift einscannen und per OCR durchsuchbar machen. Eine Frakturschriftart habe ich installiert; freilich kann es der Finereader 12 mit dem ich es probiert habe nicht umsetzen. Für solche Sachen gibt es wohl eine Spezialausgabe Namens Finereader Server - allerdings bei diesen Preisen gar nicht an Kauf zu denken (Testversion gibt es natürlich auch nicht). Kennt jemand zufällig eine alternatives, einfach zu handhabenden Programm das dazu in der Lage ist?

    Schönen Tag noch...
  2. Eddy

    Eddy Bekanntes Mitglied

    Registriert seit:
    5 Dezember 2001
    Beiträge:
    1.702
    uhhh - das wäre für mich auch ein Thema, beim wachsenden Angebot von Digitalisaten online...

    Normale Druckschriften lasse ich durch Acrobat durchsuchbar machen; das liefert m.E. hervorragende Resultate auch etwa bei Typoskripten nach sehr flauen Kopien. Aber Fraktur ist natürlich ein anderes Kapitel.
    Eigene Experimente damit liegen viele Jahre zurück und sind kaum mehr relevant.

    Leider ertrinke ich momentan schier in der Arbeit, werde aber nachdenken und posten wenn ich auf etwas stosse.
  3. chaospir8

    chaospir8 ★★★★★-Oldie

    Registriert seit:
    20 Juni 2001
    Beiträge:
    13.216
    Wenn ich das richtig verstanden habe, ist es anscheinend sehr schwierig, Frakturschrift per OCR auf einem Rechner zu erkennen, daher bietet ABBYY dieses nur mit KI-Unterstüzung aus der Cloud an. Somit auch die hohen Preise, die man hier nachlesen kann: https://www.frakturschrift.com/en:pricing
    Es kann sein, dass es Forschungseinrichtungen/Bibliotheken/Musseen gibt, die Zugriff darauf vergünstigt oder kostenlos bekommen ...
    Zuletzt bearbeitet: 10 März 2020
  4. Rubb

    Rubb Rover

    Registriert seit:
    7 Oktober 2001
    Beiträge:
    7.879
    Zuletzt bearbeitet: 10 März 2020
    Eddy und chaospir8 sagen Danke.
  5. chaospir8

    chaospir8 ★★★★★-Oldie

    Registriert seit:
    20 Juni 2001
    Beiträge:
    13.216
  6. chaospir8

    chaospir8 ★★★★★-Oldie

    Registriert seit:
    20 Juni 2001
    Beiträge:
    13.216
    OK. ich hab's angetestet. Mit der von Rubb verlinkten Anleitung kann man FreeOCR mittels der von mir verlinkten Anlern-Datei zum Fraktur-OCR bewegen.
    Hier eben ausprobiert mit einer Beispiel-Seite von Wikipedia (https://de.wikipedia.org/wiki/Breitkopf-Fraktur):

    upload_2020-3-10_21-15-45.png
    Zuletzt von einem Moderator bearbeitet: 10 März 2020
    Rubb, vinyl und Eddy sagen Danke.
  7. Rubb

    Rubb Rover

    Registriert seit:
    7 Oktober 2001
    Beiträge:
    7.879
    Ich mußte nun intensiv "Basteln" um die Features zu verstehen :icon_xmas: :o , deshalb noch eine Erläuterung von meiner Seite ...

    Hier noch die Anleitung von der weiteren Seite zitiert (um u.a. das letzte Bild OCR-Language betreffend, von chaospirate zu verstehen :yo )

  8. jr33

    jr33 Chief of Odin & Thor

    Registriert seit:
    10 Juli 2005
    Beiträge:
    10.621
    Das einzige Programm, das mir bei Frakturschrift
    gute Ergebnisse liefert(e) war Abbyy Finereader.
    Deren OCR-Engine ist auch in FoxitPhantom PDF enthalten.
    Portable "Test"versionen beider Programme findet man im Netz.
    Rubb und chaospir8 sagen Danke.
  9. GiveThatLink

    GiveThatLink Bekanntes Mitglied

    Registriert seit:
    25 Oktober 2009
    Beiträge:
    588
    Ich halte von Tesseract nicht viel. Neulich gab es Text-R kostenlos, lässt sich wohl immer noch so bestellen:
    https://www.supernature-forum.de/sh...se-Programme?p=1167335&viewfull=1#post1167335

    Da steckt Nicom OCR (NSOCR) hinter
    https://www.nicomsoft.com/products/ocr/features/

    Von Abbyy nutze ich den Screenshot-Reader, es gibt nichts besseres für OCR aus Bildern.

    PS Foxit nutzt Tesseract, wie alle kostenlosen. Aber Achtung - bei Foxit zahlt man mit Nutzerdaten, die sind extrem neugierig. Da würde ich nicht mal gezwungen "portable" und illegal werden, bevor ich das Teil genullt habe - die meisten "Änderungen" sind deshalb Müll, weil das nicht berücksichtigt wird.
  10. jr33

    jr33 Chief of Odin & Thor

    Registriert seit:
    10 Juli 2005
    Beiträge:
    10.621
    Das mit dem OCR-Modul mag für die kostenlosen Versionen gelten,
    weiß ich nicht.
    FoxitPhantom Business verwendet die Abbyy-OCR-Engine:
    c:\Program Files (x86)\Foxit Software\Foxit PhantomPDF\plugins\OCR\FX_Abbyy_OCR\

    Das Heimweh treibe ich, wenn möglich, allen Programmen aus,
    da juckt/stört mich die Sammelwut nicht weiter.
  11. MCtRyeR

    MCtRyeR Aktives Mitglied

    Registriert seit:
    5 Mai 2001
    Beiträge:
    279
    Dankeschön für die Anregungen,

    ich habe das mit FreeOCR und der Fraktur-Anlerndatei durchgeführt. Da ich einen Teil schon mit Finereader 12 eingescannt und als PDF abgespeichert hatte, war es logisch diese Datei in FreeOCR über den entsprechenden Button "Open PDF" zu bedienen. Leider wurde das nicht wirklich erkannt (nur weisse Blätter ohne Inhalt). Ich habe jetzt nicht wirklich einen Plan wie ich das dennoch reinbekomme. Habe schon probiert eine PDF mit Acrobat über 4.0-Kompatibilität zu erzeugen, was aber auch nicht von Erfolg gekrönt war. Die vorhandene PDF als JPG auszugeben war ebenfalls nicht so das ideale; die Erkennung war wirklich nur suboptimal-unterirdisch. Der direkte Scan über FreeOCR lieferte dann doch die besseren Ergebnisse, dabei unterscheiden sich aber nochmal die Ergebnisse je nach dem ob man per TWAIN oder WIA einscannt. Nachbearbeitung ist auf jeden Fall nötig.
    Das Liebste wäre mir allerdings nach wie vor das Scannen mittels FR12, nur wie bekomme ich das PDF-Format so hin, dass FreeOCR das frisst???
  12. chaospir8

    chaospir8 ★★★★★-Oldie

    Registriert seit:
    20 Juni 2001
    Beiträge:
    13.216
    @MCtRyeR
    Kannst Du ein solches PDF von Dir (eine, zwei Seiten reichen) hier bereitstellen, zum Rumprobieren?!
  13. jr33

    jr33 Chief of Odin & Thor

    Registriert seit:
    10 Juli 2005
    Beiträge:
    10.621
    Das wäre cool, ich suche so etwas für einen Test mit Finereader 15.
  14. MCtRyeR

    MCtRyeR Aktives Mitglied

    Registriert seit:
    5 Mai 2001
    Beiträge:
    279
    Aber gerne doch - hier wie folgt einen zweiseitigen Auszug.

    Anhänge:

    jr33 sagt Danke.
  15. chaospir8

    chaospir8 ★★★★★-Oldie

    Registriert seit:
    20 Juni 2001
    Beiträge:
    13.216
    Dein PDF kann FreeOCR gar nicht öffnen, jedes mal eine Fehlermeldung, auch wenn ich es mit einem anderen Programm als neues PDF abspeichere.
    Welche Auflösung ist hier beim Scannen genutzt worden? mind. 200 dpi wird verlangt, 300 dpi wird empfohlen.
    Grundsätzlich sieht man jedoch (basierend auf einem Test mit einem Screenshot Deiner Textpassage), dass das Programm mit der Erkennung Schwierigkeiten hat/nicht 100% perfekt ist und nachkorrigiert werden muss:

    upload_2020-3-21_15-59-14.png
  16. MCtRyeR

    MCtRyeR Aktives Mitglied

    Registriert seit:
    5 Mai 2001
    Beiträge:
    279
    @chaospir8

    Danke, dass du es dir mal angeschaut hast

    - eingescannt habe ich in einem entfesselten FR12 (Win 8, 32 bit)
    - Auflösung 300 dpi, s/w
    - neuster Acrobat Reader als auch PDF-XChange Viewer konnten das erstellte PDF öffnen, uralt-Acrobat Reader 5 nicht (Fehlermeldung)
    - unter FreeOCR bekomme ich beide Seiten ohne Fehlermeldung rein, allerdings ohne Inhalt (weisse Blätter)
    - ein neues PDF-Abspeichern mit einem anderen Programm hattte ich auch schon (ohne Erfolg) versucht

    Das legt eigentlich fast die Vermutung nahe, dass mit dem FR12 etwas nicht stimmt...
    wie hast du letztlich die Seite in das FreeOCR reinbekommen?

    schönen Tag noch
    mctryer
  17. chaospir8

    chaospir8 ★★★★★-Oldie

    Registriert seit:
    20 Juni 2001
    Beiträge:
    13.216
    Als Screenshot, also Dein PDF mit einem Tool zum "Abfotografieren" des Bildschirms (ich nehme SnagIt, es gibt aber auch jede Menge guter Freeware) abfotografiert und diese Grafikdatei (png) in FreeOCR geladen.
    Was man noch versuchen könnte, wäre, die PDF-Seiten als einzelne Grafikdateien (ein Format nehmen, das von FreeOCR unterstützt wird) zu exportieren/zu speichern und sie dann so einzeln in FreeOCR laden .... ist aber dennoch viel Arbeit.
    Zuletzt bearbeitet: 22 März 2020
    jr33 sagt Danke.
  18. MCtRyeR

    MCtRyeR Aktives Mitglied

    Registriert seit:
    5 Mai 2001
    Beiträge:
    279
    danke dir für den Tip mit SnagIt,
    das Ergebnis ist bei dir ja ganz gut gelungen.

    ich bin jetzt auch noch zu einer Lösung gekommen: ich habe Lscan2PDF1.5 (Freeware) runtergeladen, dort meine PDF vom FR12 geöffnet, wieder als PDF gespeichert - und siehe da: FreeOCR hat's eingelesen (wenn auch mit Abstrichen bei der OCR-Erkennung).
    Zumindest weiss ich jetzt woran es liegt.

    schönen Tag noch
    mctryer
  19. jr33

    jr33 Chief of Odin & Thor

    Registriert seit:
    10 Juli 2005
    Beiträge:
    10.621
  20. MCtRyeR

    MCtRyeR Aktives Mitglied

    Registriert seit:
    5 Mai 2001
    Beiträge:
    279
    @jr33

    wenn man Fraktur als OCR umsetzen will gibt es scheinbar nicht viele Möglichkeiten. chaospir8 hat schon unter #3 auf eine Option hingewiesen. GiveThatLink hat unter #9 auf Text-R verwiesen, das habe ich jetzt noch nicht geprüft. Eine andere Möglichkeit Tesseract mit entsprechender Anlerndatei oder alternativ FreeOCR was die selbe Anlerndatei voraussetzt.

    Du selbst hast weiter oben FR15 erwähnt. Hast du es schon probiert, kann das Fraktur-OCR? Ich konnte zumindest in der Beschreibung nichts finden.

    schönen Tag noch
    mctryer
    Zuletzt bearbeitet: 22 März 2020
  21. jr33

    jr33 Chief of Odin & Thor

    Registriert seit:
    10 Juli 2005
    Beiträge:
    10.621
    Ich habe mal auf Schnelle zwei Scans in "durchsuchbares PDF" gemacht.
    1. Datei mit den unveränderten Grundeinstellungen der portable Version von FR15,
    zweites Dokument ins Ausgabeformat 1A.
    [​IMG]

    Anhänge: