Software Frage Mehrere PDFs auf einmal durchsuchen

Dieses Thema im Forum "Tech & FAQ Forum" wurde erstellt von Ferique, 3 April 2013.

  1. Ferique

    Ferique Sessiz Okuyucu

    Registriert seit:
    11 Dezember 2001
    Beiträge:
    2.061
    Hallo Zusammen,

    ich befinde mich immer mal wieder in der Situation verschiedene Berichte (durchsuchbare PDF-Dokumente), die mehrere hundert Seiten stark sind und jährlich erscheinen auf diverse Stichworte zu durchsuchen. Das sind mittlerweile viele Dutzend PDF-Dokumente, da jedes Bundesland jährlich einen eigenen Bericht abliefert.

    Damit ich nicht jedes PDF-Dokument einzeln aufrufen und händisch die Suche nach einem bestimmten Stichwort durchführen muss, suche ich nach einer eleganten Lösung um diese Suche auf alle Dokumente auf einen Schlag durchführen zu können.

    Ich stelle mir das so vor, dass ich alle Dokumente in einem einzelnen Ordner ablege (ideal wäre, wenn die Unterordner in die Suche miteinbezogen würden) und eine weitere Software (ggf. eine Open-Source-DMS) die Suche auf alle Dokumente ausweitet.

    Wie kann man so etwas mit so wenig Aufwand wie möglich bewerkstelligen?

    Grüße
    Ferique
  2. Antitrack

    Antitrack Bekanntes Mitglied

    Registriert seit:
    10 Januar 2003
    Beiträge:
    4.190
  3. JamesBond

    JamesBond gone for good

    Registriert seit:
    7 Dezember 2001
    Beiträge:
    5.151
    deathrow sagt Danke.
  4. RichyZuHause

    RichyZuHause Alter mit Ego

    Registriert seit:
    2 Juni 2001
    Beiträge:
    1.961
    Ich nähme Lookeen dafür.
    Indiziert in Outlook oder aber auch in beliebige Dateien.
  5. Zapata

    Zapata Bekanntes Mitglied

    Registriert seit:
    10 April 2009
    Beiträge:
    3.272
    Wenns um Windows 7 32-bit geht, sollte es doch über die normale Windows-Suche gehen, ggf. mal in den “Indizierungsoptionen” nachsehen, ob der Speicherort der PDFs auch indiziert wird. Bei Windows 7 64-bit muss man glaube ich den Adobe PDF iFilter installieren, damit durchsuchbare PDF Dateien auch durch den Windows Indexdienst indiziert werden.


    Zapata
  6. rabe

    rabe Team (Mod) Mitarbeiter

    Registriert seit:
    21 Juli 2003
    Beiträge:
    5.221
    Vielleicht verstehe ich ja was falsch, aber was spricht gegen die erweiterte Suche von Adobe Reader, oder anderer Freeware wie PDF-XChange Viewer (http://www.tracker-software.com/product/downloads), wo Du den Ort der Stichwort-Suche in PDFs (mit oder ohne Unterordner) bestimmen kannst.

    Gruß
    rabe
  7. Zapata

    Zapata Bekanntes Mitglied

    Registriert seit:
    10 April 2009
    Beiträge:
    3.272
    Zumindest im Adobe Reader dauert die Suche je nach Datenmenge wohl recht lange. Theoretisch müsste das unter Windows, einmal indiziert, viel flotter gehen.Iich habe da bei großen bzw. vielen PDF-Dateien aber keine Erfahrung, aber es wäre ja für Ferique einen Versuch wert, wenn es mit Windows-Boardmitteln gut geht.


    Zapata
  8. Ferique

    Ferique Sessiz Okuyucu

    Registriert seit:
    11 Dezember 2001
    Beiträge:
    2.061
    Besten Dank für das bisherige Feedback.

    Die Lösung mit Lookeen werde ich mal ausprobieren, weil ich das Tool seit Jahren gerne (für Outlook) nutze. Vielleicht lässt sich ja ein vom Outlook getrennter eigener Idex für PDFs aufbauen.
    Die erweiterte Suche vom Adobe Reader ist eine praktische Funktion. Ich bin mir nicht sicher, ob damit auch Boolsche Operatoren funktionieren.

    Perfekt wäre langfristig ein Tool in etwa der Form eines Mini-DMS, welches netzwerkfähig damit auch Kollegen sich der Suche in den Berichten bedienen können.

    Ich werde berichten, wenn ich noch etwas eleganteres finden sollte.

    Gruß
    Ferique
  9. mercutio

    mercutio Mitglied

    Registriert seit:
    26 April 2001
    Beiträge:
    188
    Foxit Reader bietet ebenfalls die Möglichkeit einen Ordner mit PDF Dateien anzugeben und zu durchsuchen (ziemlich fix)
  10. Hellfire

    Hellfire Team (Mod) Mitarbeiter

    Registriert seit:
    17 April 2003
    Beiträge:
    6.711
    Hallo,

    ich hätte die gleiche Frage: Ich habe hier ein paar tausend pdfs in verschiedenen Ordnern, die ich gerne alle durchsuchen möchte. Geht sowas mittlerweile?
  11. rick_s

    rick_s Bekanntes Mitglied

    Registriert seit:
    8 Juni 2001
    Beiträge:
    1.586
    Ich würde ein Indexer-Programm wie Archivarius3000 installieren, einmal indexieren lassen und dann suchen. Ist auch für andere Dokumente nützlich.
    eumelfrau und Hellfire sagen Danke.
  12. BerniM895

    BerniM895 Aktives Mitglied

    Registriert seit:
    24 Juni 2001
    Beiträge:
    278
    Wenn's OpenSource sein soll - Searchmonkey: http://searchmonkey.embeddediq.com/

    Du kannst die Suche auf einen bestimmten Dateityp (z.B. *.pdf) und auf einen Ordner nebst Unterordnern begrenzen.
    Du kannst nach Dateinamen oder auch nach Text suchen, welcher in der pdf enthalten ist.
    Es wird kein Index angelegt. Dadurch ist die Suche etwas langsamer.

    Mein Suchtool ist Copernic: https://www.copernic.com/en/products/desktop-search/

    Ist allerdings kein OpenSource . . .
    bavariantommy und Hellfire sagen Danke.
  13. RichyZuHause

    RichyZuHause Alter mit Ego

    Registriert seit:
    2 Juni 2001
    Beiträge:
    1.961
    Voraussetzung ist natürlich, dass die PDFs prinzipiell text-durchsuchbar sind.
    Screenshots als PDF helfen nicht.

    Ist das erfüllt, empfehle ich Lookeen oder X1.
    Beide können auch Mails abgrasen.
    Inkl. PDF.
    Hellfire sagt Danke.
  14. Bestatter

    Bestatter Schwarzfahrer

    Registriert seit:
    30 Mai 2001
    Beiträge:
    5.073
    Ich nutze dafür den Total Commander mit dem Plugin "xPDFSearch".
    Auf dem Sreenshot der verlinkten Pluginseite ist auch gleich zu sehen, wie z.B. nach einem bestimmten Text gesucht werden kann.
    Funktioniert ab Startverzeichnis in alle Unterordnerstrukturen.
    Wurde auch schon in #3 genannt.
    Hellfire sagt Danke.
  15. Cemos

    Cemos Mitglied

    Registriert seit:
    30 April 2001
    Beiträge:
    279
    Finde auch dass das eines der besten Programme dafür ist ich würde es nicht mehr missen wollen.
  16. juvine-Reloaded

    juvine-Reloaded IMMER Online und STÄNDIG Besoffen

    Registriert seit:
    24 Dezember 2013
    Beiträge:
    242
  17. rick_s

    rick_s Bekanntes Mitglied

    Registriert seit:
    8 Juni 2001
    Beiträge:
    1.586
    Ich habe jetzt keinen Vergleich zwischen den Platzhirschen X1, Copernic und Archivarius3000 angestellt, weil ich mit letzterem zufrieden bin. Aber Archivarius ist auch deutlich günstiger als die anderen beiden, wenn man es denn kaufen will und es gibt von einem geschätzten Boardie auch eine Portable Version. :-)
    punger sagt Danke.
  18. bavariantommy

    bavariantommy Universaldilletant

    Registriert seit:
    10 Mai 2001
    Beiträge:
    5.817
    Mein Favorit ist nach wie vor Docfetcher. Er erstellt in Windeseile von den in den angegebenen Pfaden abgelegten Dokumenten einen Volltextindex, der danach als Grundlage dient Den Inhalt der jeweiligen Datei zeigt die Java-Software in einem Vorschaufenster mit hervorgehobenem Suchbegriff an.
    Zur Suche selbst:
    Darüber hinaus indiziert das Tool nicht nur alle möglichen textbasierten Formate, sondern auch die ID3-Tags von Audiodateien.
    Zuletzt bearbeitet: 21 Januar 2019
    Rubb, SkAvEnGeR und Hellfire sagen Danke.
  19. Hellfire

    Hellfire Team (Mod) Mitarbeiter

    Registriert seit:
    17 April 2003
    Beiträge:
    6.711
    Hallo,

    ich habe mir jetzt Lookeen angesehen und bin mit der Previewfunktion nicht ganz zufrieden: Die pdfs haben alle mehrere hundert Seiten und ich würde gerne direkt den Suchbegriff oder zumindest direkt im Vorschaufenster die entsprechende Seite angezeigt bekommen. Geht das, eventuell, gerne auch mit einem anderen Programm, ich klebe da nicht an dem Lookeen.
  20. Steve Austin

    Steve Austin Aktives Mitglied

    Registriert seit:
    2 Dezember 2001
    Beiträge:
    899
    Ich kann X1 Search empfehlen, da auch sehr schnell.
  21. SkAvEnGeR

    SkAvEnGeR Master of Tools

    Registriert seit:
    21 Mai 2001
    Beiträge:
    5.542
    Genau das macht das kostenlose Programm DocFetcher - das @bavariantommy direkt über deinem Beitrag bereits erwähnte.
    Ich habe es mal ausprobiert und bin damit sehr zufrieden.
    Im folgenden Screenshot habe ich mehrere Dokumente (auch PDFs) nach dem Begriff Adobe durchsucht - in der Vorschau werden mir die Fundstellen hervorgehoben und ich kann per Button zum nächsten Fundort springen.

    docfetcher-suchergebnis.png
    Hellfire und Rubb sagen Danke.
  22. punger

    punger Bekanntes Mitglied

    Registriert seit:
    3 Juni 2001
    Beiträge:
    2.738
    Ferique,
    wie ginge das mit "Calibre"?

    Also eine Bibliothek erstellen u. dann "nur" noch volltextsuchbar machen..

    Dies ist hier schon diskutiert worden, z.T. muss in ePub Format erst umgewandelt werden):
    https://www.e-reader-forum.de/e-boo...28309-volltextsuche-in-calibre-auch-in-pd-fs/

    oder besser scheint mir hier (Linux Synaptic):

    https://askubuntu.com/questions/77218/does-calibre-support-full-text-indexing-search
    Try Recoll. It's listed in Synaptic
    Another possibility based on same xapian engine is Pinot which offers automatic folder monitoring (indexing), unlike Recoll manual re-indexing
    Both index (and offer full-text search) PDF and DjVu if pdftotext and djvutext are found on system

    Hmm. Sorry, keine fertige Lösung, aber als Idee? Sonst, wenn es nichts war..(an mich gerichtet):
    "Wenn man nicht die Fresse halten kann: Einfach mal ruhig sein.." s.o.
  23. Hellfire

    Hellfire Team (Mod) Mitarbeiter

    Registriert seit:
    17 April 2003
    Beiträge:
    6.711
    Hallo,

    @SkAvEnGeR, ja das funktioniert schon sehr viel besser, allerdings zeigt das Vorschaufenster nicht die Originalseite an, sondern eine generierte Textversion, was mir die Orientierung extrem erschwert. Gibt es vielleicht die Möglichkeit (bei diesem oder einem anderen Programm) die Vorschau wie die pdf tatsächlich ist anzeigen zu lassen, und gleichzeitig das gesuchte Wort zu markieren und in der pdf-Vorschau von Stelle zu Stelle springen zu können?
  24. SkAvEnGeR

    SkAvEnGeR Master of Tools

    Registriert seit:
    21 Mai 2001
    Beiträge:
    5.542
    Ähm, genau so funktioniert es direkt in Acrobat oder jedem anderen PDF-Programm. STRG+F - Suchtext eingeben - Markierung aktivieren - suchen - durch die Ergebnisse blättern
    Aber leider geht das eben immer nur für das gerade geöffnete PDF - nicht in mehreren gleichzeitig, wie vom TE gewünscht.
    Zuletzt bearbeitet: 25 Januar 2019
  25. rabe

    rabe Team (Mod) Mitarbeiter

    Registriert seit:
    21 Juli 2003
    Beiträge:
    5.221
    Das geht mit der erweiterten Suche sehr wohl, wie ich bereits weiter oben angeführt habe, im Acrobat kann man gewünschte Ordner oder LW nach Stichworten durchsuchen - dauert gegebenenfalls halt etwas ;).

    Gruß
    rabe
    Zuletzt bearbeitet: 25 Januar 2019
    SkAvEnGeR sagt Danke.
  26. Hellfire

    Hellfire Team (Mod) Mitarbeiter

    Registriert seit:
    17 April 2003
    Beiträge:
    6.711
    Hallo,

    nochmals ein wenig später, ich bin nicht früher dazu gekommen: Heute habe DocFetcher auf meinen eigentlichen Datenbestand angesetzt und der brach nach etwa 230.000 durchsuchten Dateien mit der Fehlermeldung ab, der Arbeitsspeicher (32GB) sei nicht groß genug. Ich habe es zweimal versucht, einmal mit einem etwas reduzierten Aufgabengebiet, evtl. müsste ich das noch einmal einschränken - wäre es eventuell sinnvoll diese Indexerstellung in Etappen durchlaufen zu lassen, also etwa nach und nach bestimmte Ordner? Oder gibt es dafür eine andere Lösung, etwa ein anderes Programm? Die Alternative mit Acrobat erscheint mir nicht als eine Option, das "dauert gegebenenfalls halt etwas" schreckt mich ein wenig. :D
  27. rabe

    rabe Team (Mod) Mitarbeiter

    Registriert seit:
    21 Juli 2003
    Beiträge:
    5.221
    Versuch es halt einfach mit dem Acrobat, Du kannst ja jederzeit unterbrechen und außerdem werden die gefundenen Ergebnisse laufend angezeigt, da kannst Du Dich ja festlesen, was die Wartezeit sicher beträchtlich verkürzt ;).

    Gruß
    rabe
  28. rick_s

    rick_s Bekanntes Mitglied

    Registriert seit:
    8 Juni 2001
    Beiträge:
    1.586
    Geh' doch einfach mal meinem Hinweis aus #17 nach.
  29. deathrow

    deathrow Bekanntes Mitglied

    Registriert seit:
    3 Juni 2002
    Beiträge:
    4.392
    Wenn man eh mit dem Acrobat zu Gange ist,
    dann ist die erweiterte Suche das Mittel der Wahl,
    du kannst da ausnahmsweise einer Frau (i.d.F. Rabe) vertrauen. :icon_mrgreen:
    Archivarius ist auch nicht schlecht, aber eben ein zusätzliches Programm.
  30. Antitrack

    Antitrack Bekanntes Mitglied

    Registriert seit:
    10 Januar 2003
    Beiträge:
    4.190
  31. Hellfire

    Hellfire Team (Mod) Mitarbeiter

    Registriert seit:
    17 April 2003
    Beiträge:
    6.711
    Hallo,

    @rick_s: Ja, hatte ich mir angeschaut, aber hatte mir nicht so zugesagt (weshalb weiß ich leider nicht mehr).

    @rabe / @deathrow: Wenn der Indexdienst doch schon über 5 Stunden benötigt, bevor er die Grätsche macht, dann steht doch die Zeit, die für eine einzige Suchanfrage doch irgendwie in keinem Verhältnis, oder? Ich will ja nicht einen Begriff suchen, sondern andauernd suchen. :)

    @Antitrack: Werde ich mir einmal ansehen, danke!

    Ich bin jetzt wirklich so verblieben und habe einzelne Unterordner einzeln ausgewählt und werde jetzt erst einmal auf diese Art peu à peu den ganzen Bestand erfassen. Das scheint auch dann zu funktionieren, jedenfalls kann ich den Suchbereich auf alle Unterordner ausdehnen.