Software Frage Mehrere PDFs auf einmal durchsuchen

Ferique

Sessiz Okuyucu
Hallo Zusammen,

ich befinde mich immer mal wieder in der Situation verschiedene Berichte (durchsuchbare PDF-Dokumente), die mehrere hundert Seiten stark sind und jährlich erscheinen auf diverse Stichworte zu durchsuchen. Das sind mittlerweile viele Dutzend PDF-Dokumente, da jedes Bundesland jährlich einen eigenen Bericht abliefert.

Damit ich nicht jedes PDF-Dokument einzeln aufrufen und händisch die Suche nach einem bestimmten Stichwort durchführen muss, suche ich nach einer eleganten Lösung um diese Suche auf alle Dokumente auf einen Schlag durchführen zu können.

Ich stelle mir das so vor, dass ich alle Dokumente in einem einzelnen Ordner ablege (ideal wäre, wenn die Unterordner in die Suche miteinbezogen würden) und eine weitere Software (ggf. eine Open-Source-DMS) die Suche auf alle Dokumente ausweitet.

Wie kann man so etwas mit so wenig Aufwand wie möglich bewerkstelligen?

Grüße
Ferique
 

Zapata

Bekanntes Mitglied
Wenns um Windows 7 32-bit geht, sollte es doch über die normale Windows-Suche gehen, ggf. mal in den “Indizierungsoptionen” nachsehen, ob der Speicherort der PDFs auch indiziert wird. Bei Windows 7 64-bit muss man glaube ich den Adobe PDF iFilter installieren, damit durchsuchbare PDF Dateien auch durch den Windows Indexdienst indiziert werden.


Zapata
 

Zapata

Bekanntes Mitglied
Zumindest im Adobe Reader dauert die Suche je nach Datenmenge wohl recht lange. Theoretisch müsste das unter Windows, einmal indiziert, viel flotter gehen.Iich habe da bei großen bzw. vielen PDF-Dateien aber keine Erfahrung, aber es wäre ja für Ferique einen Versuch wert, wenn es mit Windows-Boardmitteln gut geht.


Zapata
 

Ferique

Sessiz Okuyucu
Besten Dank für das bisherige Feedback.

Die Lösung mit Lookeen werde ich mal ausprobieren, weil ich das Tool seit Jahren gerne (für Outlook) nutze. Vielleicht lässt sich ja ein vom Outlook getrennter eigener Idex für PDFs aufbauen.
Die erweiterte Suche vom Adobe Reader ist eine praktische Funktion. Ich bin mir nicht sicher, ob damit auch Boolsche Operatoren funktionieren.

Perfekt wäre langfristig ein Tool in etwa der Form eines Mini-DMS, welches netzwerkfähig damit auch Kollegen sich der Suche in den Berichten bedienen können.

Ich werde berichten, wenn ich noch etwas eleganteres finden sollte.

Gruß
Ferique
 

mercutio

Bekanntes Mitglied
Foxit Reader bietet ebenfalls die Möglichkeit einen Ordner mit PDF Dateien anzugeben und zu durchsuchen (ziemlich fix)
 

Hellfire

Team (Mod)
Mitarbeiter
Hallo,

ich hätte die gleiche Frage: Ich habe hier ein paar tausend pdfs in verschiedenen Ordnern, die ich gerne alle durchsuchen möchte. Geht sowas mittlerweile?
 

BerniM895

Bekanntes Mitglied
Wenn's OpenSource sein soll - Searchmonkey: http://searchmonkey.embeddediq.com/

Du kannst die Suche auf einen bestimmten Dateityp (z.B. *.pdf) und auf einen Ordner nebst Unterordnern begrenzen.
Du kannst nach Dateinamen oder auch nach Text suchen, welcher in der pdf enthalten ist.
Es wird kein Index angelegt. Dadurch ist die Suche etwas langsamer.

Mein Suchtool ist Copernic: https://www.copernic.com/en/products/desktop-search/

Ist allerdings kein OpenSource . . .
 

RichyZuHause

Alter mit Ego
Voraussetzung ist natürlich, dass die PDFs prinzipiell text-durchsuchbar sind.
Screenshots als PDF helfen nicht.

Ist das erfüllt, empfehle ich Lookeen oder X1.
Beide können auch Mails abgrasen.
Inkl. PDF.
 

Bestatter

Schwarzfahrer
Ich nutze dafür den Total Commander mit dem Plugin "xPDFSearch".
Auf dem Sreenshot der verlinkten Pluginseite ist auch gleich zu sehen, wie z.B. nach einem bestimmten Text gesucht werden kann.
Funktioniert ab Startverzeichnis in alle Unterordnerstrukturen.
Wurde auch schon in #3 genannt.
 

rick_s

Bekanntes Mitglied
Ich habe jetzt keinen Vergleich zwischen den Platzhirschen X1, Copernic und Archivarius3000 angestellt, weil ich mit letzterem zufrieden bin. Aber Archivarius ist auch deutlich günstiger als die anderen beiden, wenn man es denn kaufen will und es gibt von einem geschätzten Boardie auch eine Portable Version. :-)
 

bavariantommy

Universaldilletant
Mein Favorit ist nach wie vor Docfetcher. Er erstellt in Windeseile von den in den angegebenen Pfaden abgelegten Dokumenten einen Volltextindex, der danach als Grundlage dient Den Inhalt der jeweiligen Datei zeigt die Java-Software in einem Vorschaufenster mit hervorgehobenem Suchbegriff an.
Zur Suche selbst:
Über simple Konstrukte wie OR, AND und NOT hinaus unterstützt DocFetcher unter Anderem: Wildcards, Phrasen-Suche, Fuzzy-Suche ("finde Wörter, die folgenden Wörtern ähneln: ..."), Nachbarschafts-Suche ("folgende Wörter sollen höchstens 10 Wörter voneinander entfernt sein"), Boosting ("gib Dateien höheres Gewicht, die folgende Wörter enthalten: ...")
Darüber hinaus indiziert das Tool nicht nur alle möglichen textbasierten Formate, sondern auch die ID3-Tags von Audiodateien.
 
Zuletzt bearbeitet:

Hellfire

Team (Mod)
Mitarbeiter
Hallo,

ich habe mir jetzt Lookeen angesehen und bin mit der Previewfunktion nicht ganz zufrieden: Die pdfs haben alle mehrere hundert Seiten und ich würde gerne direkt den Suchbegriff oder zumindest direkt im Vorschaufenster die entsprechende Seite angezeigt bekommen. Geht das, eventuell, gerne auch mit einem anderen Programm, ich klebe da nicht an dem Lookeen.
 

SkAvEnGeR

Master of Tools
Hallo,

ich habe mir jetzt Lookeen angesehen und bin mit der Previewfunktion nicht ganz zufrieden: Die pdfs haben alle mehrere hundert Seiten und ich würde gerne direkt den Suchbegriff oder zumindest direkt im Vorschaufenster die entsprechende Seite angezeigt bekommen. Geht das, eventuell, gerne auch mit einem anderen Programm, ich klebe da nicht an dem Lookeen.
Genau das macht das kostenlose Programm DocFetcher - das @bavariantommy direkt über deinem Beitrag bereits erwähnte.
Ich habe es mal ausprobiert und bin damit sehr zufrieden.
Im folgenden Screenshot habe ich mehrere Dokumente (auch PDFs) nach dem Begriff Adobe durchsucht - in der Vorschau werden mir die Fundstellen hervorgehoben und ich kann per Button zum nächsten Fundort springen.

docfetcher-suchergebnis.png
 

punger

Bekanntes Mitglied
Ferique,
wie ginge das mit "Calibre"?

Also eine Bibliothek erstellen u. dann "nur" noch volltextsuchbar machen..

Dies ist hier schon diskutiert worden, z.T. muss in ePub Format erst umgewandelt werden):
https://www.e-reader-forum.de/e-boo...28309-volltextsuche-in-calibre-auch-in-pd-fs/

oder besser scheint mir hier (Linux Synaptic):

https://askubuntu.com/questions/77218/does-calibre-support-full-text-indexing-search
Try Recoll. It's listed in Synaptic
Another possibility based on same xapian engine is Pinot which offers automatic folder monitoring (indexing), unlike Recoll manual re-indexing
Both index (and offer full-text search) PDF and DjVu if pdftotext and djvutext are found on system

Hmm. Sorry, keine fertige Lösung, aber als Idee? Sonst, wenn es nichts war..(an mich gerichtet):
"Wenn man nicht die Fresse halten kann: Einfach mal ruhig sein.." s.o.
 

Hellfire

Team (Mod)
Mitarbeiter
Hallo,

@SkAvEnGeR, ja das funktioniert schon sehr viel besser, allerdings zeigt das Vorschaufenster nicht die Originalseite an, sondern eine generierte Textversion, was mir die Orientierung extrem erschwert. Gibt es vielleicht die Möglichkeit (bei diesem oder einem anderen Programm) die Vorschau wie die pdf tatsächlich ist anzeigen zu lassen, und gleichzeitig das gesuchte Wort zu markieren und in der pdf-Vorschau von Stelle zu Stelle springen zu können?
 

SkAvEnGeR

Master of Tools
...Gibt es vielleicht die Möglichkeit (bei diesem oder einem anderen Programm) die Vorschau wie die pdf tatsächlich ist anzeigen zu lassen, und gleichzeitig das gesuchte Wort zu markieren und in der pdf-Vorschau von Stelle zu Stelle springen zu können?
Ähm, genau so funktioniert es direkt in Acrobat oder jedem anderen PDF-Programm. STRG+F - Suchtext eingeben - Markierung aktivieren - suchen - durch die Ergebnisse blättern
Aber leider geht das eben immer nur für das gerade geöffnete PDF - nicht in mehreren gleichzeitig, wie vom TE gewünscht.
 
Zuletzt bearbeitet:

rabe

Team (Mod)
Mitarbeiter
.....
Aber leider geht das eben immer nur für das gerade geöffnete PDF - nicht in mehreren gleichzeitig, wie vom TE gewünscht.
Das geht mit der erweiterten Suche sehr wohl, wie ich bereits weiter oben angeführt habe, im Acrobat kann man gewünschte Ordner oder LW nach Stichworten durchsuchen - dauert gegebenenfalls halt etwas ;).

Gruß
rabe
 
Zuletzt bearbeitet:

Hellfire

Team (Mod)
Mitarbeiter
Hallo,

nochmals ein wenig später, ich bin nicht früher dazu gekommen: Heute habe DocFetcher auf meinen eigentlichen Datenbestand angesetzt und der brach nach etwa 230.000 durchsuchten Dateien mit der Fehlermeldung ab, der Arbeitsspeicher (16GB) sei nicht groß genug. Ich habe es zweimal versucht, einmal mit einem etwas reduzierten Aufgabengebiet, evtl. müsste ich das noch einmal einschränken - wäre es eventuell sinnvoll diese Indexerstellung in Etappen durchlaufen zu lassen, also etwa nach und nach bestimmte Ordner? Oder gibt es dafür eine andere Lösung, etwa ein anderes Programm? Die Alternative mit Acrobat erscheint mir nicht als eine Option, das "dauert gegebenenfalls halt etwas" schreckt mich ein wenig. :D
 

rabe

Team (Mod)
Mitarbeiter
...Die Alternative mit Acrobat erscheint mir nicht als eine Option, das "dauert gegebenenfalls halt etwas" schreckt mich ein wenig. :D
Versuch es halt einfach mit dem Acrobat, Du kannst ja jederzeit unterbrechen und außerdem werden die gefundenen Ergebnisse laufend angezeigt, da kannst Du Dich ja festlesen, was die Wartezeit sicher beträchtlich verkürzt ;).

Gruß
rabe
 

deathrow

Bekanntes Mitglied
Wenn man eh mit dem Acrobat zu Gange ist,
dann ist die erweiterte Suche das Mittel der Wahl,
du kannst da ausnahmsweise einer Frau (i.d.F. Rabe) vertrauen. :icon_mrgreen:
Archivarius ist auch nicht schlecht, aber eben ein zusätzliches Programm.
 

Hellfire

Team (Mod)
Mitarbeiter
Hallo,

@rick_s: Ja, hatte ich mir angeschaut, aber hatte mir nicht so zugesagt (weshalb weiß ich leider nicht mehr).

@rabe / @deathrow: Wenn der Indexdienst doch schon über 5 Stunden benötigt, bevor er die Grätsche macht, dann steht doch die Zeit, die für eine einzige Suchanfrage doch irgendwie in keinem Verhältnis, oder? Ich will ja nicht einen Begriff suchen, sondern andauernd suchen. :)

@Antitrack: Werde ich mir einmal ansehen, danke!

Ich bin jetzt wirklich so verblieben und habe einzelne Unterordner einzeln ausgewählt und werde jetzt erst einmal auf diese Art peu à peu den ganzen Bestand erfassen. Das scheint auch dann zu funktionieren, jedenfalls kann ich den Suchbereich auf alle Unterordner ausdehnen.
 
Oben Unten