Dynamische Website offline lauffähig exportieren oder speichern

chaospir8

★★★★★-Oldie
Hallo Leute,

ich bräuchte Unterstützung der gesamten CC-CB-Schwarmintelligenz ;), weil ich selber an dieser Ecke nichts vernünftiges finde, dabei habe ich die letzten Wochen schon einiges gefunden und ausprobiert.

Womit kann ich eine dynamische Website so exportieren (z.B. PDF, Word, was auch immer, nur bearbeitbar) oder so speichern, dass ich sie auch offline nutzen kann.
Ich möchte sie (oder ihre Inhalte) dann weiter "verarbeiten" (copy, paste, ...)

Konkretes Beispiel:
Z.B. eine unserer Linklisten Online-Tools-Seite bei start.me: https://start.me/p/KMzjAB/office-pdf-ocr
Wie kann ich diese Inhalte Offline verfügbar machen?
Lokal speichern .... offline funktioniert es nicht.
Als PDF speichern ... ist wohl nichts
Alles markieren, kopieren und in Word einfügen ... geht nicht.
http://offliberty.com/ ... geht nicht.
...

Weitere Ideen?

Tipp:
Das einzige, was funktioniert bis jetzt, ist das Firefox-Addon "Save Page WE", https://addons.mozilla.org/de/firefox/addon/save-page-we ...

... aber:
Auch mit diesem Extrakt komme ich nicht an die Inhalte ran (also z.B. einzelne "Kästchen" mit den Links markieren und anderswo sauber, inkl. Popup-Texten, wieder einfügen).
 
Zuletzt bearbeitet:

TLNZodiac

Bekanntes Mitglied
Hi, ich weiß nicht, ob ich Dein Problem verstehe. Sollte es darum gehen, eine Webseite inklusive der nachfolgenden Links zu speichern, wäre vielleicht HTTrack eine Möglichkeit, quasi eine Momentaufnahme inklusive der nachfolgenden Links: https://www.httrack.com
Vielleicht wäre es auch eine Idee, archive.org zu veranlassen, einen solchen Snapshot anzulegen: https://archive.org
Imo wären in beiden Herangehensweisen die weitergehenden Links/Files später noch verfügbar.
 

GiveThatLink

Bekanntes Mitglied
Das Problemkind ist "dynamisch", das kann nicht mal die Firefox-Bilderfassung bei solchen Seiten - weil die eben kein Ende haben, sondern ewig weiter aufgebaut werden, bis das eigentliche Ende erreicht ist. Und der Inhalt wird per Scrollen aufgebaut, das lässt sich per Javascript auf dem Server erfassen, also die Position in der Seite. Deswegen haben manche Seiten auch den Fehler beim Vor-Zurückspringen, wenn die nicht mittendrin landen, sondern wieder beim Anfang.
 

Brian

Ihr seid alle Individuen.
Also wget oder ähnliches fällt wegen des ganzen JavaScript weg.

Aber mit dem chrome kann man das headless über Kommandozeile machen.

Code:
google-chrome-beta --headless --disable-gpu --print-to-pdf 'https://start.me/p/KMzjAB/office-pdf-ocr'

EDIT:
Läuft leider nicht so wie ich dachte, aber eigentlich sollte man das mit headless Chrome lösen können. Bin mir nicht sicher, ob das ein Cookie Problem ist.
 
Zuletzt bearbeitet:

chaospir8

★★★★★-Oldie
Hallo Ihr Lieben,

vielleicht habe ich bei meiner Anfrage im Eröffnungsbeitrag den Focus zu sehr auf das "offline" gesetzt und zu wenig auf das, was ich danach machen will.

Das "offline" war nur, um den Bedarf abzudecken, dass ich nicht nur das offensichtlich sichtbare auf der Seite brauche (sonst könnte ich ja z.B. auch mit SnagIt ein "Runterscroll-Screenshot" machen), sondern auch die dynamischen Inhalte (z.B. das, was bei Links bei einem Mouse-over angezeigt wird).
Das alles klappt aber auch schon, wenn ich die Seite mit o.g. Firefox-Addon runterlade.

Aber (und da war ich vorhin zu geizig mit Infos, sorry dafür!):
Ich möchte diese Inhalte einer solchen Seite dann auch per Copy-Paste in eine andere Anwendung hineinkopieren oder in ein Forumsbeitrag mit BBCode-Formatierungen oder ....

Mit anderen Worten (um bei dem Online-Tools-Beispiel zu bleiben):
Die Links sollen inkl. der Mouse-Over-Infos/Beschreibungen hier in einen Thread rein.
 

Joshua

Gott sei Dank Atheist
Hallo,

vielleicht ist es auch hilfreich, noch näher auf das eigentliche Ziel einzugehen. Aus meiner Sicht geht es um das Erstellen und Pflegen von Linklisten, so wie z. B. die Linkliste Online-Tools 2.0. Als führendes System haben wir hier einen externen Dienst aus zwei wesentlichen Gründen verwendet: Weil man da mit mehreren zusammen daran arbeiten und weil die Linksammlung strukturiert werden kann. Wenn es dann noch nett aussieht und z. B. Metadaten der Links automatisch übernommen werden, dann hat man einen echten Mehrwert. Trotzdem sollen die Linklisten von der und für die Community des CC-CB sein. Deswegen gibt es eine Kopie der Linklisten auch hier im Board in einem Thread.

Nun gestaltet sich das spiegeln der Inhalte in einen Thread mit BBCode recht schwierig und eine kontinuierliche Fortschreibung der Linklisten damit recht aufwendig. Man kann von start.me ein "NETSCAPE-Bookmark-file" in HTML exportieren, aber das sieht selbst und dann hier in einen Beitrag kopiert ziemlich blöd aus. Gesucht wird also ein guter Workflow hierfür. Es gibt dafür verschiedene Lösungsansätze, die bereits verfolgt werden: XenForo selbst als führendes System zu nutzen. Die Datenübernahme von start.me möglichst einfach und funktional zu gestalten. Und, was ich auch nicht gänzlich ausschließen würde: Einen besser geeigneten externe Dienst zu verwenden, der dies ermöglicht. Bisher gibt es keine befriedigende Lösung. Vielleicht hat jemand mit diesem Betrachtungswinkel eine Idee.

@chaospir8 Ich hoffe, ich greife da nicht zu sehr in deine Intention ein, denke aber, dass wir ähnliche Ziele verfolgen. Sollte dies nicht so sein, können wir meinen Ansatz auch gerne auslagern.
 

chaospir8

★★★★★-Oldie
@Joshua
Ja, vollkommen richtig. Dabei habe ich ein paralleles Thema noch im Sinn, das aber im "Grauzonen-Bereich" gelagert ist, daher wollte ich es nicht zu klar beschreiben .... und habe mich etwas verhaspelt. Sorry dafür an die Boardies!
 
Oben Unten