Kopieren aus PDF bringt ungewollte Trennzeichen mit sich

Azrael

Bekanntes Mitglied
Hi,
im Rahmen meiner Contentverarbeitung erhalte ich u.a. auch PDF Dokumente.
Bei vielen läuft es sorglos und einwandfrei bei einigen wenigen kommen beim Copy&Paste Verfahren nach Wordpress Worttrennungen mit, die zwar im PDF Sinn machen aufgrund der Formatierung, im Wordpress aber überhaupt nicht sinnvoll sind. Da kann ich mir den Worttrennungen nichts anfangen und die zerhacken mir meinen Artikel/Beitrag.

Habt Ihr dafür ne Lösung ?
Versucht mit Acrobat Reader, MS Edge ... und gerne auch offen für weitere Software - nur - eigentlich ist das doch "normal" bzw sollte es sein.

greetz
aZ
 

Joshua

Gott sei Dank Atheist
Hallo,

kannst du vielleicht mal ein Beispiel einstellen, wie diese "Worttrennungen" aussehen?
 

dr_tommi

alter Oldie
Manche PDF-Dateien sind nicht geeignet dazu um Text einfach so zu kopieren. Sie sollen ja eigentlich auch "nur" ausgedruckt bzw. angezeigt werden.
Da wird bei der Erstellung bei einigen Programmen einiges verändert damit es so aussieht wie die ursprüngliche Datei.
Komprimierung ist da so ein Beispiel.
 

Azrael

Bekanntes Mitglied
Das ist schon sehr sehr lokalbezogen .. ich versuch mal was rauszuschnibbeln.
Formatierung rausnehmen - wäre schön, wenn da blanker Text rauskäme .. aber viel mehr als "Copy & Paste" mag ich aufgrund der Anzahl von Dokumenten nicht machen.
Im Wordpress wird dann noch ein ganz klein wenig nachformatiert. (Überschrift fett)
 

Joshua

Gott sei Dank Atheist
Formatierung rausnehmen - wäre schön, wenn da blanker Text rauskäme .. aber viel mehr als "Copy & Paste" mag ich aufgrund der Anzahl von Dokumenten nicht machen.
Du kannst aber im WordPress-Editor Text auch ohne Formatierung einfügen:
1598783721599.png


Ich nutze dafür systemweit seit Jahren die Funktion "PastePlain" von ac'tivAid von Heise über eine eigene Tastenkombination (Alt+V). Da kann man sogar beim Einfügen (wahlweise) den Zeilensprung entfernen, was auch ziemlich praktisch ist. Es gibt alternativ wohl noch das kleine Tool PureText, das habe ich aber bisher nicht verwendet.
 

Azrael

Bekanntes Mitglied
YES ! (aber leider Nein)

ActiveAid - schaut toll aus und ich werd mir bestimmt was rausfischen, tolles Set !

PastePlain macht es ähnlich gut wie PureText - beide erreichen bei dem PDF Zeug leider nicht das Ergebnis.
Frage mich echt wie die Konkurrenz das macht .
 

Azrael

Bekanntes Mitglied
Die klauen nichts aus fremden PDF-Dateien. :D
Es handelt sich um normale Pressemitteilungen .. interessanterweise kommt bei einem von drei Redakteuren das Problem nicht. Selbes Haus. Wenn ich das richtig sehe ist MS Word die Grundlage und ich würde jetzt fast wetten wollen, dass die anderen beiden die Trennungszeichen hart eintippen. Mal schauen ..
 

dr_tommi

alter Oldie
Es handelt sich um normale Pressemitteilungen ..
Das mit dem "Klauen" war doch nur Spaß.

interessanterweise kommt bei einem von drei Redakteuren das Problem nicht. Selbes Haus. Wenn ich das richtig sehe ist MS Word die Grundlage und ich würde jetzt fast wetten wollen, dass die anderen beiden die Trennungszeichen hart eintippen. Mal schauen ..
Sehe ich das richtig, dass du erwartest, einen bereits fertig umgebrochenen und in ein PDF "gedruckten" Text mit Trennzeichen wie Silbentrennungen, zusätzlichen Leerzeichen und Zeilenwechseln durch einfaches Kopieren wieder in Fließtext ohne jede Trennung umzuwandeln?
Lustige Idee.
Und ja, es soll Leute geben, die schreiben Texte auch ohne automatischen Umbruch so dass er passt. Und die trennen auch manuell. ;)

Doppelte Leerzeichen sowie Zeilenwechsel könnte scriptgesteuert entfernen. Silbentrennungen eventuell auch.
Aber ohne Handarbeit geht da nichts.
 

Azrael

Bekanntes Mitglied
Ich möchte eigentlich nur "brauchbaren" Text übernehmen und möglichst wenig dabei nachbearbeiten.

2 Workarounds gehen jetzt - einmal per OneNote .. und das was ich jetzt erstmal bevorzuge - PDF in Word öffnen, fertig. Etwa 99,5% allen "Unfugs" wird dadurch geglättet. Reicht mir zunächst so -
ist zwar immer noch zu umständlich, aber ...

Spaß geht immer !
 
Oben Unten