Seite 1 von 1

(Gelöst) Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 10:24
von Sess
Hallo,


ich habe ein sehr langes PDF-Dokument in dem sich u.a. EMail-Adressen befinden und möchte von Seite x bis y alle EMail-Adressen extrahieren.
Diese sollen dann später in ein Tabellendokument um vom EMail-Client gelesen werden zu können.

Den Inhalt des PDF's kann ich einfach in ein OpenOffice-Dokument kopieren, aber wie geht es dann weiter?

Ich müsste ihm ja quasi sagen: Kopiere jede zusammenhängende Zeichenkette in dem ein @ Zeichen vorkommt?

Wenn mir das jemand real erklären könnte, wäre ich sehr dankbar!


Morgendlicher Gruß,
Sess

Re: Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 10:51
von bonzo
Hallo,
lade dir hier die Extension AltSearch runter und installiere sie.
Suche dann mit ihr unter dem Reiter Erweitert nach allen Mailadressen, nix ersetzen!
Schließe AltSearch, alle Mailadressen sind markiert, du kannst sie jetzt zur weiteren Verwendung in die Zwischenablage kopieren.
Ciao

Re: Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 11:09
von komma4
geht auch mit der eingebauten Suche:

Bearbeiten>Suchen&Ersetzen>Suchen nach[:alnum:]{1,}@[:alnum:]{1,}\.[:alnum:]{2,}
Mehr Optionen>Regulärer Ausdruck einschalten, dann Alle Suchen und die markierten Fundstellen kopieren.

Re: Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 11:13
von Sess
Bonzo: Danke, das klappt ja soweit gut! Er markiert alle Adressen, aber wenn ich die dann kopiere in ein leeres Dokument siehts gar nicht mehr rosig aus. Beim einfügen werden die Adressen verwurschtelt. Er macht hinter dem ".de" nicht schluss sondern gleich ohne leerzeichen mit der nächsten weiter und bricht dann irgendwann in der Zeile um. Somit müsste ich wieder jede einzelne bearbeiten was dem von hand kopieren gleich käme. :\ Was ich kann ich noch außer Kopieren/Einfügen groß anstellen?


Sanne: Auch dir Danke! Das kann ich noch nicht ganz nachvollziehen. Ich habe das Dokument in Die Tabelle eingefügt und jede Zeile startet in der A-Spalte. Wie es dann mit deinem Suchalgorhythmus weitergehen soll, verstehe ich nicht ganz. annst du mir das ein wenig genauer erklären? :)


Gruß,
Sess

Re: Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 11:46
von Sess
Hey, stimmt gute Idee. :)
Leider beginnt er nach dem Einfügen die zweite Adresse dann dennoch schon in der Vorherigen Zeile. Nur mit dem Unterschied das nun ein Leerzeichen zwischen de und dem beginn der zweiten adresse ist.


So sieht das aus:

adresse-abc.wald@schokolade.de adresse-
cde.wald@schokolade.de adresse-
efg.wald@schokolade.de adresse-
ghi.wald@schokolade.de
(...)

Und wenn ich das in ein Tabellendokument einfüge schreibt er das gleich alles in eine einzige Zelle. Er löscht beim Kopieren völlig die Information das das unterschiedliche Zeilen sind und macht daraus einen Textblock. Wie kann ich das verhindern?

Re: Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 12:00
von Sess
Dann macht er hinter allen "de" einen Umbruch. ".de" bleibt unangetastet. Ignoriert er den Punkt?

Re: (Gelöst) Extrahieren von Email-Adressen (Zeichenketten?)

Verfasst: Mi, 02.09.2009 12:15
von Sess
Super hat geklappt. :) Danke!