Suchen und Ersetzen: Punktzeichen in Sätzen
Verfasst: Do, 28.08.2008 10:23
Guten Tag allerseits,
Ich bearbeite momentan verschiedene eingescannte und mit OCR umgewandelte Dokumente. Im OCR schleichen sich nun Fehler ein (verursacht i.d.R. durch nicht 100%-ige saubere Scans).
So wiederholt sich folgender Fehler, den ich nicht immer von Hand korrigieren möchte:
1. "Diesen Fall finde .ich sehr interessant",
2. oder "Das Gehirn. lässt sich folgendermassen unterteilen:"
D.h. es werden Punkte in die Sätze eingebaut, die eigentlich nicht vorhanden sein sollten.
Meine Absicht ist es nun, all diese Punkte mit der Suchen-und-Ersetzen-Funktion in einem Rutsch (d.h. ich möchte nicht jeden Punkt einzeln suchen und ersetzen lassen) zu löschen. Hierbei muss wohl für das erste und das zweite Beispiel eine unterschiedliche Suchstrategie eingegeben werden. Ausserdem wird das Ersetzen beim zweiten Beispiel schwierig werden, wenn der Anfangsbuchstabe des nach dem Punkt und Leerzeichen folgende Wort ein Grossbuchstabe ist ("Der Vogel am. Himmel fliegt schnell."), ist die Suchstrategie des zweiten Beispiels sehr wahrscheinlich auf Wörter mit Kleinbuchstaben zu beschränken, weil ansonsten auch die korrekt gesetzten Endpunkte gelöscht werden ("Der Vogel am. Himmel fliegt schnell. Die Spitzengeschwindigkeit beträgt ungefähr 80km/h.").
Hat jemand einen Tipp?
Danke im Voraus - wb
Ich bearbeite momentan verschiedene eingescannte und mit OCR umgewandelte Dokumente. Im OCR schleichen sich nun Fehler ein (verursacht i.d.R. durch nicht 100%-ige saubere Scans).
So wiederholt sich folgender Fehler, den ich nicht immer von Hand korrigieren möchte:
1. "Diesen Fall finde .ich sehr interessant",
2. oder "Das Gehirn. lässt sich folgendermassen unterteilen:"
D.h. es werden Punkte in die Sätze eingebaut, die eigentlich nicht vorhanden sein sollten.
Meine Absicht ist es nun, all diese Punkte mit der Suchen-und-Ersetzen-Funktion in einem Rutsch (d.h. ich möchte nicht jeden Punkt einzeln suchen und ersetzen lassen) zu löschen. Hierbei muss wohl für das erste und das zweite Beispiel eine unterschiedliche Suchstrategie eingegeben werden. Ausserdem wird das Ersetzen beim zweiten Beispiel schwierig werden, wenn der Anfangsbuchstabe des nach dem Punkt und Leerzeichen folgende Wort ein Grossbuchstabe ist ("Der Vogel am. Himmel fliegt schnell."), ist die Suchstrategie des zweiten Beispiels sehr wahrscheinlich auf Wörter mit Kleinbuchstaben zu beschränken, weil ansonsten auch die korrekt gesetzten Endpunkte gelöscht werden ("Der Vogel am. Himmel fliegt schnell. Die Spitzengeschwindigkeit beträgt ungefähr 80km/h.").
Hat jemand einen Tipp?
Danke im Voraus - wb