Tip: doppelt geschriebene Woerter in Textdokumenten finden

Java und die Scriptsprachen (z.B. Groovy usw...)

Moderator: wegus

Benutzeravatar
panther
Beiträge: 464
Registriert: 30.06.2006, 20:32
Kontaktdaten:

Tip: doppelt geschriebene Woerter in Textdokumenten finden

Beitragvon panther » 12.05.2007, 07:30

Es passiert komischerweise oft, dass man (ich) Woerter, meistens Praepositionen, wie "auf", "und" in Dokumenten nacheinander doppelt schreibt. Wenn man keine Grammatikueberpruefung oder Aehnliches im Editor zur Verfuegung hat und das Format des Dokumentes plain text ist wie bei tex, lyx, dann kann man sich mit einem Skript wie z.B dem Folgenden (in groovy) abhelfen: um die doppelt-geschriebenen Woerter zu finden:

Code: Alles auswählen

dirName = '/wo/die/dateien/liegen'
dir = new File(dirName)
dir.eachFileMatch(~/.+\.lyx/){ lyxFile ->
      lyxFile.eachLine{ line ->
         if (line =~ /\b(.+)\s\1\b/) {
           println "$lyxFile.name: $line"
         }
   }
}

Hier ist die Dateiendung .lyx. Alle lyx-Dateien in dem angegebenen Verzeichnis werden durchsucht und die betroffenen Zeilen ausgegeben

Benutzeravatar
seapegasus
Beiträge: 594
Registriert: 29.06.2006, 18:32
Wohnort: Prag
Kontaktdaten:

Beitragvon seapegasus » 31.05.2007, 17:07

Und... was passiert mit Saetzen wie ...

"Ich sehe den den Berg erklimmenden Mann"?
"... die die Strasse ueberquerende Frau"?
"... das das Kind huetende Maedchen"?
"... den den Hund streichelnden Nachbarn"?

"... die auf auf der Dachkante stehende Leute zeigenden Passanten" ?!

"I open the new new wizard wizard" ??!

:P

Benutzeravatar
panther
Beiträge: 464
Registriert: 30.06.2006, 20:32
Kontaktdaten:

Beitragvon panther » 31.05.2007, 18:02

Ja, die werden auch angezeigt. Bei meinem Programm sammle ich die diedies und gebe sie separat aus. Die anderen kommen bei mir nicht vor.


Zurück zu „Java - Scriptsprachen“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast