Seite 1 von 1

Duplikate

Verfasst: Sa, 13.04.2013 14:20
von Difi
Hallo,

ich bin am Verzweifeln. Ich habe ca. 5000 Url's in einer Zelle. Hauptseiten und Unterseiten:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank

Jetzt möchte ich aber das alle Unterseiten:
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
entfernt werden. Sodass nur noch die Hauptseiten:
http://www.xyz.de
http://www.maxmustermann.de
bestehen bleiben.
Bei tausenden Einträgen ist das nicht mehr manuell zu machen. Wer kann mir helfen?

Vielen, vielen Dank
Difi

Re: Duplikate

Verfasst: Sa, 13.04.2013 14:40
von lorbass
Difi hat geschrieben:5000 Url's in einer Zelle
Boah ey — wirklich alle in einer einzigen Zelle?
Oder doch eher in einer Zeile? Oder in einer Spalte? Jedenfalls immer nur ein URL in einer Zelle?

Für den Fall »ein URL pro Zelle«:
Im Suchen & Ersetzen-Dialog
  • Suchen nach: (http://[^/]*)/.*
  • Ersetzen durch: $1
    [Mehr Optionen]
  • [] Nur in Selektion (Optional)
  • [] Regulärer Ausdruck
  • [Ersetze alle] oder [Suchen] → [Ersetzen]
Gruß
lorbass


PS: Was soll uns dein Betreff Duplikate in diesem Zusammenhang sagen? Wenn du alle Duplikate in deiner 5000er Liste identifizieren willst: Das ist fast schon eine Standardfrage in diesem Forum. Such bitte nach »Duplikate entfernen« oder »Duplikate löschen«.

Re: Duplikate

Verfasst: Sa, 13.04.2013 14:42
von Karolus
Hallo
→Daten→Filter→Standardfilter:
Feldname.. enthält nicht^http://[^/]*$
mit den Optionen:
  • [x] regulärer Ausdruck
    [x] Ausgabe nach woanders
@Lorbass:
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.

Edit: Sorry, die eine Zeile... entfernt werden. Sodass nur noch die Hauptseiten: ...mitten drin hab ich nicht wahrgenommen, daher muss der obige Filterausdruck abgeändert werden auf
Feldname.. enthält ^http://[^/]*$
und zusätzlich brauchst du die Option:
  • [x] ohne Duplikate
Karolus

Re: Duplikate

Verfasst: Sa, 13.04.2013 14:53
von Difi
Sorry. Ja natürlich befindet sich jede URL in einer Zelle. Ich meine alle Daten befinden sich in einer Spalte...

Danke euch

Re: Duplikate

Verfasst: Sa, 13.04.2013 15:02
von lorbass
Karolus hat geschrieben:@Lorbass:
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.
Ich vermute, dass Difi nur ungeschickt formuliert hat:
Difi hat geschrieben:Jetzt möchte ich aber das alle Unterseiten:
http​://www.xyz.de/weihnachten/

entfernt werden.

Sodass nur noch die Hauptseiten:
http​://www.xyz.de

bestehen bleiben.
Na ja, dies hat sich dann durch deine Korrektur schon erübrigt.

Gruß
lorbass

Re: Duplikate

Verfasst: Sa, 13.04.2013 15:04
von Difi
So wie es lorbass beschrieben hat funktioniert es, das alle Daten nach dem / verschwinden. Vorher sah es so aus:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank

Jetzt sieht es aber so aus:
http://www.xyz.de
http://www.xyz.de
http://www.xyz.de
http://www.maxmustermann.de
http://www.maxmustermann.de
http://www.maxmustermann.de

Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?

Re: Duplikate

Verfasst: Sa, 13.04.2013 15:07
von Karolus
Hallo
Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Siehe meinen letzten geänderten Beitrag

Karolus

Re: Duplikate

Verfasst: Sa, 13.04.2013 15:08
von lorbass
Difi hat geschrieben:Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Nimm Karolus' korrigierte(!) Lösung und aktiviere zusätzlich die Option [✓] Keine Duplikate.

Gruß
lorbass


Hat Karo jetzt auch schon drin :lol:

Re: Duplikate

Verfasst: Sa, 13.04.2013 19:38
von Difi
Danke euch! So funktioniert es! ;-)

Man muss die zusammengehörigen Domains alle Markieren und dann die Formel anwenden:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann


Das Ergebnis:
http://www.xyz.de

Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere:

http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank


Und am ende nur noch die Hauptdomains übrig bleiben:

http://www.xyz.de
http://www.maxmustermann.de
?

Re: Duplikate

Verfasst: Sa, 13.04.2013 20:13
von lorbass
Difi hat geschrieben:Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere
Genau das erreichst du doch, wenn du nach Karolus' Filter-Anleitung viewtopic.php?p=230922#p230922 vorgehst. Wo klemmt's denn jetzt noch?

Gruß
lorbass

Re: Duplikate

Verfasst: Sa, 13.04.2013 20:19
von Difi
Hallo lorbass,

ich glaube es liegt daran das ich im Filter doch einen Feldnamen angeben muss. Und genau darauf bezieht sich der Filter und wird angewendet. Aber eben nicht auf alle.?
Dort kann ich doch nur eine Domain (zb. http://www.xyz.de) angeben?

Difi

Re: Duplikate

Verfasst: Sa, 13.04.2013 21:04
von lorbass
Das Vorgehen im Detail für deine sechs URLs:
  1. Selektiere alle sechs URLs, nicht mehr und nicht weniger
  2. Daten → Filter → Standardfilter
    • Feldname: »– keiner –«
    • Bedingung: »Enthält«
    • Wert: »^http://[^/]*$«
    • Mehr Optionen
    • [✓] Regulärer Ausdruck
    • [✓] Keine Duplikate
    • [✓] Filterergebnis ausgeben nach
    • Namen der ersten Zelle des Ausgabebereiches eingeben, z.B. C2
    • OK
Feldname darf nur dann einen von »– keiner –« abweichenden Wert haben, wenn die erste selektierte Zelle der Spaltentitel ist, bei dir z.B. »URL«. Der wird dann unverändert beibehalten!

Gruß
lorbass

Re: Duplikate

Verfasst: Sa, 13.04.2013 21:57
von Difi
Genau nach dieser Beschreibung kopiert er mir die gleichen Daten die Selektiert wurden in den Ausgabebereich. Duplikate werden nicht entfernt.
Ich habe dir die Datei mal angehangen.

Ich danke dir vielmals!
Difi

Re: Duplikate

Verfasst: Sa, 13.04.2013 22:41
von lorbass
Das ist eine Excel-Datei. Damit kann ich das von dir beschriebene Verhalten reproduzieren.
Meine Aussagen gelten für Calc-Dateien. Versuch's bitte damit.

Wenn es – aus welchen Gründen auch immer – unbedingt xls sein muss, kannst du die Suchen&Ersetzen-Lösung aus meiner ersten Antwort nehmen und die entstehende Liste in einem separaten zweiten Arbeitsschritt mit der Option [✓] Keine Duplikate filtern.

Ärgerlich bei der ganzen Geschichte ist nur, dass du mit der Info über das Fremdformat so spät und vermutlich auch noch aus Versehen rüberkommst.

Gruß
lorbass

Re: Duplikate

Verfasst: So, 14.04.2013 07:33
von Difi
Danke. Wünsche dir noch einen schönen Sonntag.

Difi