Duplikate

Das Tabellenkalkulationsprogramm

Moderator: Moderatoren

Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Duplikate

Beitrag von Difi »

Hallo,

ich bin am Verzweifeln. Ich habe ca. 5000 Url's in einer Zelle. Hauptseiten und Unterseiten:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank

Jetzt möchte ich aber das alle Unterseiten:
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank
entfernt werden. Sodass nur noch die Hauptseiten:
http://www.xyz.de
http://www.maxmustermann.de
bestehen bleiben.
Bei tausenden Einträgen ist das nicht mehr manuell zu machen. Wer kann mir helfen?

Vielen, vielen Dank
Difi
Benutzeravatar
lorbass
********
Beiträge: 4116
Registriert: Mo, 01.05.2006 21:29
Wohnort: Bonn

Re: Duplikate

Beitrag von lorbass »

Difi hat geschrieben:5000 Url's in einer Zelle
Boah ey — wirklich alle in einer einzigen Zelle?
Oder doch eher in einer Zeile? Oder in einer Spalte? Jedenfalls immer nur ein URL in einer Zelle?

Für den Fall »ein URL pro Zelle«:
Im Suchen & Ersetzen-Dialog
  • Suchen nach: (http://[^/]*)/.*
  • Ersetzen durch: $1
    [Mehr Optionen]
  • [] Nur in Selektion (Optional)
  • [] Regulärer Ausdruck
  • [Ersetze alle] oder [Suchen] → [Ersetzen]
Gruß
lorbass


PS: Was soll uns dein Betreff Duplikate in diesem Zusammenhang sagen? Wenn du alle Duplikate in deiner 5000er Liste identifizieren willst: Das ist fast schon eine Standardfrage in diesem Forum. Such bitte nach »Duplikate entfernen« oder »Duplikate löschen«.
Karolus
********
Beiträge: 7532
Registriert: Mo, 02.01.2006 19:48

Re: Duplikate

Beitrag von Karolus »

Hallo
→Daten→Filter→Standardfilter:
Feldname.. enthält nicht^http://[^/]*$
mit den Optionen:
  • [x] regulärer Ausdruck
    [x] Ausgabe nach woanders
@Lorbass:
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.

Edit: Sorry, die eine Zeile... entfernt werden. Sodass nur noch die Hauptseiten: ...mitten drin hab ich nicht wahrgenommen, daher muss der obige Filterausdruck abgeändert werden auf
Feldname.. enthält ^http://[^/]*$
und zusätzlich brauchst du die Option:
  • [x] ohne Duplikate
Karolus
Zuletzt geändert von Karolus am Sa, 13.04.2013 15:05, insgesamt 2-mal geändert.
LO7.4.7.2 debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Re: Duplikate

Beitrag von Difi »

Sorry. Ja natürlich befindet sich jede URL in einer Zelle. Ich meine alle Daten befinden sich in einer Spalte...

Danke euch
Benutzeravatar
lorbass
********
Beiträge: 4116
Registriert: Mo, 01.05.2006 21:29
Wohnort: Bonn

Re: Duplikate

Beitrag von lorbass »

Karolus hat geschrieben:@Lorbass:
Difi möchte anscheinend das nur die Unterseiten überbleiben, dein Suchausdruck macht genau diese kaputt.
Ich vermute, dass Difi nur ungeschickt formuliert hat:
Difi hat geschrieben:Jetzt möchte ich aber das alle Unterseiten:
http​://www.xyz.de/weihnachten/

entfernt werden.

Sodass nur noch die Hauptseiten:
http​://www.xyz.de

bestehen bleiben.
Na ja, dies hat sich dann durch deine Korrektur schon erübrigt.

Gruß
lorbass
Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Re: Duplikate

Beitrag von Difi »

So wie es lorbass beschrieben hat funktioniert es, das alle Daten nach dem / verschwinden. Vorher sah es so aus:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank

Jetzt sieht es aber so aus:
http://www.xyz.de
http://www.xyz.de
http://www.xyz.de
http://www.maxmustermann.de
http://www.maxmustermann.de
http://www.maxmustermann.de

Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Karolus
********
Beiträge: 7532
Registriert: Mo, 02.01.2006 19:48

Re: Duplikate

Beitrag von Karolus »

Hallo
Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Siehe meinen letzten geänderten Beitrag

Karolus
LO7.4.7.2 debian 12(bookworm) auf Raspberry5 8GB (ARM64)
LO25.2.3.2 flatpak debian 12(bookworm) auf Raspberry5 8GB (ARM64)
Benutzeravatar
lorbass
********
Beiträge: 4116
Registriert: Mo, 01.05.2006 21:29
Wohnort: Bonn

Re: Duplikate

Beitrag von lorbass »

Difi hat geschrieben:Wie kann man nun noch Filtern das von jeder URL nur noch eine da bleiben soll?
Nimm Karolus' korrigierte(!) Lösung und aktiviere zusätzlich die Option [✓] Keine Duplikate.

Gruß
lorbass


Hat Karo jetzt auch schon drin :lol:
Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Re: Duplikate

Beitrag von Difi »

Danke euch! So funktioniert es! ;-)

Man muss die zusammengehörigen Domains alle Markieren und dann die Formel anwenden:
http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann


Das Ergebnis:
http://www.xyz.de

Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere:

http://www.xyz.de
http://www.xyz.de/weihnachten/
http://www.xyz.de/weihnachten/weihnachtssmann
http://www.maxmustermann.de
http://www.maxmustermann.de/schmidt/
http://www.maxmustermann.de/schmidt/frank


Und am ende nur noch die Hauptdomains übrig bleiben:

http://www.xyz.de
http://www.maxmustermann.de
?
Benutzeravatar
lorbass
********
Beiträge: 4116
Registriert: Mo, 01.05.2006 21:29
Wohnort: Bonn

Re: Duplikate

Beitrag von lorbass »

Difi hat geschrieben:Gibt es jedoch auch eine Möglichkeit, um die Unterseiten zu entfernen, wenn ich alle Domains im Dokument markiere
Genau das erreichst du doch, wenn du nach Karolus' Filter-Anleitung viewtopic.php?p=230922#p230922 vorgehst. Wo klemmt's denn jetzt noch?

Gruß
lorbass
Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Re: Duplikate

Beitrag von Difi »

Hallo lorbass,

ich glaube es liegt daran das ich im Filter doch einen Feldnamen angeben muss. Und genau darauf bezieht sich der Filter und wird angewendet. Aber eben nicht auf alle.?
Dort kann ich doch nur eine Domain (zb. http://www.xyz.de) angeben?

Difi
Benutzeravatar
lorbass
********
Beiträge: 4116
Registriert: Mo, 01.05.2006 21:29
Wohnort: Bonn

Re: Duplikate

Beitrag von lorbass »

Das Vorgehen im Detail für deine sechs URLs:
  1. Selektiere alle sechs URLs, nicht mehr und nicht weniger
  2. Daten → Filter → Standardfilter
    • Feldname: »– keiner –«
    • Bedingung: »Enthält«
    • Wert: »^http://[^/]*$«
    • Mehr Optionen
    • [✓] Regulärer Ausdruck
    • [✓] Keine Duplikate
    • [✓] Filterergebnis ausgeben nach
    • Namen der ersten Zelle des Ausgabebereiches eingeben, z.B. C2
    • OK
Feldname darf nur dann einen von »– keiner –« abweichenden Wert haben, wenn die erste selektierte Zelle der Spaltentitel ist, bei dir z.B. »URL«. Der wird dann unverändert beibehalten!

Gruß
lorbass
Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Re: Duplikate

Beitrag von Difi »

Genau nach dieser Beschreibung kopiert er mir die gleichen Daten die Selektiert wurden in den Ausgabebereich. Duplikate werden nicht entfernt.
Ich habe dir die Datei mal angehangen.

Ich danke dir vielmals!
Difi
Dateianhänge
Duplikate.xls
(7 KiB) 19-mal heruntergeladen
Benutzeravatar
lorbass
********
Beiträge: 4116
Registriert: Mo, 01.05.2006 21:29
Wohnort: Bonn

Re: Duplikate

Beitrag von lorbass »

Das ist eine Excel-Datei. Damit kann ich das von dir beschriebene Verhalten reproduzieren.
Meine Aussagen gelten für Calc-Dateien. Versuch's bitte damit.

Wenn es – aus welchen Gründen auch immer – unbedingt xls sein muss, kannst du die Suchen&Ersetzen-Lösung aus meiner ersten Antwort nehmen und die entstehende Liste in einem separaten zweiten Arbeitsschritt mit der Option [✓] Keine Duplikate filtern.

Ärgerlich bei der ganzen Geschichte ist nur, dass du mit der Info über das Fremdformat so spät und vermutlich auch noch aus Versehen rüberkommst.

Gruß
lorbass
Difi
*
Beiträge: 16
Registriert: So, 22.05.2011 12:22

Re: Duplikate

Beitrag von Difi »

Danke. Wünsche dir noch einen schönen Sonntag.

Difi
Antworten