Wie kann ich URLs einschließen und ausschließen?

Mit der folgenden Anleitung kannst Du URLs vom Crawl ausschließen und einschließen:

Öffne die "Projekt-Einstellungen" (rechts oben) und gehe zum Tab "Advanced Crawl"

 

Overview

1. Nur Unterverzeichnis crawlen

2. Blacklist/Whitelist

3.Teste Deine Einstellungen

 

1. Nur Unterverzeichnis crawlen

cs1.png

Mit dieser Einstellung crawlen wir ausschließlich das gewünschte Verzeichnis. (z.B. /wiki/)

 

2. Blacklist/Whitelist

cs2.png

URLs können von der Analyse ausgeschlossen werden, indem sie auf die Blacklist gesetzt werden. Dabei kann man in der Blacklist auch Regeln definieren, damit bestimmte URLs generell ausgeschlossen werden.

Während man in der Blacklist Regeln angibt die bestimmen, welche URLs nicht analysiert werden dürfen, kann man die Whitelist nutzen um zu sagen, dass nur bestimmte URLs analysiert werden sollen. Das wäre z. B. nützlich, wenn nur bestimmte Subdomains analysiert werden sollen oder nur bestimmte Verzeichnisse.

Die Angaben in der Blacklist und Whitelist sollten mit Regex definiert werden.

Ausführliche Informationen zur Black- und Whitelist mit Anwendungsbeispielen findest Du in unserem Artikel URLs ausschließen / einschließen (Blacklist & Whitelist).

 

3.Teste Deine Einstellungen

Bitte teste Deine Einstellungen bevor Du einen Crawl startest.

cs4.png

Hier testen wir nun eine Whitelist-Regel. Es sollten nur URLs aus dem Wiki und dem Magazin gecrawlt werden.

Wir können nun testen ob unsere Einstellungen erfolgreich waren in dem wir eine gültige URL innerhalb der Domain aber außerhalb unserer Regeln eingeben. Erhalten wir einen Status mit 9xx konnten wir unsere Regeln erfolgreich anwenden. Bekommen wir jedoch den Status 200 müssen wir die Regeln überarbeiten.

Anschließend testen wir noch entgegengesetzt:

cs5.png

D.h. wir testen eine URL innerhalb unserer Regeln. Bekommen wir nun einen Status 200 sind auch diese Regeln in Ordnung. Bekommen wir jedoch ebenfalls einen 9xx Status müssen wir die Regeln überarbeiten.

 

Relevante Status Codes:

200 - OK

950 - blockiert durch Whitelist

951 - blockiert durch Blacklist

 

Wichtig: Wenn der Test nicht erfolgreich war und Du mit derselben URL erneut testest wurde das Ergebnis möglicherweise im Cache gespeichert. Bitte teste daher jedes mal mit einer neuen URL!

 

Du kannst mehrere Regeln zeitgleich anwenden! Beachte aber bitte, dass sich die Regeln nicht gegenseitig ausschließen.

 

Haben Sie Fragen? Anfrage einreichen

0 Kommentare

Bitte melden Sie sich an, um einen Kommentar zu hinterlassen.
Powered by Zendesk