Wie kann ich URLs einschließen und ausschließen?

Mit der folgenden Anleitung kannst Du URLs vom Crawl ausschließen und einschließen:  

Öffne die "Projekt-Einstellungen" (rechts oben) und gehe zum Tab "Advanced Crawl"

 

1. Nur Unterverzeichnis crawlen

cs1.png

Mit dieser Einstellung crawlen wir ausschließlich das gewünschte Verzeichnis. (z.B. /wiki/)

 

2. Blacklist/Whitelist

cs2.png

 

Du kannst URLs ausschließen in dem Du Blacklist-Regeln anlegst, in diesem Beispiel möchten wir unser Wiki und das Magazin vom nächsten Crawl ausschließen. Dies können wir über das Ausschließen des Unterverzeichnis realisieren, die Regel dafür sieht dann wie folgt aus: (es können mehrere Regeln angewandt werden)

regex:/wiki/

regex:/magazine/

Mit dieser Regel werden alle URLs die "/wiki/" oder "/magazine/" enthalten ausgeschlossen, die Hierarchie wird dabei nicht beachtet. URLs domain.com/wiki/ werden genau so ausgeschlossen wie domain.com/subfolder/wiki/ 

Falls benötigt sollte man also die Regel in der Tiefe an passen, zum Beispiel:

regex:https://en.ryte.com/wiki/this-artikle

 

Kommen wir nun zur Whitelist, die Whitelist hat die selben Funktionalitäten wie die Blacklist nur wirkt sie entgegengesetzt. D.h. die Regeln wirken  "crawl ausschließlich ..."

cs3.png

In diesem Beispiel möchten wir nun dass ausschließlich unser Magazin sowie unser Wiki gecrawlt wird. Wir realisieren dies erneut über die Unterverzeichnisse, die Regeln sehen nun wie folgt aus:

regex:/wiki/

regex:/magazine/

 

Beachte: diese Regeln treffen auf  alle URLs die "/wiki/" oder "/magazine/" enthalten zu, egal ob domain.com/wiki/ oder domain.com/subfolder/wiki/ !

 

3.Teste Deine Einstellungen

 Bitte teste Deine Einstellungen bevor Du einen Crawl startest.

cs4.png

Hier testen wir nun unsere Whitelist-Regeln aus Punkt 2., es sollten also nur URLs aus dem Wiki und dem Magazin gecrawlt werden.

Wir können nun testen ob unsere Einstellungen erfolgreich waren in dem wir eine gültige URL innerhalb der Domain aber außerhalb unserer Regeln eingeben. Erhalten wir einen Status mit 9xx konnten wir unsere Regeln erfolgreich anwenden. Bekommen wir jedoch den Status 200 müssen wir die Regeln überarbeiten.

Anschließend Testen wir noch entgegengesetzt:

cs5.png

D.h. wir testen eine URL innerhalb unserer Regeln, bekommen wir nun einen Status 200 sind auch diese Regeln in Ordnung. Bekommen wir jedoch ebenfalls einen 9xx Status müssen wir die Regeln überarbeiten.

 

Test settings Status Codes:

200 - OK

950 - blocked by whitelist

951 - blocked by blacklist

 

Wichtig: Wenn der Test nicht erfolgreich war und Du mit der selben URL erneut testest wurde das Ergebnis möglicherweise im Cache gespeichert. Bitte Teste daher jedes mal mit einer neuen URL!

 

Du kannst alle Regeln zeitgleich anwenden, bitte beachte das sich die Regeln nicht gegenseitig ausschließen.

 

Haben Sie Fragen? Anfrage einreichen

0 Kommentare

Bitte melden Sie sich an, um einen Kommentar zu hinterlassen.
Powered by Zendesk