Hawvivaseo Level 12 – Disallow Disaster
In Hawvivaseo Level 12 wird’s technisch – und ganz schön knifflig. Hier geht es um die oft unterschätzte Datei robots.txt
, mit der Webseiten steuern, welche Inhalte von Suchmaschinen gecrawlt und indexiert werden dürfen.
Dieses Rätsel stellt dein technisches Verständnis auf die Probe – und gibt dir gleichzeitig wertvolle Einblicke in die Praxis. Nur wer die Logik der Crawler durchschaut, kann das korrekte Lösungswort entschlüsseln und das nächste Level freischalten.

robots.txt
Die robots.txt
liegt im Root-Verzeichnis deiner Website und kontrolliert das Crawling deiner Seite. Sie teilt den Suchmaschinen mit, welche Inhalte sie durchsuchen dürfen und vor allem, welche sie nicht durchsuchen sollen.
Ein paar zusätzliche Feinheiten:
- Pfade enden mit
/
→ alle Inhalte darunter sind ausgeschlossen. - Einträge wie
Disallow: /
blockieren alles – Klassiker beim versehentlichen Sperren der gesamten Website. - Die Datei erlaubt keine regulären Ausdrücke, aber manche Crawler interpretieren z.B.
*
oder$
. Allow:
kann Ausnahmen innerhalb gesperrter Pfade zulassen (z.B. ein bestimmtes Dokument in einem verbotenen Ordner).- Spezifität vor Reihenfolge: Je genauer der Pfad , desto eher wird er beachtet.
🧩 Aufgabe – Wer darf passieren?
Du bekommst folgenden robots.txt
-Auschnitt:
User-agent: *
Disallow: /intern/
Disallow: /checkout/
Allow: /checkout/thank-you.html
User-agent: Googlebot
Disallow: /checkout/
Allow: /checkout/public/
Welche der folgenden URLs darf von Googlebot gecrawlt werden?
A) https://www.hawvivaseo.de/intern/data.html
B) https://www.hawvivaseo.de/checkout/public/info.html
C) https://www.hawvivaseo.de/checkout/thank-you.html
D) https://www.hawvivaseo.de/checkout/payment.html
E) https://www.hawvivaseo.de/home.html