Die robots.txt
festlegen was crawler dürfen
die robots.txt - nicht verpflichtend, aber manchmal sinnvoll
So, bevor ich mir nun überlege, was ich zur robots.txt schreibe, hier was mein GPT-3 AI Schreiber dazu verfasst hat:
Robots.txt ist eine Textdatei, die sich auf dem Webserver befindet und Anweisungen für Webcrawler (Roboter) enthält. Mit der Datei können Websitebesitzer steuern, wie ihre Inhalte indiziert und auf den Ergebnisseiten von Suchmaschinen angezeigt werden. Es kann auch verwendet werden, um zu verhindern, dass Bots auf bestimmte Dateien oder Ordner auf dem Server zugreifen.
So sieht die robots.txt aus:
Die robots.txt ist für eine Standartseite eigentlich nicht wirklich wichtig. Ihr könnt entsprechend den user agent den Zugriff auf Eure Seite oder spezielle Verzeichnisse mit „Disallow: /url“ verlieten, bzw mit „Allow: /url“ erlauben.
Das ist sinnvoll um das sog. crawl budget zu schonen. Jeder Suchmaschinencrawler hat ein gewisses „crawl budget“ pro Seite, also eine Grundeinstellung, ab wann die Seite wieder verlassen wird. Daher macht es Sinn Seiten wie. z.B. admin-Seiten, Datenschutz, Impressum etc. mit einem „disallow:“ zu belegen, auf dass die Wahrscheinlichkeit erhöht wird, dass alle anderen Seiten gecrawlt werden.
Die gängigen User agents sind:
Googlebot | |
Bing | Bingbot |
Yahoo | Slurp |
MSN | Msnbot |
Die robots.txt kann einfach mit dem Editor auf dem eigenen Rechner erstellt werden und dann mittels ftp oder web-ftp hochgeladen werden. Die robots.txt liegt soll dann hier liegen: eureseite.de/robots.txt
Aber wie bereits beschrieben, am einfachsten geht das wieder mit dem Plugin yoast. Yoast hat auf seiner Homepage, hier, einen sehr ausführlichen Artikel über die robots.txt geschrieben (in englisch). Da steht ganz viel drin, was Ihr nicht wissen müsst. Aber manch einen interessiert es dann doch, daher der Link.