Die robots.txt

festlegen was crawler dürfen

die robots.txt - nicht verpflichtend, aber manchmal sinnvoll

So, bevor ich mir nun überlege, was ich zur robots.txt schreibe, hier was mein GPT-3 AI Schreiber dazu verfasst hat:

Robots.txt ist eine Textdatei, die sich auf dem Webserver befindet und Anweisungen für Webcrawler (Roboter) enthält. Mit der Datei können Websitebesitzer steuern, wie ihre Inhalte indiziert und auf den Ergebnisseiten von Suchmaschinen angezeigt werden. Es kann auch verwendet werden, um zu verhindern, dass Bots auf bestimmte Dateien oder Ordner auf dem Server zugreifen.

 

So sieht die robots.txt aus:

die robots.txt

Die robots.txt ist für eine Standartseite eigentlich nicht wirklich wichtig. Ihr könnt entsprechend den user agent den Zugriff auf Eure Seite oder spezielle Verzeichnisse mit „Disallow: /url“ verlieten, bzw mit „Allow: /url“ erlauben.

Das ist sinnvoll um das sog. crawl budget zu schonen. Jeder Suchmaschinencrawler hat ein gewisses „crawl budget“ pro Seite, also eine Grundeinstellung, ab wann die Seite wieder verlassen wird. Daher macht es Sinn Seiten wie. z.B. admin-Seiten, Datenschutz, Impressum etc. mit einem „disallow:“ zu belegen, auf dass die Wahrscheinlichkeit erhöht wird, dass alle anderen Seiten gecrawlt werden.

Die gängigen User agents sind:

GoogleGooglebot
BingBingbot
YahooSlurp
MSNMsnbot
robots.txt

Die robots.txt kann einfach mit dem Editor auf dem eigenen Rechner erstellt werden und dann mittels ftp oder web-ftp hochgeladen werden. Die robots.txt liegt soll dann hier liegen: eureseite.de/robots.txt

Aber wie bereits beschrieben, am einfachsten geht das wieder mit dem Plugin yoast. Yoast hat auf seiner Homepage, hier, einen sehr ausführlichen Artikel über die robots.txt geschrieben (in englisch). Da steht ganz viel drin, was Ihr nicht wissen müsst. Aber manch einen interessiert es dann doch, daher der Link.

 

Zusammenfassung
Die robots.txtt
Name des Artikel
Die robots.txtt
Beschreibung
Wann es sinnvoll ist die robots.txt zu modifizieren und wie
Autor
veröffentlich von
SEO Garage
Logo