Die robots.txt

So, bevor ich mir nun überlege, was ich zur robots.txt schreibe, hier was mein GPT-3 AI Schreiber dazu verfasst hat:

Robots.txt ist eine Textdatei, die sich auf dem Webserver befindet und Anweisungen für Webcrawler (Roboter) enthält. Mit der Datei können Websitebesitzer steuern, wie ihre Inhalte indiziert und auf den Ergebnisseiten von Suchmaschinen angezeigt werden. Es kann auch verwendet werden, um zu verhindern, dass Bots auf bestimmte Dateien oder Ordner auf dem Server zugreifen.

So sieht die robots.txt aus:

Die robots.txt ist für eine Standartseite eigentlich nicht wirklich wichtig. Ihr könnt entsprechend den user agent den Zugriff auf Eure Seite oder spezielle Verzeichnisse mit „Disallow: /url“ verlieten, bzw mit „Allow: /url“ erlauben.

Das ist sinnvoll um das sog. crawl budget zu schonen. Jeder Suchmaschinencrawler hat ein gewisses „crawl budget“ pro Seite, also eine Grundeinstellung, ab wann die Seite wieder verlassen wird. Daher macht es Sinn Seiten wie. z.B. admin-Seiten, Datenschutz, Impressum etc. mit einem „disallow:“ zu belegen, auf dass die Wahrscheinlichkeit erhöht wird, dass alle anderen Seiten gecrawlt werden.

Die gängigen User agents sind:

Google	Googlebot
Bing	Bingbot
Yahoo	Slurp
MSN	Msnbot

Die robots.txt kann einfach mit dem Editor auf dem eigenen Rechner erstellt werden und dann mittels ftp oder web-ftp hochgeladen werden. Die robots.txt liegt soll dann hier liegen: eureseite.de/robots.txt

Aber wie bereits beschrieben, am einfachsten geht das wieder mit dem Plugin yoast. Yoast hat auf seiner Homepage, hier, einen sehr ausführlichen Artikel über die robots.txt geschrieben (in englisch). Da steht ganz viel drin, was Ihr nicht wissen müsst. Aber manch einen interessiert es dann doch, daher der Link.

Zusammenfassung

Name des Artikel

Die robots.txtt

Beschreibung

Wann es sinnvoll ist die robots.txt zu modifizieren und wie

Autor

Chris

veröffentlich von

SEO Garage

Logo

die robots.txt - nicht verpflichtend, aber manchmal sinnvoll