Wozu genau dient eine Robots.txt auf meiner Website

Mit dem Meta-Eintrag „robots“ konnte man auf einer Webseite bereits sehr gut bestimmen, ob die Inhalte der Webseite von Suchmaschinen-Bots indexiert werden und ob die Bots den auf der Webseite vorhandenen Links folgen dürfen. Allerdings besitzt diese Information auch zwei entscheidende Nachteile. Zum Einen gilt sie für alle Bots, welche die Webseite besuchen und zum Zweiten kann die individuelle Erstellung viel Zeit kosten. Davon spürt man natürlich noch nichts, wenn das Webangebot aus drei oder nur zehn Unterseiten besteht. Wenn ein Webangebot allerdings hunderte von Unterseiten sein Eigen nennt, würde ein individueller Eintrag der robots-Information schnell den zeitlichen Rahmen sprengen.

Aussehen einer Robots.txt von einer Website

Deswegen ist man in den letzten Jahren immer mehr dazu übergegangen, die Informationen darüber, welche Seiten ein Suchmaschinen-Bot durchsuchen und indexieren darf, in eine separate Datei auszulagern, die Robots.txt. Das Protokoll für diese Datei wurde bereits 1994 entwickelt und wird derzeit von allen seriösen Anbietern anerkannt. Nach diesem Protokoll, verpflichten sich alle Betreiber von Bots dazu, sobald sie eine Webseite durchsuchen wollen, zuerst die Robots.txt zu scannen, um zu wissen, welche Informationen gescannt werden dürfen. Für die Betreiber von Webseiten ergaben sich dadurch weiter Möglichkeiten, welche die Meta-Information „robots“ ergänzten. Hierzu ein paar Beispiele.

Die Anzahl der unterschiedlichen Bots, die im Internet derzeit nach neuen Webseiten sucht, ist nicht zu ermitteln. Alleine die bekannten und populären Bots, die im Internet existieren, haben heute bereits die Dreihundertermarke überschritten. Theoretisch kann jeder mit dem nötigen Verständnis, Bots programmieren und diese zum Indexieren von Webseiten einsetzen. Mit Hilfe der Robots.txt könnte man für jeden dieser Bots individuell festlegen, ob und welche Bereiche der Webseite er durchsuchen darf.

Möchte man zum Beispiel bei Google in den Suchergebnissen auftauchen, so sollte man den Googlebot das Indexieren der Webseite erlauben. Will man seine Webseite aber nicht vom Web-Archiv archivieren lassen, so kann man diesem Bot das Durchsuchen der Webseite verbieten. Dies funktioniert im Übrigen auch mit einzelnen Seiten oder Menüs in der Webstruktur. So sperren zum Beispiel viele Foren, den Bereich mit den Mitgliederinformationen für Bots. Oder man verbietet bestimmten Bots das Durchsuchen von Kommentaren auf der eigenen Webseite.

In der Zwischenzeit entwickelten Google, Yahoo und Microsoft auch eigene Befehle, die nur für ihre Bots gelten. So kann man zum Beispiel bestimmte Bereiche einer Webseite generell für alle Bots sperren, aber wiederum für den Googlebot freischalten. Allerdings gilt auch bei der Robots.txt, die Datei ist nur für die Bots wirksam, die sich auch an das festgelegte Protokoll halten und die Datei durchsuchen. Bots mit bösartigen Absichten können die Informationen in der Datei einfach ignorieren.

Wie sehen Sie dies? Welche Erfahrungen haben Sie mit diesem Thema?