Webdesign: über den robots.txt

Die Datei robots.txt gilt der Steuerung von Bots zwecks Vermeidung der Indexierung. Der Standard ist recht alt, und die Meinungen zum robots.txt gehen auseinander. Hier möchte ich vorschlagen, wie Sie den besten Nutzen daraus ziehen können.

Allgemeine Regeln

Der Standard zum robots.txt wird auf http://www.robotstxt.org/norobots-rfc.txt beschrieben.

Bots suchen des öfteren im Wurzelverzeichnis nach einer Datei robots.txt. Der korrekte Speicherort wäre also:
http://example.org/robots.txt

Die einzige zuverlässige Regel im Sinne allgemeiner Akzeptanz ist die Disallow Regel. Zwar gibt es noch andere Regeln, jedoch werden die nur von einem Teil der Parser wahrgenommen.

User-agent:*
Disallow: /folder/
Disallow: /file.ext
Disallow: /folder/file.ext

Die erste Zeile betrifft alle Bots. In den weiteren Zeilen werden ein ganzer Ordner, eine einzelne Datei oder eine Datei in einem Ordner auf die Disallow-Liste gestellt.

Mehr brauchen Sie nicht zu wissen, denn schon diese Zeilen werden nur ausnahmswise beachtet, und damit beginnt die Kontroverse.

Was bedeutet Disallow?

Es ist im Ermessen des Bots, ein disallow zu interpretieren. Auf keinen Fall bedeutet es ein Zugriffsverbot. Ein Bot dessen Job das Parsen von Dokumenten zwecks öffentlicher Indexierung ist, wird im disallow ein Verbot der Aufnahme in den öffentlichen Index verstehen
➜ sofern diesem nicht anderswo widersprochen wird und
➜ sofern eine andere externe Domain diese Ressource nicht öffentlich verlinkt.

While Google won't crawl or index the content blocked by robots.txt, we might still find and index a disallowed URL if it is linked from other places on the web. Google

Damit haben wir zwei wichtige Kriterien, damit unsere Regeln überhaupt etwas Wirkung haben.

Ein effektiver und minimalistischer Ansatz

➜ Verzichten Sie darauf, konkrete Ressourcen in den robots.txt aufzunehmen.
➜ Nehmen Sie lediglich Ordner auf.
➜ Legen Sie öffentlich verlinkbare Ressoucen nicht in verbotenen Ordnern an.

User-agent:*
Disallow: /js/
Disallow: /css/
Disallow: /images/

Sie werden damit am robots.txt kaum je etwas ändern müssen.
Erwarten Sie keine Wunder.

ENDE

Danke für Ihre Aufmerksamkeit.

keep it simple stupid