BotSeer, eine Suchmaschine für robots.txt

Veröffentlicht am Samstag, 20. Oktober 2007, von Space Gypsy

Die meistens Menschen, die im Internet suchen, werden vermutlich noch nie etwas von der Datei robots.txt gehört haben. Trotzdem gibt es eine Suchmaschine mit dem Namen BotSeer, die nur diese eine Datei einer Website indexiert – und sonst nichts.

Websites, deren Sinn sich einem nur äußerst schwer – oder überhaupt nicht – erschließt, sind nichts neues. Eine Suchmaschine für den Inhalt von robots.txt-Dateien ist allerdings ein glühend heißer Kandidat für einen Pokal, der nur an besonders nutzlose Webdienste vergeben wird. Wer sollte einen solchen Suchdienst denn benutzen?

Der Screenshot von der Website von BotSeer.

Das restliche Angebot der Website besteht aus einer sehr kleinen Link-Sammlung von Open-Source-Crawler-Projekten, einem Honeypot zum Testen von Robots und einer Anfälligkeit für Cross-Site-Scripting.

Aussperren – aber wie?

Der Crawler von BotSeer benutzt diesen User-Agent (und vielleicht auch weitere?):

Mozilla 4.0(compatible; BotSeer/1.0; +http://botseer.ist.psu.edu)

Ein Eintrag in die robots.txt ist wohl ziemlich sinnlos, weil er es genau darauf abgesehen hat.

Man kann mit folgendem Eintrag in der .htaccess Botseer über den User-Agent-String blocken:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} BotSeer
RewriteRule ^.*$ - [F]