Defekte Robots

Veröffentlicht am Dienstag, 28. November 2007, von Alphane Moon

Nanochips Inclusive. Copyright © 2007 www.fluctibus.com

Manche „Entwickler“ kennen kein Erbarmen. Arme Bots werden mit all ihren Fehlfunktionen einfach so im Web ausgesetzt und müssen sehen, dass sie irgendwie allein klar kommen.

Danger, Will Robinson, Danger!

Alle Robots müssen vor Betreten einer Website nach der Datei robots.txt fragen. Wer das nicht tut, verstößt gegen die guten Sitten.

131.107.XXX.XXX -- [11.10.2007:15:48:53] "GET /robot.txt HTTP/1.1" 404 -- --

Nicht ganz richtig, die Datei heißt robots.txt.

82.135.XXX.XXX -- [23.11.2007:19:40:32] "GET /robert.txt HTTP/1.1" 404 -- --

Auch falsch, Robert gibt es hier nicht.

218.232.XXX.XXX -- [20.10.2007:17:18:13] "GET /transformers.txt HTTP/1.0" 404 -- -- larbin_2.6.3 (larbin2.6.3@unspecified.mail)

218.232.XXX.XXX -- [23.10.2007:00:39:30] "GET /transformers.txt HTTP/1.0" 404 -- -- larbin_2.6.3 (larbin2.6.3@unspecified.mail)

transformers.txt?! Nun gut, die Transformers sind auch Roboter. Trotzdem falsch oder hat das irgendeine tiefere Bedeutung?

Es reicht übrigens aus, wenn die Datei robots.txt einmal angefordert wird – sollte man meinen. Der Bot Jim sieht das anders und hat x-mal auf den Server eingedroschen.

216.182.236.176 -- [25.11.2007:13:50:52] "GET /robots.txt HTTP/1.1" 200 -- --
Mozilla/5.0 (compatible; Jim +http://www.hanzoarchives.com)

usw.

216.182.236.176 -- [25.11.2007:14:55:08] "GET /robots.txt HTTP/1.1" 200 -- --
Mozilla/5.0 (compatible; Jim +http://www.hanzoarchives.com)

Die Datei hat sich dabei auf wundersame Art und Weise verändert:

User-agent: Jim
Disallow: /

So it goes.

Den ultimativen Armleuchter hat allerdings Johann Burkard ausgegraben. Der Robot BioSearch benutzt POST statt GET um an die Datei robots.txt zu kommen. Kaum zu fassen.

Einen eigenen Robot programmieren

Tolle Idee! Ich habe ein paar wirklich gute Tipps dazu:

Ressourcen

Kommentare

#1 Johann hat geschrieben:

Am 1. Dezember 2007 um 20:54

Kümmert sich dieser hanzoarchives.com-Bot denn überhaupt um robots.txt?

#2 Alphane Moon hat geschrieben:

Am 2. Dezember 2007 um 11:35

Tja, keine Ahnung. Ich habe ihn seitdem nicht mehr gesehen. Jedenfalls hat er eine Stunde lang wieder und wieder nach der robots.txt gefragt. Andere Seiten haben ihn nicht interessiert. Zeitgleich wollte noch ein angeblicher Firefox die Datei jede Sekunde erneut sehen. Die robots.txt war an dem Tag mit Abstand die „populärste“ Datei der gesamten Site.