Defekte Robots

Veröffentlicht am Dienstag, 28. November 2007, von infinity auf Alphane Moon

Nanochips Inclusive. Copyright © 2007 www.fluctibus.com

Manche „Entwickler“ kennen kein Erbarmen. Arme Bots werden mit all ihren Fehlfunktionen einfach so im Web ausgesetzt und müssen sehen, dass sie irgendwie allein klar kommen. Spuren befremdender Ereignisse findet man in den Log-Files.

Danger, Will Robinson, Danger!

Alle Robots müssen vor Betreten einer Website nach der Datei robots.txt fragen. Wer das nicht tut, verstößt gegen die guten Sitten.

131.107.XXX.XXX -- [11.10.2007:15:48:53] "GET /robot.txt HTTP/1.1" 404 -- --

Nicht ganz richtig, die Datei heißt robots.txt.

82.135.XXX.XXX -- [23.11.2007:19:40:32] "GET /robert.txt HTTP/1.1" 404 -- --

Auch falsch, Robert gibt es hier nicht.

218.232.XXX.XXX -- [20.10.2007:17:18:13] "GET /transformers.txt HTTP/1.0" 404 -- -- larbin_2.6.3 (larbin2.6.3@unspecified.mail)

218.232.XXX.XXX -- [23.10.2007:00:39:30] "GET /transformers.txt HTTP/1.0" 404 -- -- larbin_2.6.3 (larbin2.6.3@unspecified.mail)

transformers.txt?! Nun gut, die Transformers sind auch Roboter. Trotzdem falsch oder hat das irgendeine tiefere Bedeutung?

Es reicht übrigens aus, wenn die Datei robots.txt einmal angefordert wird – sollte man meinen. Der Bot Jim sieht das anders und hat x-mal auf den Server eingedroschen.

216.182.236.176 -- [25.11.2007:13:50:52] "GET /robots.txt HTTP/1.1" 200 -- --
Mozilla/5.0 (compatible; Jim +http://www.hanzoarchives.com)

usw.

216.182.236.176 -- [25.11.2007:14:55:08] "GET /robots.txt HTTP/1.1" 200 -- --
Mozilla/5.0 (compatible; Jim +http://www.hanzoarchives.com)

Die Datei hat sich dabei auf wundersame Art und Weise verändert:

User-agent: Jim
Disallow: /

So it goes.

Den ultimativen Armleuchter hat allerdings Johann Burkard ausgegraben. Der Robot BioSearch benutzt POST statt GET um an die Datei robots.txt zu kommen:

66.167.105.59 - - [10/Mar/2008:04:47:50 +0100]
"POST / HTTP/1.1" 403 210 "-" "BioSearch"
66.167.105.59 - - [10/Mar/2008:04:47:51 +0100]
"POST /robots.txt HTTP/1.1" 403 220 "-" "BioSearch"

Kaum zu fassen. WTF?!

Einen eigenen Robot programmieren

Tolle Idee! Ich habe ein paar wirklich gute Tipps dazu:

Kommentare

Visit Johann Burkard.

#1 Johann hat geschrieben:

Am 1. Dezember 2007 um 20:54

Kümmert sich dieser hanzoarchives.com-Bot denn überhaupt um robots.txt?

Die grüne Fee.

#2 Alphane Moon hat geschrieben:

Am 2. Dezember 2007 um 11:35

Tja, keine Ahnung. Ich habe ihn seitdem nicht mehr gesehen. Jedenfalls hat er eine Stunde lang wieder und wieder nach der robots.txt gefragt. Andere Seiten haben ihn nicht interessiert. Zeitgleich wollte noch ein angeblicher Firefox die Datei jede Sekunde erneut sehen. Die robots.txt war an dem Tag mit Abstand die „populärste“ Datei der gesamten Site.

Default Avatar.

#3 Frank hat geschrieben:

Am 24. September 2008 um 18:44

Hanzo saugt gegen Geld alles ab. Und dazu gehört auch die robots.txt - gelesen wird diese sicher nicht.

Die grüne Fee.

#4 Alphane Moon hat geschrieben:

Am 24. September 2008 um 20:39

Hi Frank,
das kann schon sein, ich habe keine weiteren Informationen über den Hanzo-Bot, außer dass er sich doof angestellt hat und die im User-Agent angegebene Website http://www.hanzoarchives.com/ damals nicht funktionierte.
Solches Geschleich bekommt hier nicht einmal eine richtige Fehlerseite zu sehen :)

all content copyright © 2007-2012 Alphane Moon