Veröffentlicht am Mittwoch, 2. Juni 2010, von infinity auf Alphane Moon
Wenn man zum Crawler-Trash des Internet gehört und gerne irgendwohin möchte, wo einen keiner haben möchte, was macht man da? Man gibt sich als Googlebot aus, auf den sind alle ganz heiß (weißglühend!), den sperrt bestimmt niemand aus, der ist sooo süß! Heilig!
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
In letzter Zeit suchen Bots, die sich via User-Agent als Googlebot ausgeben, auf meiner Site nach Wordpress-Logins. Das ist dämlich. Wordpress gibt es hier nicht. Gab es noch nie.
Die Bots kommen von verschiedenen IP-Adressen, vielleicht von Zombie-Rechnern. Der Crawl sieht aber immer gleich aus. Es wird versucht den URL der Login-Seite zu erraten:
[01/Jun/2010:10:46:43 +0200] "GET /wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:43 +0200] "GET /old/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:44 +0200] "GET /cms/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:45 +0200] "GET /blog/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:45 +0200] "GET /blog_old/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:45 +0200] "GET /blog-old/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:46 +0200] "GET /blog/wp/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:47 +0200] "GET /wp/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:47 +0200] "GET /WP/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:48 +0200] "GET /backup/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:48 +0200] "GET /blog/backup/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:48 +0200] "GET /wordpress/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:49 +0200] "GET /Wordpress/wp-login.php HTTP/1.1"
[01/Jun/2010:10:46:49 +0200] "GET /wordpress2/wp-login.php HTTP/1.1"
Dieser Bot kam von einer IP von Wolfpaw Services:
IP: 208.77.197.242
OrgName: Wolfpaw Services Inc.
Der nächste kommt von ThePlanet und genehmigt sich zwei Crawls nach demselben Muster:
IP: 67.19.11.84
OrgName: ThePlanet.com Internet Services, Inc.
Und gleich danach kommt schon wieder einer, diesmal von Apollo:
IP: 66.242.17.45
OrgName: Apollo Hosting, Inc.
Anscheinend wird hier speziell nach den Login-Seiten älterer Wordpress-Versionen oder nach Backup-Verzeichnissen gesucht. Solche Sachen sollte man aber grundsätzlich nicht auf dem Server herumliegen lassen. Es ist vielleicht eine gute Idee die Login-Seiten umzubenennen und irgendwo in einem passwortgeschützten Bereich zu verstecken.
Ein anderer Pseudo-Googlebot hat einen Referrer-String unter dem Arm, was für das Original eher untypisch ist. Es ist der URL einer robots.txt. Beim Aufruf der solchermaßen beworbenen Ressource wird man per Redirect 301 zu einer weiteren robots.txt weitergeleitet, die auf der abgefuckten Subdomain eines Free-Space-Anbieters liegt. Jetzt kommt der springende Punkt: diese Datei ist leer (es steht nix drin). Das hat es gebracht.
[24/May/2010:23:52:00 +0200] "GET /robots.txt HTTP/1.1" 200 1132
"hxxp://www.some-shitty-website.example.com/robots.txt"
Eigentlich hätte ich da irgendwie sowas erwartet:
#####################################################
# #
# SEE YOUR AD HERE !!! #
# on the most popular robots.txt on the Web #
# $$$ 500 Dollars $$$ per month #
# contact the asshole that maintains tihs site #
# #
#####################################################
User-agent: Gogglybot
Disallow: /nothing
User-agent: MuellBot
Disallow: /
User-agent: SchrottBot
Disallow: /
User-agent: UglyCrawler
Disallow: /
User-agent: Slurpy
Disallow: /
all content copyright © 2007-2010 Alphane Moon