Java-Bots mit .htaccess aussperren

Veröffentlicht am Donnerstag, 20. Dezember 2007, von infinity auf Alphane Moon

Im Oktober wurden 67% des gesamten Datentransfers dieser Website nur von Java-Bots verbraten. Anscheinend kommen diese Bots immer über die Startseite, dann werden alle gefundenen URLs einer Verzeichnisebene alphabetisch sortiert und gespidert. Das wird für jeden Ordner wiederholt bis die komplette Site heruntergeladen wurde. Zusätzlich produzieren diese Spiders viele Fehlermeldungen (404). Das ist nicht akzeptabel.

Ich habe mir das eine Zeitlang angesehen und mir mit den Bots den einen oder anderen Scherz erlaubt. Ab heute habe ich sie alle endgültig verbannt.

Bots mit dem User-Agent Java

Hier ist eine Sammlung der User-Agent-Strings, die mir bisher begegnet sind.

Java
Java1.4.0_01
Java/1.4.1_04
Java/1.4.2
Java/1.4.2_01
Java/1.4.2_03
Java/1.4.2_05
Java/1.4.2_08
Java/1.4.2_12
Java/1.4.2_13
Java/1.4.2_16
Java/1.5.0
Java/1.5.0_02
Java/1.5.0_03
Java/1.5.0_04
Java/1.5.0_05
Java/1.5.0_06
Java/1.5.0_07
Java/1.5.0_08
Java/1.5.0_10
Java/1.5.0_11
Java/1.6.0
Java/1.6.0-oem
Java/1.6.0-rc
Java/1.6.0_01
Java/1.6.0_02
Java/1.6.0_03
Java/1.6.0_04
Java/1.6.0_05
Java/1.6.0_06
Java/1.6.0_07
Java/1.6.0_11
Java/1.6.0_13
Java/1.6.0_15

IP-Adressen: alles, was möglich ist.

Nach der robots.txt wird nie gefragt, es sind „Bad Bots“. Sie sind alle in die Falle gegangen – mit einer Ausnahme:

38.99.203.110 -- [20.10.2007:12:49:47] "GET /robots.txt HTTP/1.1" 200 -- -- Java/1.6.0_02
38.99.203.110 -- [20.10.2007:12:49:48] "GET / HTTP/1.1" 200 -- -- panscient.com
38.99.203.110 -- [20.10.2007:12:49:48] "GET /robots.txt HTTP/1.1" 200 -- -- Java/1.6.0_02
38.99.203.110 -- [20.10.2007:12:49:48] "GET /robots.txt HTTP/1.1" 200 -- -- Java/1.6.0_02
38.99.203.110 -- [20.10.2007:12:49:52] "GET /about.html HTTP/1.1" 200 -- -- panscient.com

usw.

Zuerst wurde nach der robots.txt gefragt. Zu diesem Zeitpunkt galt die Regel:

User-agent: Java/1.6.0_02
Disallow: /

Also enttarnt sich der Bot von panscient.com und fängt an die Site zu spidern. Die Reihenfolge, in der die Seiten durch panscient.com gespidert werden, unterscheidet sich von der Reihenfolge, welche die Java-Bots benutzen. Es fehlt die alphabetische Sortierung der URLs.

Wenn man User-Agent-Spoofing betreibt, sollte man eine sehr gute Begründung dafür haben. Nicht jeder ist davon begeistert.

Java über .htaccess aussperren

Man kann mit folgendem Eintrag in der .htaccess alle Java-Bots blocken:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^Java
RewriteRule ^.*$ - [F]

Kommentare

Yellow Pinky.

#1 Yellow Pinky hat geschrieben:

Am 5. Juni 2008 um 23:18

Im Spam-Whackers-Blog hat jemand von Panscient in einem Kommentar behauptet, dass Panscient an einer Suchmaschine arbeitet.

Die grüne Fee.

#2 Alphane Moon hat geschrieben:

Am 6. Juni 2008 um 15:35

Na klar. Und wir forschen hier auf Alphane Moon am Trans-Warp-Antrieb.

Visit Johann Burkard.

#3 Johann hat geschrieben:

Am 25. Juli 2008 um 21:23

Bei Panscient scheints eher um Material für Stänkereien zu gehen, scheint mir. Übrigens: Die erste Website, die ich sehe, die SVG verwendet :-)

Die grüne Fee.

#4 Alphane Moon hat geschrieben:

Am 26. Juli 2008 um 12:35

Was die Stänkereien angeht sind die bisher ganz erfolgreich. Außerdem ist deren Bot ein echter Spielverderber. Ich hatte meine robots.txt so eingestellt, dass dynamisch ein Disallow für alle User-Agents gesetzt wird, die von der IP-Adresse von Panscient kommen. Er kommt seitdem aber immer als panscient.com. Bis die „Suchmaschine“ fertig ist gibt es hier nur ein 403.

SVG finde ich absolut fantastisch, da möchte ich in Zukunft noch viele Sachen ausprobieren.

Visit Matthias.

#5 Matthias hat geschrieben:

Am 9. September 2008 um 16:14

Bei mir ist auch so ein Java-Bot unterwegs, von verschiedenen IP-Adressen. Der verlangt häufig ganz komische Sachen, zum Beispiel:

89.122.29.79 - - [03/Sep/2008:01:33:18 -0400]
"GET ////////////////////////////////////////////////////
/////////////////////////////////////////////
/?id=366 HTTP/1.1" 200 8788 "-" "Java/1.6.0_04"

Völlig irr, der Bot! Ich habe Dein .htaccess mal bei mir eingesetzt, allerdings gebe ich zu dass ich nicht nachgeprüft habe, was es genau macht :-) .

Die grüne Fee.

#6 Alphane Moon hat geschrieben:

Am 9. September 2008 um 20:35

Hallo Matthias,
Auweia, ist der kaputt! Die Java-Bots haben bei mir auch jede Menge Fehler produziert, anscheinend werden oft URLs falsch aufgelöst. Aber sowas kaputtes habe ich bisher noch nicht gesehen.

Der Eintrag in die .htaccess prüft den User-Agent-String, wenn der mit Java beginnt (großgeschrieben), wird geblockt und der Bot sieht den Fehler 403 - Forbidden. Du kannst das testen: es gibt eine Firefox-Extension, mit der man den User-Agent-String verändern kann. Oder du installierst den Browser K-Meleon, dort kann man es einstellen:
Extras → Browsererkennung → Benutzerdefiniert.

Wenn du dann als Java deine Site aufrufst, solltest du eine Fehlermeldung sehen. Weitere Bots kann man dann bei Bedarf in der .htaccess hinzufügen:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^AsozialerBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^VerbannterBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Java
RewriteRule ^.*$ - [F]

Es wird schlagartig ruhiger :)

Visit Matthias.

#7 Matthias hat geschrieben:

Am 9. September 2008 um 21:24

Ich hab’s jetzt mit dem Firefox-Addon getestet, und es funktioniert wunderbar. Nochmals danke für den Tipp!

Visit Mr. Mittens.

#8 MrMittens hat geschrieben:

Am 9. Oktober 2008 um 04:03

Ja will denn nur noch ein „Bot“ deine Seiten aufrufen???

Die grüne Fee.

#9 Alphane Moon hat geschrieben:

Am 10. Oktober 2008 um 14:45

Auf die Idee könnte man fast kommen. Das mit den Bots ist so: das ist nicht nur einer, es gibt Tausende. Java-Bots sind da nur der Anfang.

Jedes doofe kleine Unternehmen, das meint Daten sammeln zu müssen, jede Suchmaschine, jeder Spammer, alle haben Bots. Jedes Arschloch, das eine Datenbank mit „Geschäftsdaten“ anlegen will, um damit Kohle zu machen, schickt ’n Bot los. Damit sammeln sie E-Mail-Adressen, um uns vollzuspammen.

Diese Daten liegen ja im Web einfach so herum, man muss sich nur bedienen. Andere Bots schicken Nonsense-Kommentare auf mein Blog, einige wollen sich einen Link abgeiern, um sich bei Google einzuschleimen. Wieder andere suchen nach Sicherheitslücken bekannter Blog-Software.

Es vergeht kein einziger Tag, an dem sich nicht irgendwelches Geschmeiß hier blicken läßt. Diese ganzen Idioten-Bots funktionieren oft nicht gut und produzieren Fehler. Ich will die alle nicht auf meiner Site haben - alles Arschlöcher!

all content copyright © 2007-2010 Alphane Moon