» WordPress gegen Bots, Crawler und Scraper fit machen

am: 24.10.2011
von: Andreas
in: Plugins

Ich hatte in diesem Blog seit einigen Wochen ziemliche Probleme mit Spam und anderen unerwünschten Gästen. Irgendwann war ich es leid und habe entsprechende Maßnahmen ergriffen, die mittlerweile auch positive Auswirkungen gezeigt haben. Im Grunde genommen habe ich eigentlich dafür nur Bots aussperren müssen. Wie ihr dies ebenfalls machen könnt und was man dabei beachten sollte, kann in diesem Artikel nachgelesen werden.

Was sind eigentlich Bots und was machen die?

Project Honey Pot

Project Honey Pot

Bots sind kleine Scripte oder Programme, welche auf einem Server oder auch lokal auf dem Desktop laufen. Meistens werden diese aber auf einem bestehenden Server installiert und verrichten ihre Arbeit daher 24h am Tag, 7 Tage die Woche. Bots können beispielsweise Daten sammeln und abspeichern/übermitteln (Scrapen) oder durchforsten Blogs nach neuen Inhalten und benachrichtigen daraufhin andere Webseiten darüber (Crawler). Im letzten Fall dürfte den meisten sicherlich der Google Bot bekannt sein. Aber Bots können auch für andere Zwecke missbraucht werden wie das Auslesen des Blog Feeds und geleichzeitige 1:1 Übertragung der Inhalte auf eine fremde Webseiten (Content Diebstahl) oder automatische Blog Kommentare zu einem bestimmten Blog Artikel abgeben (Kommentar Spam). Manche Bots geben sich auch als Google Bot aus, um an einem möglichen Spam Schutz vorbeizukommen.

In der Regel bekommt man bis auf die Kommentar Bots nichts von denen mit. In Wahrheit aber besuchen euch im Hintergrund Dutzende Bots am Tag und manche haben alles andere im Sinn, als hilfreich zu sein. Es ist auch gut möglich, das Bots locker ein Drittel eures Traffic verursachen und somit auch die Statistiken ordentlich verwässern. In letzter Zeit wurde mir das persönlich zu viel, ganz besonders die zahlreichen SEO-Bots fingen an, ein echtes Problem zu werden. Um den Bots einhalten zu gebieten, kann man natürlich eine Robots.txt erstellen und dort bestimmte Regeln für die Bots definieren. Eine gute Anleitung dazu findet ihr hier. Leider halten sich längst nicht alle Bots an diese robots.txt und viele ignorieren diese schlicht, um ja ungestört an sämtliche Daten heranzukommen. Mir ist aufgefallen, dass dies besonders gerne SEO Bots so handhaben, darunter leider auch ein paar deutsche Anbieter. Liegt wohl auch daran, dass im Moment alle im Wettkampf um Backlink Daten sind und daher so mancher sehr aggressiv am Daten sammeln ist.

Bots in den Griff bekommen

Glücklicherweise gibt es auch für Blogger eine recht bequeme Möglichkeit, dieses Problem schnell in den Griff zu bekommen. Dazu benötigt man lediglich das Plug-in Bad Behavior und am besten noch eine Registrierung beim Projekt Honey Pot, welche komplett kostenlos und binnen 2-3 Minuten erledigt ist. Was und wie dann passiert, wenn diese aktiv sind, erkläre ich im Folgenden.

Project Honey Pot und Bad Behavior

Logfile

Logfile

Das Projekt Honey Pot ist eine Zusammenarbeit von vielen Spam Betroffenen, welche sich zu einer Community zusammengefunden haben und eine kleine Software entwickelt haben, die diese Probleme ziemlich erfolgreich bekämpft. Dabei werden IP Adressen gesammelt, die beispielsweise von anderen Usern als Spammer gemeldet wurden. Diese IP-Adressen werden auf eine Blacklist gesetzt und regelmäßig aktualisiert. Bei einem Abgleich zwischen dem Programm und der Blacklist wird binnen Millisekunden der potenzielle Spam Bot erkannt und ausgesperrt. Mithilfe des Plug-ins Bad Behavior geschieht dies auch, bevor der Spammer überhaupt aktiv werden kann. Bedeutet für einen Blog, das das Anti Spam Plug-in weniger zu tun bekommt. Wie erfolgreich Projekt Honey Pot ist, belegen die Zahlen auf der Startseite eindrucksvoll. In den letzten Jahren hat man beispielsweise über 88 Millionen Server identifiziert, die für Spam verantwortlich waren. Diese Zahl ist sicherlich durch diverse Cloud Hosting Anbieter in die Höhe geschnellt. So geht vom Amazon Cloud Service eine erhebliche Menge von Spam Attacken aus und ist sicherlich auch ein Grund dafür, warum deren Server IP Adressen mittlerweile auf der Blacklist vom Projekt Honey Pot zu finden sind. Cloud Hosting ist also nicht immer zu empfehlen.

Installation und Aktivierung Bad Behavior

Die Installation von Bad Behavior geht wie bei jedem anderen WordPress Plug-in vonstatten. Um dessen Funktion auf ein Maximum zu bringen, registriert man sich noch beim Projekt Honey Pot. Binnen weniger Minuten gibt es dann auch den Key um Zugriff auf die aktuelle Blacklist zu erhalten. Die vorgegebenen Grundeinstellungen habe ich fast alle übernommen und bin bisher damit zufrieden. Bad Behavior loggt auch fleißig mit und diesen Log kann man auch einsehen (Plugin->Bad Behavior->Log). Einträge, die älter als 7 Tage sind, werden dann automatisch vom Plugin gelöscht.

In diesem Log werden auch die Gründe sowie IP vom Blockvorgang angezeigt. Nach kurzer Recherche habe ich etliche IP Adressen gefunden, die von öffentlichen Proxy Listen stammen. Scheinbar werden die vom Projekt Honey Pot automatisch in die Blacklist eingetragen, was auch Sinn macht da sehr viele Spammer ebenfalls auf diese Zugreifen und für ihre Spam Bots nutzen. Aber auch etliche in Deutschland beheimatete Server entdeckt man dort.

Resultate?

Ich habe Bad Behavior seit gut einer Woche hier im Blog aktiv im Einsatz. In diesem Zeitraum wurden bereits 619 IP Adressen geblockt! Darunter extrem viele aus dem Ausland und die weiter oben erwähnten Cloud Hoster wie Amazon. Die Meldung „User-Agent was found on blacklist“ findet sich ziemlich oft in der Liste. Da sind auch etliche deutsche Server dabei. Wer noch ein wenig mehr für den Spam Schutz in seinem Blog tun möchte, installiert sich noch Antispam Bee von Sergej Müller. Dieses Plugin kann auf Wunsch ebenfalls auf die Blacklist von Projekt Honey Pot zurückgreifen. Den Blacklist Key könnt ihr dort auch eintragen. Die Kombination aus beidem funktioniert sehr gut und Antispam Bee hat auch wesentlich weniger zu tun. Ich habe natürlich in dieser Zeit meine Blogs im Auge behalten, insbesondere was die Geschwindigkeit vom Blog angeht und kann nichts Negatives feststellen. Der Abgleich zwischen Plugin und Blacklist bewegt sich im Bereich von Millisekunden und ist somit sicherlich vernachlässigbar.

Fazit

Ich habe Bad Behavior mittlerweile in einigen Projekten in Verwendung und bin doch sehr zufrieden mit dem Ergebnis. Ob es sich auf Dauer in allen Projekten bewähren kann, wird sich erst in ein paar Wochen zeigen. Auf jeden Fall hat es schon positive Auswirkungen gezeigt und etliche Bots ausgesperrt.

GD Star Rating
loading...
WordPress gegen Bots, Crawler und Scraper fit machen, 3.0 out of 5 based on 2 ratings