PR0 - Die PageRank 0 Bestrafung

Seit Ende des Jahres 2001 greift die Bestrafung von Websites mit einem PageRank von 0 um sich. In einschlägigen Suchmaschinenoptimierungs-Foren hat sich hierfür die Kurzform PR0 eingebürgert und diese soll auch hier benutzt werden. PR0 ist dadurch gekennzeichnet, dass alle - oder zumindest viele - Seiten einer Website in der Google Toolbar einen PageRank von 0 aufweisen, obwohl diese mitunter qualitativ hochwertige eingehende Links aufweisen können. Sie sind nicht vollkommen aus dem Index entfernt, erscheinen aber in Suchergebnissen stets ganz unten und sind somit praktisch nicht aufzufinden.

Einem PageRank von 0 muss natürlich nicht immer eine Bestrafung zu Grunde liegen. Vielen vermeintlich bestraften Seiten mangelt es schlicht an eingehenden Links mit entsprechend hohem PageRank. Wenn aber die Seiten einer Site, die vormals gut in den Suchergebnissen platziert waren, plötzlich die gefürchtete weiße PageRank-Anzeige aufweisen, und sich hinsichtlich der eingehenden Links der Site nichts wesentliches verändert hat, liegt nach herrschender Meinung eine Bestrafung durch Google vor.

Über die tatsächlichen Ursachen des PR0 kann natürlich nur spekuliert werden. Da seitens Google mittlerweile nicht mehr über technische Details und grundlegende Algorithmen publiziert wird, sind schließlich erforderliche Hintergrundinformationen kaum oder gar nicht verfügbar. Nichtsdestotrotz soll wegen der tiefgreifenden Auswirkungen von PR0 ein theoretischer Ansatz hierfür geliefert werden.

Hintergründe des PR0

Suchmaschinen-Spam ist eines der großen Probleme mit denen Suchmaschinen-Betreiber seit jeher zu kämpfen haben. Die übliche Vorgehensweise gegen Spam war immer, dass - sobald Spam identifiziert wird - die entsprechenden Domains oder auch gleich IP-Adressen in der Regel für unbestimmte Zeit aus dem Index verbannt werden.

Ein derartiges manuelles Entfernen von Websites aus dem Index ist immer mit einem hohen Personalaufwand verbunden. Dies läuft der stets von Google angestrebten hohen Skalierbarkeit der Suchmaschine zuwider. Es ist hiermit also erforderlich, Spam automatisiert zu filtern. Hierdurch entsteht jedoch die Gefahr, auch viele unschuldige Webmaster zu bestrafen. Die eingesetzten Filter dürfen also nur sehr sensibel auf potentiellen Spam reagieren. Um dabei dennoch effektiv zu sein, kann es - wie auch im Rahmen des PageRank-Verfahrens - sinnvoll sein, Linkstrukturen zu analysieren.

Eine derartige Vorgehensweise wurde von einem Mitarbeiter Google's, der unter dem Pseudonym GoogleGuy auftritt, mehrmals mehr oder weniger eindeutig im Google-Forum von WebmasterWorld bestätigt. Bekannt wurde sie als Bestrafung für das "linking to bad neighborhoods". Im folgenden soll erörtert werden, wie eine derartige Identifikation von Spam über die Analyse von Linkstrukturen realisiert werden kann. Insbesondere soll dabei gezeigt werden, wie mittels solcher Verfahren ganze Netzwerke von Spam-Seiten, die gegebenenfalls auch auf viele verschiedene Domains verteilt sind, ans Ende der Ergebnisseiten verbannt werden können.

BadRank als Umkehrung von PageRank

Der hier präsentierte theoretische Ansatz zum PR0 wurde grundlegend zuerst von Raph Levien (www.advogato.org/person/raph) formuliert. Basis dieses Ansatzes ist es, dass neben PageRank ein weiteres Verfahren eingeführt wird, das nicht wie PageRank die grundsätzliche Bedeutung einer Webseite im positiven Sinne bestimmt, sondern vielmehr die negativen Eigenschaften von Webseiten misst. Der Einfachheit halber soll dieses Verfahren hier BadRank genannt werden.

Das "linking to bad neighborhoods" bildet die Grundlage für den BadRank. Eine Seite, die auf eine andere Seite mit einem hohen BadRank verlinkt, erhält hierdurch tendenziell selbst einen hohen BadRank. Hiermit werden die Parallelen zu PageRank bereits offentsichtlich, nur dass BadRank nicht auf der Bewertung der eingehenden Links einer jeweiligen Webseite beruht, sondern vielmehr auf deren eigenen ausgehenden Links. In diesem Sinne ist BadRank gewissermaßen eine Umkehrung von PageRank. In einer direkten Adaption des PageRank Algorithmus würde sich die folgende Formel für den BadRank ergeben:

BR(A) = E(A) (1-d) + d (BR(T1)/C(T1) + ... + BR(Tn)/C(Tn))

Hierbei ist

BR(A) der BadRank von Seite A,
BR(Ti) der BadRank derjenigen Seiten T, auf die Seite A verlinkt,
C(Ti) die Anzahl der eingehenden Links der jeweiligen Seite Ti und
d der auch hier erforderliche Dämpfungsfaktor.

Der Wert E(A) entsprach im Rahmen einer der hier diskutierten Modifikationen des PageRank Algorithmus der manuellen Höherbewertung spezifischer Webseiten. Im Rahmen des BadRank Algorithmus reflektiert dieser Wert, ob eine Seite beim spidern des Webs von einem Spam-Filter erfasst wurde. Ohne diesen Wert E(A) wäre der BadRank Algorithmus vollkommen nutzlos, da es sich wiederum lediglich um eine Analyse von Linkstrukturen handeln würde, der aber keine weiteren Kriterien zu Grunde lägen.

Mit Hilfe des hier präsentierten BadRank-Algorithmus können also zunächst Spam-Seiten erfasst werden. Ihnen wird dann über E(A) ein numerischer Wert zugewiesen, der beispielsweise der Schwere des Spammings entspricht oder sich vielleicht besser am PageRank einer jeweiligen Seite orientiert, wobei die Summe aller E(A) gleich der Anzahl der Webseiten sein muss. Im Laufe einer iterativen Berechnung überträgt sich dieser zugewiesene Wert dann nicht nur als BadRank auf diejenigen Seiten, die auf Spam-Seiten verlinken. Vielmehr wäre BadRank in der Lage, Regionen des Webs zu identifizieren, in denen Spam besonders häufig auftritt, ganz ähnlich wie PageRank Regionen des Webs identifiziert, denen eine grundlegende Bedeutsamkeit zukommt.

BadRank und PageRank weisen dabei natürlich gravierende Unterschiede auf, die vor allem darin begründet sind, dass die Verteilung von eingehenden und ausgehenden Links ganz entscheidend voneinander abweicht. Unser Beispiel stellt eine einfache, hierarchisch strukturierte Website dar, die natürliche Linkstrukturen wohl recht gut abbildet. Dabei verlinken alle Seiten jeweils auf all diejenigen Seiten, die hierarchisch über ihnen angeordnet sind. Zudem verlinken sie auf die ihnen direkt untergeordneten Seiten und diejenigen Seiten innerhalb einer solchen Kategorie verlinken wiederum einander. Die Verteilung der eingehenden und ausgehenden Links innerhalb einer derartigen Site gibt die folgende Tabelle wieder.


Ebeneeingehende Linksausgehende Links
062
144
223

Wie zu erwarten, erfolgt hinsichtlich der eingehenden Links eine hierarchische Abstufung von oben nach unten. Die Anzahl der ausgehenden Links ist hingegen in der mittleren Hierarchiestufe am höchsten. Ein ganz ähnliches Bild zeigt sich, wenn wir eine weitere Ebene unten in unsere Beispiel-Site einfügen, die den oben beschriebenen Richtlinien folgt:

Ebeneeingehende Linksausgehende Links
0142
184
245
324

Wiederum konzentriert sich die Zahl der ausgehenden Links in den mittleren Hierarchiestufen. Vor allem aber, ist die Verteilung der ausgehden Links wesentlich gleichmäßiger als die der eingehenden Links.

Wenn wir in unserem ursprünglichen Beispiel der Index-Seite A einen Wert E(A) gleich 100 zuweisen, wobei alle anderen Werte E gleich 1 sind, ergeben sich bei einem Dämpfungsfaktor d von 0.85 die folgenden BadRank-Werte:

SeiteBadRank
A22.39
B/C17.39
D/E/F/G12.21

Es zeigt sich, dass der BadRank sich von der Index-Seite aus weiter auf alle anderen Seiten der Site verteilt. Auf die Kombination von BadRank und PageRank wird weiter unten noch detaillierter eingegangen, ganz gleich jedoch, wie diese erfolgt, ist es unmittelbar ersichtlich, dass beide sich sehr gut neutralisieren könnten. Schließlich können wir davon ausgehen, dass auch der PageRank abnimmt, je weiter wir uns in der Seitenhierarchie nach unten bewegen. Mit einer derartigen Neutralisierung kann in jedem Falle ein PR0 für alle Seiten erreicht werden.

Nehmen wir nun andererseits an, dass die hierachisch nachgeordnete Seite G auf eine Seite X mit einem fixen BadRank BR(X)=10 verlinkt, wobei der Link von Seite G der einzige eingehende Link von Seite X ist und alle Werte E für unser Beispiel-Site gleich 1 sind, ergeben sich bei einem Dämpfungsfaktor d von 0.85 die folgenden Werte:

SeiteBadRank
A4.82
B7.50
C14.50
D4.22
E4.22
F11.22
G17.18

Hier ist die Verteilung des BadRank weit weniger homogen als im vorangegangenen Szenario. Nichtsdestotrotz erfolgt eine Distribution des BadRank über die gesamte Site. Bemerkenswert ist, dass der BadRank der Index-Seite A relativ gering ist. Es wäre damit problematisch, einen im Vergleich zu den anderen Seiten höheren PageRank gleichermaßen zu neutralisieren. Dieser Effekt mag wenig wünschenswert sein, er spiegelt jedoch die Beobachtungen zahlreicher Webmaster wider: Relativ häufig tritt das Phänomen auf, dass alle Seiten bis auf die jeweilige Index-Seite einer Site einen PR0 aufweisen, wobei die Index-Seite oft einen Toolbar-PageRank von 2 bis 4 hat. Es drängt sich damit die Vermutung auf, dass diese spezielle Form des PR0 nicht darauf beruht, dass die entsprechende Website von einem der Spam-Filter identifiziert wurde, sondern dass sie ihre Bestrafung aufgrund eines "linking to bad neighborhoods" erhalten hat. Ferner wäre es natürlich auch möglich, dass diese Form des PR0 darin begründet ist, dass lediglich hierarchisch nachgeordnete Bereiche einer Website von einem Spam-Filter erfasst wurden.

Die Kombination von PageRank und BadRank zum PR0

Wenn wir davon ausgehen, dass ein BadRank in der hier präsentierten Form existiert, stellt sich nun die Frage, in welcher Form BadRank und PageRank kombiniert werden können, um einerseits möglichst viele Spammer aus den Suchergebnissen zu eliminieren und andererseits möglichst wenige unschuldige Seitenbetreiber ungerechtfertigterweise zu bestrafen.

Rein intuitiv bietet sich eine Verwendung der BadRank-Werte im Rahmen der eigentlichen PageRank-Berechnung an. So könnte beispielsweise im Zuge der iterativen Berechnung der PageRank einer Seite direkt durch ihren BadRank dividiert werden. Dies hätte den Vorteil, dass eine Seite mit hohem BadRank auch keinen bzw. nur einen minimalen PageRank weitergeben kann. Schließlich kann man argumentieren, dass wenn eine Seite auf eine suspekte Seite verlinkt, die anderen Seiten, auf die sie verlinkt, ebenfalls suspekt sind. Eine direkte Verbindung birgt allerdings große Gefahren. So sind beispielsweise die Auswirkungen auf den PageRank in keinster Weise vorab einzuschätzen. Insbesondere ist zu beachten, dass eine Seite, der die Möglichkeit genommen wird PageRank weiterzugeben, zu einem Dangling Link wird. Wie jedoch im Abschnitt zu den ausgehenden Links erörtert wurde, ist es unbedingt erforderlich, Dangling Links im Rahmen der PageRank-Berechnung zu vermeiden.

Es ist also sinnvoll, PageRank und BadRank getrennt voneinander zu berechnen. Die anschließende Kombination der beiden kann dabei auf einfachen arithmetischen Berechnungen beruhen. Eine Subtraktion hätte die grundsätzlich wünschenswerte Folge, dass relativ geringe BadRank-Werte bei relativ hohen PageRank-Werten kaum Einfluss hätten. Allerdings wäre es mit der Subtraktion problematisch, tatsächlich einen PR0 für viele Seiten zu erreichen. Es würde vielmehr eine breite Abstufung in niedrige PageRank-Regionen stattfinden. Mit der Division von PageRank durch BadRank wäre ein PR0 leicht zu erreichen. Dies würde jedoch implizieren, dass der BadRank eine extrem große Bedeutung erhält. Vor allem jedoch ist ein sehr großer Teil der BadRank kleiner als 1, da auch der Durchschnitt des BadRanks 1 ist, womit eine Normalisierung erforderlich wäre. Eine Normalisierung und Skalierung des BadRanks auf Werte zwischen 0 und 1, so dass "gute" Seiten Werte nahe 1 und "schlechte" Seiten Werte nahe 0 aufweisen, und eine anschließende Multiplikation dieser Werte mit dem PageRank einer Seite dürfte hier die besten Ergebnisse liefern.

Womöglich am effektivsten und am einfachsten zu realisieren wäre jedoch eine schlichte, abgestufte Beurteilung von PageRank und BadRank. Denkbar ist, dass sofern der BadRank einen bestimmten Wert überschreitet, es stets zum PR0 kommt. Gleiches gilt, wenn die Relation aus PageRank zu BadRank einen bestimmten Wert unterschreitet. Daneben ist es sinnvoll, dass wenn der BadRank und/oder die Relation aus BadRank zu PageRank unter einem bestimmten Wert liegen, der BadRank keinen Einfluss nimmt. Nur wenn keiner dieser Fälle eintritt, wäre eine tatsächliche Kombination von PageRank und BadRank, etwa durch Division von PageRank durch BadRank, erforderlich. Auf diese Weise sollten alle unerwünschten Effekte vermieden werden können.

Kritische Beurteilung von BadRank und PR0

Wie die Kombination von PageRank und BadRank tatsächlich erfolgt, ist eher von nachrangiger Bedeutung. Eine getrennte Berechnung und anschließende Kombination von beiden hat allerdings zur Folge, dass man gegebenenfalls nicht am Toolbar PageRank messen kann, wie hoch tatsächlich der BadRank einer Seite ist. Denn falls eine Seite einen hohen PageRank im ursprünglichen Sinne hat, muss der Einfluss des BadRank nicht unbedingt ersichtlich sein. Verlinkt eine andere Seite darauf, kann dies jedoch durchaus gravierende Folgen haben.

Die weitaus größere Problematik liegt in der hier präsentierten, direkten Umkehrung des PageRank-Algorithmus: Genauso, wie ein zusätzlicher eingehender Link einer Seite deren PageRank immer nur erhöhen kann, kann ein zusätzlicher ausgehender Link einer Seite auch deren BadRank immer nur erhöhen. Dies liegt darin begründet, dass im Rahmen der BadRank-Berechnung sich die übertragenen Werte einfach aufaddieren. Somit ist es vollkommen gleich, auf wie viele untadelige Sites eine Seite verlinkt - ein einziger Link auf eine Spam-Site kann gegebenenfalls ausreichen, um zu einem PR0 zu führen.

Diese Problematik stellt sich allerdings wohl nur in Ausnahmefällen. Da sich schließlich bei einer direkten Umkehrung des PageRank-Algorithmus der BadRank einer Seite unter deren eingehenden Links aufteilt, wird bei einzelnen Links auf Seiten mit hohem BadRank immer nur jeweils ein Bruchteil des BadRank übertragen. Google's Matt Cutts sagt hierzu: "If someone accidentally does a link to a bad site, that may not hurt them, but if they do twenty, that's a problem." (searchenginewatch.com/sereport/02/11-searchking.html)

Solange jedoch alle Links im Rahmen des BadRank gleichermaßen gewertet werden, besteht dennoch auch bei einzelnen Links ein Problem. Haben schließlich zwei Seiten einen sehr unterschiedlich hohen PageRank und verlinken auf die gleiche Seite mit hohem BadRank, kann es nach Art und Weise der Kombination von PageRank und BadRank dazu kommen, dass die Seite mit dem höheren PageRank weit weniger unter dem auf sie übertragenen BadRank leidet als diejenige Seite mit dem niedrigeren PageRank. Wir können allerdings zuversichtlich sein, dass Google mit derartigen Problemen umzugehen weiß. Nichtsdestotrotz soll nochmals angemerkt werden, dass ausgehende Links im Rahmen der hier beschriebenen Verfahren immer nur schaden können.

Dass die hier vorgestellten Verfahren tatsächlich auch dieser Form eingesetzt werden, ist natürlich reine Spekulation. Grundsätzlich sollte jedoch die Bewertung von Linkstrukturen in Analogie zum PageRank-Verfahren genau die Art und Weise sein, wie nur Google mit Spam umzugehen versteht.

PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

Toner Epson

(c)2002/2003 eFactory GmbH & Co. KG Internet-Agentur - verfasst von Markus Sobek

eFactory
GmbH & Co. KG
sobek@eFactoryy.de

Goethestraße 75
40237 Düsseldorf

Tel.: 0211 44 03 97-21
Fax: 0211 44 03 97-40