Der Effekt ausgehender Links

Da das PageRank-Verfahren die Link-Struktur des gesamten Webs abbildet, ist es unausweichlich, dass wenn eingehende Links einen Einfluss auf den PageRank haben, das gleiche auch für ausgehende Links gilt. Zur Darstellung der Effekte ausgehender Links soll wieder ein kleines Beispiel dienen.

Betrachtet wird ein Web aus zwei Websites, die jeweils zwei Seiten beinhalten. Die eine Site besteht aus den Seiten A und B, die andere aus den Seiten C und D. Die beiden Seiten einer jeden Site verlinken sich jeweils gegeneinander. Es wird unmittelbar deutlich, dass jede der Seiten einen ursprünglichen PageRank von 1 inne hat. Nun wird Seite A ein externer Link auf Seite C hinzugefügt. Für den PageRank der einzelnen Seiten ergeben sich bei einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:


PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)
PR(D) = 0.25 + 0.75 PR(C)

Die Lösung dieses Gleichungssystems ergibt die folgenden Werte:

PR(A) = 14/23
PR(B) = 11/23

und somit einen aufsummierten PageRank von 25/23 für die erste Site,

PR(C) = 35/23
PR(D) = 32/23

und damit einen aufsummierten PageRank von 67/23 für die zweite Site. Der aufsummierte PageRank beider Sites in Höhe von 92/23 = 4 bleibt also erhalten. Das Hinzufügen von Links hat also keinen Einfluss auf den aufsummierten PageRank des Webs. Ferner ist damit der Gewinn der verlinkten Site genauso groß wie der Verlust der anderen.

Der tatsächliche Effekt ausgehender Links

Wie bereits gezeigt, ist der Gewinn eines geschlossenen Systems auf das ein zusätzlicher Link gesetzt wird, gegeben durch

(d / (1-d)) × (PR(X) / C(X)),

wobei X die verlinkende Seite, PR(X) deren PageRank und C(X) die Anzahl der ausgehenden Links von Seite X ist. Dieser Wert beschreibt damit auch den PageRank-Verlust, der einem vormals geschlossenen System daraus entsteht, dass einer Seite X innerhalb dieses Systems ein ausgehender Link hinzugefügt wird.

Bedingung für die angegebene Formel ist, dass die verlinkte Site nicht etwa direkt wieder auf die verlinkende Site zurückverlinkt, da die verlinkende Site wieder einen Teil des verlorenen PageRanks zurückgewinnen würde. Solange eine Rückverlinkung sich über eine gar nicht so große Anzahl von Webseiten erstreckt, ist dieser Effekt jedoch durch die Wirkungsweise des Dämpfungsfaktors zu vernachlässigen. Ferner Bedingung für die Gültigkeit der Formel ist, dass die verlinkende Site nicht bereits vorher ausgehende Links besitzt. Sollte dies jedoch der Fall sein, vermindert sich die Höhe des Verlustes der betrachteten Site, und gleichzeitig haben die bereits verlinkten Webseiten einen entsprechenden Verminderung des PageRank hinzunehmen.

Selbst wenn für eine tatsächlich existierende Website die PageRank-Werte der einzelnen Webseiten bekannt wären, könnte allerdings dennoch nicht ohne weiteres im Vorhinein ermittelt werden, wie sehr das Hinzufügen eines externen Links den PageRank der einzelnen Seiten vermindert, da die oben genannten Formel den Status nach der Verlinkung betrachtet.

Intuitive Begründung für den Effekt ausgehender Links

Intuitiv lässt sich der Verlust von PageRank für die eigenen Seiten damit erklären, dass der Zufalls-Surfer aus dem Random Surfer Modell durch das Hinzufügen eines externen Links mit einer geringeren Wahrscheinlichkeit einen Link auf eine der internen Seiten verfolgt. Damit sinkt in der Folge auch die Wahrscheinlichkeit, mit der sich der Surfer auf einer derjenigen Seiten aufhält, die wiederum auf diejenige Seite verlinken, der der externe Link hinzugefügt wurde, womit auch deren PageRank sinken muss.

Es bleibt letztlich festzuhalten, dass ausgehende externe Links den aufsummierten PageRank aller Webseiten einer Website und gegebenenfalls auch den PageRank jeder einzelnen Seite einer Site vermindern. Da jedoch die Verlinkung zwischen Websites gerade die Grundlage des PageRank-Verfahrens darstellt und für sein Funktionieren unabdingbar ist, besteht durchaus die Möglichkeit, dass ausgehende Links an einer anderen Stelle innerhalb der Bewertung von Webseiten durch die Suchmaschine Google positiven Einfluss nehmen. Schließlich machen gerade auch relevante ausgehende Links die Qualität einer Website aus, und Webmaster, die Links auf andere Websites setzen, beziehen gewissermaßen deren Content in das eigene Web-Angebot mit ein.

Dangling Links

Ein nicht ganz unwichtiger Aspekt ausgehender Links ist das Fehlen ausgehender Links. Sobald einzelne Webseiten keine ausgehenden Links aufweisen, versickert der PageRank gewissermaßen an diesen Stellen. Lawrence Page und Sergey Brin bezeichnen Verweise auf derartige Seiten als "Dangling Links".

Die Auswirkungen von Dangling Links sollen anhand eines kleinen Beispiels veranschaulicht werden. Wir betrachten eine Website die aus aus den drei Seiten A, B und C besteht. Die Seiten A und B verlinken sich gegenseitig. Seite A verlinkt zudem auf Seite C, die ihrerseits jedoch keine ausgehenden Links aufweist. Für den PageRank der einzelnen Seiten ergeben sich bei einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:


PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.375 PR(A)

Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:

PR(A) = 14/23
PR(B) = 11/23
PR(C) = 11/23

Damit beträgt der aufaddierte PageRank aller Seiten 36/23, also nur etwas mehr als die Hälfte dessen, was zu erwarten gewesen wäre, wenn Seite C auf eine der beiden Seiten A oder B verlinkt hätte. Die Anzahl von Dangling Links ist nach Angaben von Page und Brin nicht unbeträchtlich - und sei es, weil zahlreiche verlinkte Seiten von Google nicht indexiert sind, etwa weil die Indexierung per robots.txt verhindert wird. Hier ist zusätzlich zu berücksichtigen, dass Google mittlerweile auch andere Dokumenten-Typen als HTML wie zum Beispiel PDF oder Word Dateien indexiert, die keine wirklichen ausgehenden Links haben. Dangling Links könnten also nicht unbeträchtliche Folgen für das PageRank-Verfahren haben.

Um die negativen Effekte von Dangling Links auszuschalten, werden diese Angaben von Page und Brin zufolge vor der PageRank-Berechnung aus der Datenbank unter Anpassung der jeweiligen Anzahl von ausgehenden Links entfernt bis alle PageRank-Werte berechnet sind. Bei der Entfernung von Dangling Links handelt es sich um einen iterativen Vorgang, da das Entfernen wiederum neue Dangling Links erzeugen kann, wie aus unserer einfachen Abbildung ersichtlich. Nachdem die eigentliche PageRank-Berechnung abgeschlossen ist, wird auch den Dangling Links PageRank - auf der Basis der PageRank-Werte der auf sie verweisenden Seiten und unter Rückgriff auf den PageRank-Algorithmus - zugewiesen. Dies erfordert ebenso viele Iterationen wie bei der Entfernung der Dangling Links. Um bei unserer Abbildung zu bleiben, könnte schließlich Seite C vor Seite B bearbeitet werden. Seite B weist dann im ersten Bearbeitungsdurchlauf bei der Bearbeitung von Seite C noch keinen PageRank auf, womit Seite C wiederum ein PageRank von 0 zugewiesen würde. Erst anschließend erhält Seite B ihren PageRank und im zweiten Bearbeitungsschritt würde Seite C einen tatsächlichen PageRank zugewiesen bekommen.

Für unser ursprüngliches Beispiel hat das Entfernen von Seite C aus der Datenbank zur Folge, dass die Seiten A und B nach Abschluss der Berechnungen jeweils einen PageRank von 1 erhalten. Seite C wird dann im Anschluss ein PageRank in Höhe von 0.25 + 0.375 PR(A) = 0.625 zugewiesen. Damit enspricht der aufaddierte PageRank zwar nicht der Anzahl der Seiten, doch zumindest diejenigen Seiten mit ausgehenden Links nehmen keinen Schaden durch Dangling Links.

Durch die Eliminierung von Dangling Links haben diese also keinen negativen Einfluss auf den PageRank der übrigen Seiten. Und wie bereits erwähnt, sind Verweise auf Dokumententypen, die keine ausgehenden Links aufweisen können, grundsätzlich Dangling Links. Damit wird auch unmittelbar deutlich, dass etwa Links auf PDF-Dokumente den PageRank einer darauf verlinkenden Seite bzw. Site nicht reduzieren können. PDF-Dokumente können also ein sehr gutes Instrument der Suchmaschinenoptimierung für Google sein.

Der Einfluss der Anzahl der Seiten auf den PageRank

PageRank und Google sind geschützte Marken der Google Inc., Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent 6,285,999.

Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter pr.efactory.de gesetzt wird.

RX640, Hebebänder

(c)2002/2003 eFactory GmbH & Co. KG Internet-Agentur - verfasst von Markus Sobek

eFactory
GmbH & Co. KG
sobek@eFactoryy.de

Goethestraße 75
40237 Düsseldorf

Tel.: 0211 44 03 97-21
Fax: 0211 44 03 97-40