Beispiel für statistische Webdaten-Analyse: Erhöht ein Related Posts-Plugin die Seitenzahl pro Besuch?

In diesem Beitrag wird gezeigt, wie mit fortgeschrittenen statistischen Methoden (hier: ARIMA Zeitreihenanalyse) Effekte analysiert werden können, die sich überlagern. In diesem Fall bieten fortgeschrittene Analyseverfahren einen echten Mehrwert gegenüber einfacher Statistik (z. B. Google Analytics, Excel).

Kundenauftrag, Fragestellung, Datenbeschreibung

Ziel des Kunden ist es, die Besucher länger auf seiner Website zu halten. Die Zielgröße ist daher die Anzahl der Seiten pro Besuch (pages/visit). Um sie zu erhöhen, wurde ein Related Posts-Plugin aktiviert, das dem Besucher ähnliche Beiträge zeigt, die ihn ebenfalls interessieren könnten.

Analysezeitraum: 1. April 2013 bis 31. Juli 2013
Aktivierung des Related-Posts-Plugins: 21. Mai 2013

Die Daten sind fiktiv und stammen nicht von einer bestimmten Website – ich habe sie speziell für dieses Beispiel konstruiert. Es geht mir nicht so sehr darum, ob das Szenario realistisch ist. Ziel war ein Beispiel zu finden, bei dem fortgeschrittene Analysemethoden einen Mehrwert gegenüber einfacheren Methoden bieten. Das wird in der Praxis nicht immer der Fall sein: oft wird man mit Zahlen aus Google Analytics oder anderen Quellen Fragen zu bestimmen Effekten direkt beantworten können, ohne spezielle Analysesoftware zu verwenden. Interessant wird es, wenn die Antwort nicht so offensichtlich ausfällt. Das gilt vor allem dann, wenn sich mehrere Effekte überlagern.

Grafische Betrachtung der Seiten pro Besuch im Zeitverlauf

Seiten pro Besuch im Zeitverlauf

Ein einfaches Excel-Diagramm zeigt: die Anzahl der Seiten pro Besuch ist von Anfang April bis in die zweite Maihälfte angestiegen von 1,2 auf etwas über 1,4. Interessanter Weise stagniert die Kurve dann bis zum Ende des Analysezeitraums auf diesem Niveau, obwohl doch gerade am 21.5. das neue Plugin aktiviert wurde. Kann man daraus schließen, dass das Plugin wirkungslos war und ist?

Wer gerne Mittelwerte vergleicht, könnte jetzt sagen: die durchschnittliche Anzahl der Seiten pro Besuch war nach Aktivierung des Plugins höher als davor. Wie es nicht geht:

Vergleich der durchschnittlichen Seiten pro Besuch ohne und mit Plugin

Statistisch ist das zwar korrekt (der Unterschied ist auch signifikant laut t-Test), aber relativ sinnlos – wie oben gesehen, spricht es nicht für das Plugin: Die Kenngröße stieg bereits vor seiner Aktivierung, danach aber nicht mehr. Der Zeitverlauf ist in dieser statischen Darstellung nicht mehr erkennbar.

Erste statistische Analyse: Einfluss des Plugins auf die Seitenzahl pro Besuch

Für den Zeitraum vom 21.5.2013 bis 31.7.2013, also nach Aktivierung des Plugins, wird ein Steigungskoeffizient ermittelt. Er ist zwar positiv und sogar statistisch signifikant[1], fällt allerdings mit 0,000119 extrem gering aus. Mit anderen Worten, diesem Modell zufolge steigt die Seitenzahl pro Besuch statistisch um 0,000119 pro Tag. Ein deutlicheres Ergebnis war anhand der Grafik auch nicht zu erwarten. Daran sieht man, dass statistische Signifikanz und inhaltliche Relevanz zwei verschiedene Dinge sind. Der Anstieg ist praktisch bedeutungslos.

Erweiterung der Analyse: Suche nach anderen Einflussfaktoren

Bei anderen Websites war das Plugin durchaus erfolgreich darin, die pages per visit zu erhöhen. Das bisherige Ergebnis ist also unplausibel. Gibt es weitere Veränderungen an der Website im Analysezeitraum, die damit zusammenhängen könnten?

Der Autor hat eine Weile intensiv an seiner Humor-Rubrik gearbeitet und nahezu täglich humoristische Beiträge veröffentlicht, konnte diesen Fleiß aber nicht aufrechterhalten. Der „Knick“ bei den Humorbeiträgen passt mit dem Stagnieren der Seitenzahlen pro Besuch zusammen:

Entwicklung der Seitenaufrufe pro Besuch im Vergleich mit der Anzahl der Humorbeiträge

Anhand dieser Darstellung kann man vermuten: die frischen Humor-Beiträge haben die Besucher zum Verweilen auf der Website motiviert. So lange die Anzahl der Humor-Beiträge stieg, so lange stieg auch die Seitenzahl pro Besuch. Dann stagnierten beide parallel.

Fortgeschrittene Analyse: Zeitreihenmodelle

Damit gibt es nun zwei Effekte, die sich überlagern: das Plugin und die Veröffentlichungen bzw. ausbleibenden Veröffentlichungen in der Humor-Rubrik. Gesucht ist eine Methode, diese beiden Effekte analytisch zu trennen. Diese Methode stellt die Zeitreihenmodellierung (ARIMA, Autoregressive Integrated Moving Average) zur Verfügung.

Die ARIMA-Analyse zeigt: rechnet man den Einfluss der Humor-Veröffentlichungen heraus, dann hat das Related-Posts-Plugin tatsächlich einen signifikant positiven Effekt auf die Seitenzahl pro Besuch. Mit anderen Worten: hätte der Webseitenbetreiber das Plugin nicht aktiviert, dann wäre bei ausbleibenden Veröffentlichungen in der Humor-Rubrik die Seitenzahl wieder gesunken. Das Plugin hat dieses Absinken verhindert und war in diesem Sinne erfolgreich.

Man kann nun Prognosen für bestimmte Szenarien erstellen und damit zeigen, dass die Seitenzahl pro Besuch fallen würde, wenn das Plugin deaktiviert wird und Veröffentlichungen in der Humor-Rubrik weiterhin ausbleiben. Umgekehrt würde die Seitenzahl pro Besuch laut Modellprognose steigen, wenn das Plugin aktiv bleibt und der Autor seine humoristischen Beiträge fortsetzt.

Bei diesen Modellprognosen geht es nicht um exakte Vorhersagen wie „Ich habe ausgerechnet, dass Ihre Besucher genau ab dem 25.8. durchschnittlich über 1,7 Seiten pro Besuch aufrufen werden“ (obwohl die Modelle das formal hergeben) – eine solche Genauigkeit zu behaupten wäre unseriös, da sicherlich viele Faktoren zusammenspielen. Die Zeitreihenmodellierung hat es aber geschafft, zwei sich überlagernden Effekte (Humorrubrik und Plugin) analytisch zu trennen.

Statistische Analyse vs. reale Vergleichstests

Die Erfahrung bei der Optimierung von Websites lehrt: testen, testen, testen. Effekte lassen sich am besten in Experimenten bzw. Vergleichstests abschätzen. Die hier beschriebenen Methoden sind Schätzverfahren; ihr Vorteil besteht darin, dass sie ohne A/B-Tests auf analytischem Wege Effekte trennen können, die sich in der Realität mischen. So sind sie zum Beispiel nachträglich anwendbar, wenn für einen gewissen Zeitraum Daten vorliegen. Tests in die Vergangenheit zu verlegen ist nun mal nicht möglich.

Analysesoftware: IBM SPSS Statistics, IBM SPSS Modeler


[1] Methode: lineare Regressionsanalyse, Zeit in Tagen als unabhängige Variable; Fragestellung: Wie stark steigt die Seitenzahl pro Besuch nach Aktivierung des Plugins an?

Dies ist ein Gastbeitrag von Wolf Riepl von statistik-dresden.de

4 Gedanken zu „Beispiel für statistische Webdaten-Analyse: Erhöht ein Related Posts-Plugin die Seitenzahl pro Besuch?“

  1. Hallo, klingt sehr interessant.
    Doch was ist, wenn plötzlich diese Seitenanzeige nichts mehr anzeigt – lediglich eigene Seitenaufrufe – die allerdings gar nicht angezeigt werden sollten – weil “Eigenen Seitenaufrufe nicht verfolgen” ausgewählt wurde?
    Wen spricht man da an – bei Google Blogger wird darauf nicht reagiert.
    AnaA

    1. Hallo Ana,
      das Problem kennen wir auch sehr gut. Hast du schon einmal versucht deine Frage in das entsprechende Forum zu stellen, bei denen es um Probleme zu Google Blogger geht?
      Dort könntest du vielleicht eine Antwort erhalten. Dies kann aber nach unseren Erfahrungen auch sehr lange dauern.
      Beste Grüße
      Ronny

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Mit dem Absenden Ihrer Anfrage erklären Sie sich mit der Verarbeitung Ihrer angegebenen Daten zum Zweck der Bearbeitung Ihrer Anfrage einverstanden (Datenschutzbedingungen)