Matchplan Sports

Woher die Daten im Fußball kommen

Daten im Fußball

Philipp Obloch ist Leiter der OptaPro-Abteilung des Sport-Statistikunternehmens Opta. Im Interview erklärt er, wie Daten erhoben werden und was die Digitalisierung daran ändert. Außerdem gibt er Prognosen darüber ab, welche Statistiken in den nächsten Jahren auf die Sportfans zukommen und präsentiert seine Lieblingsstatistik.

Welche Möglichkeiten hat die Statistik im Fußball mittlerweile? Eine Erklärung dazu gibt es hier.


Herr Obloch, wie erhebt Opta die Daten, aus denen später die Statistiken werden?

Pro Spiel wird jede Mannschaft von je einem Mitarbeiter betreut. Jedes Event wird in ein hauseigenes Programm eingetragen. Am Folgetag wird das nochmal überprüft und die Daten im Anschluss ausgewertet.

„Wir erfassen jede Aktion am Ball“

Was bedeutet in diesem Fall „Event“, und welche Aktionen beobachtet Opta beim Fußball?

Wir erfassen jede Aktion am Ball: Pässe, Schüsse und Dribblings, aber auch
Annahmefehler und Ähnliches. Die Aktionen werden dann mit Ort- und Zeitstempel versehen und die Spielsituation wird hinzugefügt.

Und wie sieht es mit Daten abseits des Balls aus?

Diese zu erheben, ist mit unserem Modell nur schwer möglich. Da müsste man ja bei jeder Aktion ein Stoppbild machen und jeden einzelnen Spieler lokalisieren. Das wäre zu aufwendig und gleichzeitig zu ungenau. Wir arbeiten da mit einem Tracking-Anbieter zusammen, der das für uns macht. Das Problem ist dann allerdings, die Daten miteinander zu verknüpfen und übereinander zu legen, da ja jede Zehntelsekunde zählen würde.

Packing1 ist ein gutes Beispiel dafür: Auch wenn es ein Wert der Konkurrenz ist, halte ich sehr viel von den Daten. Allerdings ist es ein zu großer Aufwand, für jedes Spiel und jede Situation Packingdaten zu erheben. Sobald aber Positions- und Passdaten restlos übereinander gelegt sind, kann man das ja innerhalb von Millisekunden direkt erfassen.

Wird es in Zukunft möglich sein, diese Daten komplett automatisiert zu erheben und direkt zu verknüpfen?

Ja, davon bin ich felsenfest überzeugt. Generell geht es bei Statistiken immer um Zuverlässigkeit und Tempo. Die Automatisierung würde Fehler fast komplett ausmerzen und gleichzeitig den Arbeitsprozess deutlich verschnellern. Von daher wird die Branche investieren, um das möglich zu machen. Insofern bin ich mir ziemlich sicher, dass es irgendwann passiert, ob es aber zwei, acht oder zwölf Jahre dauert, bis der Prozess automatisiert ist, kann ich nicht einschätzen. Auf kurze Sicht geht es eher darum, mehr aus den bereits vorhandenen Daten herauszuholen. Die sind noch nicht ausgeschöpft und man kann noch einen viel größeren Kontext generieren, wenn man die richtigen Sachen miteinander verknüpft und Advanced Metrics erstellt.

Henne-Ei-Probleme

Stichpunkt Advanced Metrics und Advanced Stats – wie kam Opta auf die Idee „Expected Goals“ zu erfinden?

Wir haben 2013 jemanden eingestellt, der sich nur damit beschäftigt hat. Er musste nichts erheben und nichts verkaufen, sondern sollte nur die bisherigen Statistiken weiterdenken. Als er dann Expected Goals2 entwickelt hat, haben wir uns dazu entschlossen, mehr auf solche Innovationen zu setzen. Der gute Mann ist Sam Green, der inzwischen aber von Vereinsseite abgeworben wurde.

Gab es seitdem auch Statistiken, die nicht funktioniert haben?

Vor einigen Jahren haben wir die Statistik „Werder verliert immer, wenn sie mehr Ballbesitz haben“ verbreitet. In Wirklichkeit war es aber ein Henne-Ei Problem. Grundsätzlich hast du mehr Ballbesitz, wenn du zurück liegst, weil sich der Gegner hinten reinstellt. In Wirklichkeit hast du dann zu dem Zeitpunkt aber ja schon “praktisch verloren”. Sowas passiert immer wieder, aber daraus muss man lernen. Ich sage auch nicht, dass alle Sachen, die im Moment verbreitet werden, perfekt sind. Auch Expected Goals wird deutlich überarbeitet werden, wenn wir verlässliche Positionsdaten haben und einbauen.

Weg von Passquoten

Und wenn sie funktionieren, welche Vorteile bieten Advanced Stats im Vergleich zu Standarddaten?

Die Basisdaten wie Ballbesitz und Passgenauigkeit beschreiben vieles schon sehr genau, aber Advanced Stats bieten eine genauere Prognosemöglichkeit: Weil sie die genaue Situation in Betracht ziehen, kann man das auf zukünftige, vergleichbare Situationen projizieren. Daher glaube ich, dass es in Zukunft komplett weggeht von den simplen Statistiken wie Passquoten und gelaufenen Kilometern. Die Daten haben nämlich ohne die richtige Relation nur eine geringe Aussagekraft. Sport ist so komplex und verändert sich je nach Ausgangslage, Zwischenstand und der aktuellen Spielsituation.

Ganz persönlich: Was ist Ihre Lieblingsstatistik?

Expected Goals waren im Fußball der erste große Schritt in die Richtung von Advanced Stats und die Statistik hat eine sehr große Aussagekraft. Mit ihr kann man viel abbilden: Beispielsweise hat Deutschland in der Gruppenphase der WM 2018 mit Abstand die meisten Torschüsse abgegeben – 72 – was aber offensichtlich nichts über Erfolg aussagt. Zwar hätten sie nach Expected Goals auch etwa sechs Tore machen müssen und haben nur drei geschossen, aber es bietet einen größeren Blick hinter die Kulissen, als die “leeren” 72 Schüsse. Insgesamt sucht man natürlich nach der perfekten Statistik, die allein betrachtet den Aspekt Erfolg angibt. Die Blaupause „Wenn du das richtig machst, dann gewinnst du“, gibt es leider nicht, weshalb ich auf die Frage mit Expected Goals antworten würde.

Bedeutung für Verletzungsprophylaxe

Wohin geht der Weg der Advanced Stats? Wird das Feld irgendwann ausgereizt sein?

Irgendwann vielleicht, aber momentan noch lange nicht. Vor allem die Vereine können Daten besser in ihr Training einbauen. In eine Virtual-Reality-Situation geworfen zu werden und dort bestimmte Spielszenen nacherleben zu können, wäre ein ungemeiner Mehrwert. Gerade, um dort auch verschiedene Positionen und Perspektiven einzunehmen und ein besseres Verständnis für das Spiel zu erhalten. Aber auch während des laufenden Spiels kann man noch vieles herausholen. Es wird wahrscheinlich darauf hinauslaufen, Abläufe und Spielsysteme, sogenannte “patterns of play”, herauszuarbeiten. Die letzten drei Spiele des kommenden Gegners gucken kann jeder. Aber zu wissen, welche Spielanlage die Gegner verfolgen, wenn sie in den ersten zehn Minuten ein Gegentor kassieren und zügig einen passenden Datensatz zu finden, wäre dann ein großer Fortschritt.

In der Verletzungsprophylaxe wird sich auch einiges tun. Man könnte beispielsweise für jeden Spieler eine Art Belastungsindex erstellen und mit Hilfe von Livedaten abschätzen, wann man ihn auswechseln sollte, um eine Muskelverletzung oder einen Leistungsabfall zu verhindern. Ich kann mir vorstellen, dass in ein paar Jahren die ersten Vereine richtige Datenfreaks als Co-Trainer einstellen, die dann auch Entscheidungen treffen. Das letzte Feld für die Vereine ist dann das Scouting: Auch hier werden in Zukunft mehr und mehr Statistik-Experten das Sagen haben. Ob ich die ganze Welt oder nur eine kleine Region Deutschlands beobachte: Ich kann nicht alle Spiele und alle Spieler sehen, sondern nur wenige Male. Und vielleicht hatten sie genau da ihre „Sahnetage“. Statistiken könnten da helfen, Märkte vorzusortieren und zu scannen.

Show 2 footnotes
  1. Die Packing-Statistik hat Spieler auf allen Positionen im Blick. Sie erfasst, wie viele Gegner, die sich zwischen dem ballführenden Angreifer und dem gegnerischen Tor befinden, mit einem Pass oder Dribbling überspielt werden. Zusätzlich wird erfasst, wie viele Verteidiger mit einem Pass oder Dribbling überspielt werden, hierfür wird ein weiterer Wert (der Impact-Wert) berechnet.
  2. Diese Statistik lässt sich vor allem auf die Offensive anwenden. Sie versucht nämlich die Frage zu beantworten, wie viele Tore ein Spieler oder Team angesichts der Positionen, von denen aus geschossen wurde, hätte schießen müssen, wenn die Bälle mit durchschnittlicher Wahrscheinlichkeit verwandelt worden wären. Für die Errechnung der zu erwartenden Tore (xG) wird auf Spieldaten von vergangenen Partien zurückgegriffen. Opta hat 300.000 Schüsse analysiert.