Scouting ist ein Data-Science-Problem.
Moderne Fußballklubs scouten Spieler aus einer Population von Zehntausenden quer durch Ligen, Altersklassen und Positionen. Das Recruitment-Problem ist im Kern ein Data-Science-Problem: Spieler nach Dimensionen ranken, die On-Pitch-Beitrag tatsächlich vorhersagen, und Kandidaten heraussuchen, die zum Spielstil eines Klubs passen. Meine MSc-Thesis hat getestet, wie Big-Data-Analytics diese Entscheidung unterstützen kann.
Tore und Vorlagen sind nachlaufende Indikatoren, die Stürmer bevorzugen und Off-Ball-Arbeit ignorieren. Coaches wissen das. Die Infrastruktur, um es im großen Maßstab besser zu machen, ist außerhalb der größten Klubs nur langsam angekommen. Meine Thesisfrage: Können wir mit Event-Daten quer durch mehrere Ligen Spieler nach Spielsignatur statt nach Rohleistung ranken und empfehlen?
Was ich mit 500+ Spielern und 100+ Spielen gemacht habe.
Die Daten kamen von Pappalardo et al. (2019), einem öffentlichen Event-Level-Datensatz, der die Saison 2017 bis 2018 in La Liga, Serie A, Premier League, Bundesliga und Ligue 1 abdeckt, plus die WM 2018 und Euro 2016. Ich habe die rohen Events in PySpark verpackt, um das Volumen sauber zu handhaben, und dann KPIs über mehrere Dimensionen entwickelt: Ball Progression, Defensive Contribution, Attacking Threat, Discipline und Off-Ball-Movement-Signale.
Darüber habe ich ein Ranking-Modell gebaut, das die KPIs nach Position und Stilkontext gewichtet, dann eine Recommendation-Schicht, die Spieler mit ähnlicher Stilsignatur zu einem Referenzspieler hervorhebt. Dort liegt der eigentliche Forschungswert. Scouts interessiert weniger, wer der bestbewertete Spieler ist, als welche Spieler die Spielsignatur eines Referenzspielers zu einer für den Klub vertretbaren Ablösesumme abbilden.
Was dabei rauskam.
Eine funktionierende Pipeline, eine veröffentlichte Thesis im Turkish National Thesis Centre und ein öffentliches GitHub-Repo. Die Thesis selbst hat einige bisher unbemerkte Korrelationen zwischen Spieleraktionen und Team-Spielstil gefunden, die ich im Paper im Detail beschreibe.