FGSV-Nr. FGSV 002/140
Ort Stuttgart
Datum 13.03.2024
Titel Predictive Analytics im Controlling des ÖPNV
Autoren Prof. Dr. Thomas Winter, Laura Schweizer, Albert Schrade, Prof. Dr. Robert Knappe, Prof. Dr. Nicola Winter, Sandra Spiegelberg, Richard Hasenfelder, Nicki Lena Kämpf
Kategorien HEUREKA
Einleitung

Methoden des Predictive Analytics und eine geeignete Modellierung von Einflussfaktoren ermöglichen es, genauere Prognosen des Ertrags und der Fahrscheinverkäufe im ÖPNV zu erhalten, die Effekte von Tarifänderungen wie das 9-Euro-Ticket und Einschränkungen der Mobilität während der Covid-19-Pandemie berücksichtigen. Im Zuge der fortschreitenden Digitalisierung finden diese Methoden Anwendung im Controlling in Verkehrsunternehmen des ÖPNV. Wir präsentieren die Ergebnisse zweier Fallstudien, der Berliner Verkehrsbetriebe (BVG) und der Stuttgarter Straßenbahnen (SSB), die im Rahmen des Forschungsprojekts ReComTrans mit Hilfe eines neuen open-source Prognosetools erzielt wurden.

PDF
Volltext

Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1 Einleitung und Motivation

Aufgrund der geplanten und teilweise bereits eingeleiteten Mobilitätswende und der damit einhergehenden Änderung der Ticketstruktur durch die Einführung des Deutschlandtickets ergeben sich einerseits für den ÖPNV neue Herausforderungen. Durch die zunehmende Digitalisierung und der Verfügbarkeit einer breiteren Datenbasis bieten sich andererseits auch neue Chancen für die Planung und Steuerung des ÖPNV. Dieser Beitrag fokussiert sich auf die Nutzung neuer und etablierter Methoden des Predictive Analytics für das Controlling im ÖPNV am Beispiel zur Prognoseverbesserung von Ticketverkäufen und Erträgen und sich den daraus ergebenden Möglichkeiten zur Professionalisierung des Controllings.

In den vergangenen Jahren ergaben sich im ÖPNV neue Situationen durch unerwartete kurzfristige Änderungen des Angebots, der Nachfrage und der Preisstruktur. Das Angebot wurde durch verstärktes Bewerben von Abonnements erweitert. Die Nachfrage wurde durch politische Maßnahmen kostenlose und verbilligte Tickets sowie massiv durch unerwartete Schocks, wie die Einflüsse der Lockdowns während der Corona-Pandemie, beeinflusst und zumindest temporär verändert. Die Preisstruktur wurde durch Einführung von kostenlosen oder verbilligten Fahrscheinen für spezielle Nutzergruppen (Schülertickets oder Sozialtickets) sowie durch die flächendeckende temporäre Einführung des 9-Euro-Tickets und durch Nachfolgemodelle wie das 29-Euro-Ticket in Berlin sowie ab Mai 2023 durch das Deutschlandticket stark verändert. Dadurch ergeben sich im Controlling neue Herausforderungen zur prognosebasierten Planung und Steuerung.

Parallel bieten neuere und etablierte Prognosemethoden im Gebiet des Predictive Analytics neue Chancen, externe Einflüsse besser in die Prognoseerstellung zu integrieren. Der Einfluss externer Faktoren, wie Bevölkerungswachstum, Tourismus oder Änderung der Mobilität lässt sich durch moderne Methoden des Predictive Analytics und des maschinellen Lernens besser erfassen, modellieren und sinnvoll berücksichtigen. Das Ziel ist dabei eine Erleichterung und Verbesserung des Controlling-Prozesses durch Tool-Unterstützung auf Basis der Methoden des Predictive Analytics.

Wir präsentieren die Ergebnisse des Projekts ReComMeND zur Verbesserung der Ertragsprognose im ÖPNV am Beispiel der Berliner Verkehrsbetriebe (BVG) und erste Ergebnisse des daran anschließende Forschungstransferprojekts in Zusammenarbeit mit der BVG, den Stuttgarter Straßenbahnen (SSB), dem internationalen Controllerverein (ICV) sowie den Lufthansa-Tochtergesellschaften Lufthansa Systems und Lufthansa Industry Solutions. Der Fokus liegt dabei auf den Jahren 2019, 2021 und 2022.

2 Ertragscontrolling bei den ÖPNV-Praxispartnern BVG und SSB

Die Planung der Fahrgelderträge erfolgte bisher bei den Praxispartnern auf Basis einer Fortschreibung der Vorjahreswerte, die um bekannte und geschätzte Effekte aus Preisanpassungen (Tarifsteigerungen) und Mengenveränderungen ergänzt wird. Die Tarifsteigerung ergibt sich als extern vorgegebenes Resultat aus dem jeweiligen Verkehrsverbund. In einem standardisierten Verfahren wird hierbei aus den Kostensteigerungen der beteiligten Verkehrsunternehmen die Steigerungsrate bestimmt und abschließend politisch legitimiert. Die Mengenveränderungen hingegen beruhen auf Experteneinschätzungen, wobei auch in der Vergangenheit Umweltentwicklungen heuristisch berücksichtigt wurden. Die Schwierigkeit liegt hierbei vor allem in der Einschätzung von disruptiven Marktdynamiken (bspw. Schocks wie Streike, Pandemie) sowie Wirkungszusammenhängen (Elastizitäten) zwischen externen Einflüssen und den Fahrgelderträgen. Das Mengengerüst weist eine schwer vorhersehbare Volatilität auf, die sich aus verschiedenen interdependenten Faktoren ergibt und zudem noch einer Saisonalität unterliegt. Wenngleich sich die Fahrgelderträge in der Zeit vor der Coronapandemie auf aggregierter Jahresbasis relativ konstant entwickelt haben, traten ab 2020 durch die Pandemie und völlig neue Tickettypen (z. B. Deutschlandticket) gravierende Herausforderungen im Ertragscontrolling bei Prognosen (Forecast des V-Ist) auf.

So entstand bei beiden ÖPNV-Praxispartnern der Wunsch, ein Prognosemodell zu entwickeln und somit den Ansatz von Predictive Analytics mittels einer zu programmierenden Software (Prognosetool) in die Unternehmenspraxis zu implementieren. Die wichtigsten Zielsetzungen lauten dabei eine Verbesserung der Prognosegenauigkeit, eine Erhöhung der Prognosegeschwindigkeit, eine Flexibilisierung der berechenbaren kurz- und mittelfristigen Prognoseszenarien und die statistisch fundierte Berücksichtigung von Wirkungszusammenhängen anstelle von Heuristiken.

Somit fügt sich der Projektgegenstand in die viel zitierte strategische Entwicklungsrichtung der Digitalisierung des Controllings (siehe z. B. Knappe et al. (2021), [1] und Nobach et al. (2020), [2]) nahtlos ein. Technologien der Advanced Analytics, unter die Predictive Analytics subsummiert werden kann, sollen softwaregestützt bspw. durch Maschine Learning für rationale unternehmerische Planungs- und Steuerungsgrundlagen sorgen (Fuchs et al. (2022), [3]). Dazu ist eine Erweiterung bzw. Stärkung der Business Intelligence-Kompetenzprofile des jeweiligen Unternehmenscontrollings hin zu Data Science und Programmierfähigkeiten erforderlich (Langmann (2019), S. 42-48, [4]).

3 Die Datengrundlage

Wir betrachten im Folgenden Verkaufszahlen und Ertragszahlen aus den Fahrscheinverkäufen der verschiedenen Produkte im ÖPNV für die Jahre 2005/2012 bis 2022. Im Verkehrsverbund Berlin-Brandenburg und bei der BVG gibt es über diesen Zeitraum hinweg ca. 100 verschiedene Produkte (Einzelfahrscheine, Zeitkarten und Abonnements), die in die in Tabelle 1 gelisteten Produktgruppen gruppiert wurden.

Tabelle 1: Übersicht über die Produktgruppen und deren Anteil am Gesamtertrag bei der BVG im Jahr 2022 (für 2019 siehe Krembsler et al. (2023), [5])

Bei der SSB dienen als Basis die Verkaufszahlen aus den Fahrscheinverkäufen der verschiedenen Produktgruppen für die Jahre 2010 bis 2022. Im Verkehrsverbund Stuttgart gibt es im genannten Zeitraum knapp 500 einzelne Produkte (inkl. einzelnen Preisstufen je Produkt), die für die Prognose in folgende Produktgruppen eingeteilt werden.

Tabelle 2: Übersicht über die Produktgruppen und deren Anteil am Gesamtertrag in Stuttgart im Jahr 2022

Basis für die Datenanalyse und eine Gruppierung der Produkte ist eine Datenaufbereitung und -bereinigung. Die Daten stammen in der Regel aus unterschiedlichen Quellen und können Lücken, Umbuchungen und Nachbuchungen enthalten. Die Verkaufs- und Ertragsdaten werden täglich erhoben, jedoch monatlich aufsummiert. Die weitere Datenanalyse und die Prognose basieren auf monatlichen Daten. Datenlücken können anhand der historischen Daten skriptbasiert interpoliert werden. Hierbei ist eine manuelle Nachkontrolle sinnvoll.

Die externen Daten werden im Prognoseprozess als exogene Variablen betrachtet, die dazu dienen sollen, die Prognosequalität aufgrund der Erfassung externer Einflüsse zu verbessern. Als exogene Variablen werden betrachtet: Bevölkerungsdaten, Anzahl der touristischen Übernachtungen, Wetterdaten, Mobilitätsdaten aus dem Mobilfunk, spezielle Trends von Google-Suchen (Google Trends), kalendarische Daten (Monate, Feiertage, Ferien), Arbeitsmarktdaten, Kraftstoffpreise, KFZ-Bestand, Veranstaltungen (Weihnachtsmarkt, Frühlingsfest, Volksfest (Wasen)), Einführung von neuen Produkten, Tarifzonenreform und ticketbezogene Marketingaktionen.

4 Die Grundarchitektur der Prognose bei den ÖPNV-Praxispartnern BVG und SSB

Ausgangspunkt ist eine auf Monatsbasis rollierende Prognose (Forecast) der Fahrgelderträge jeweils zum voraussichtlichen Ist bis zum Abschluss des jeweiligen Geschäftsjahrs. Die Anzahl der zu prognostizierenden Perioden nimmt somit kontinuierlich im Verlauf eines Geschäftsjahres ab. Die prognostizierten Werte werden im Berichtswesen vom Controlling den historisch vorgegebenen feststehenden Planwerten gegenübergestellt und einer Abweichungsanalyse unterzogen. Auch hierfür ist ein besseres quantitatives und qualitatives Verständnis der Wirkungszusammenhänge förderlich.

Die SSB hat sich dazu entschieden, mithilfe des Prognosetools verbundweite Stückzahlen zu prognostizieren. Der Vorteil gegenüber der Prognose von Erträgen wird darin gesehen, dass der interne, gut planbare Treiber Tariferhöhung ausgeklammert werden kann. Dadurch kann der Fokus der Prognose auf den Einfluss der externen Treiber und auf die Mengensteigerung gerichtet werden. Im Nachgang zur Prognose der Stückzahlen mithilfe des Prognosetools erfolgt dann eine manuelle Berechnung der Erlöse, indem die Stückzahlen mit Preisen bewertet werden (inkl. Berücksichtigung von Tariferhöhungen). Außerdem erfolgt in einem zweiten Schritt eine Berechnung der Wirkung der Einnahmeaufteilung im Verbund, um die Erlöse und letztlich Erträge für die SSB zu ermitteln.

Die BVG beschreitet einen methodisch anderen Weg: Auf Basis von Produktgruppen werden direkt Erträge prognostiziert, kein Mengengerüst. Das nachgelagerte Ausmultiplizieren mit Preisen entfällt. Ein Preis je Produktgruppe ist als Treiber gut zu ermitteln und trägt zur Erklärung von Wanderungsbewegungen (Substitutionseffekte) im Sortiment bei. Zudem entfallen potenzielle Abgrenzungsproblematiken zwischen dem Mengengerüst bei den Erlösen und der eigentlichen Zielgröße des Fahrgeldertrags.

Beiden skizzierten unternehmensspezifischen Ansätzen ist gemein, dass externe Treiber zur Prognoseverbesserung und Abbildung von externen Einflüssen (demografisch, politisch, strukturell) identifiziert und datentechnisch abgebildet werden müssen. Ebenso spielt die Fragestellung der Prognose der externen Treiber selbst eine erhebliche Rolle für die Treffsicherheit der Ertragsprognose.

5 Ein kurzer Überblick über die Prognoseverfahren

Als Prognoseverfahren werden in der Praxis verschiedenartige Verfahren unterschiedlicher Komplexität betrachtet und angewandt. Einfache, naive Verfahren basieren auf Mittelwerten oder den letzten Beobachtungen. Für genauere und verlässliche Prognosen ist es jedoch angebracht, beispielsweise Verfahren aus der Zeitreihenanalyse zu betrachten, die in der Lage sind, Trends und Saisonalitäten zu modellieren. Für die Anwendung der Prognose im Controlling betrachten wir das Verfahren der exponentiellen Glättung nach Holt-Winters (siehe Holt (1957, 2004) [2], [3] und Winters (1960), [4]) und (S)ARIMA-Modelle (siehe z. B. Hyndman et al. (2021), [5] und Brockwell und Davis (2009), [6]). Diese Verfahren sind jedoch nicht in der Lage, exogene Einflüsse und insbesondere sich ändernde exogene Einflüsse zu erfassen. Sie eignen sich daher eher für stabile Prognoseszenarien. Exogene Einflüsse lassen sich mit Hilfe von Regressionsverfahren, wie multilinearer Regression und Varianten (wie Lasso (siehe Tibshirani (1996), [7]) und Ridge (siehe Hilt und Seegrist (1977), [8]) sowie von erweiterten Zeitreihenmodellen wie SARIMAX-Modellen (siehe Korstanje (2021), [9]) betrachten und liefern somit eine signifikante Verbesserung der Prognose. Zudem können Ansätze basierend auf neuronalen Netzen, wie z. B. LSTM-Netzen (siehe Hochreiter und Schmidhuber (1997), [10]), gute Prognoseergebnisse erreichen. Für die Akzeptanz der Prognosen durch die Adressaten des Controllings ist allerdings der Aspekt der Erklärbarkeit der Prognoseergebnisse wichtig.

5.1 Modellbildung und Gütekriterien

Die Modellbildung basiert auf dem Trainieren und Optimieren der Modellwahl und Parametrisierung der Modelle auf einem definierten Zeitraum und der Evaluation der optimierten Modelle auf einem Testzeitraum. Als Optimierungskriterium betrachten wir bei Zeitreihenmodellen den Maximum-Likelihood-Schätzer basierend auf dem Akaike-Informations-Kriterium (AIC) oder bei Regressionsmodellen dem Kleinste-Quadrate-Schätzer.

Die optimierte Modellschätzung wird dabei mittlerweile durch viele Statistiktools (wie R und Python-basierte Implementierungen) für die klassischen Zeitreihenmodelle direkt unterstützt.

Für die Modelle, die zudem exogene Variablen benutzen, erfolgt die Auswahl der geeigneten exogenen Variablen durch eine Vorabauswahl und -optimierung.

Als Trainingszeitraum betrachten wir die Jahre ab 2012 für Berlin und 2010 für Stuttgart jeweils bis zu dem Jahr, welches vor dem Prognosezeitraum liegt. Die Bewertung der Prognose erfolgt dann anhand des Jahres direkt vor dem Beginn Prognosezeitraums mittels abgestimmter Gütekriterien. Als Gütekriterien kommen dabei der mittlere absolute Fehler (MAE), der mittlere quadratische Fehler (MSE), dessen Wurzel (RMSE) sowie der mittlere prozentuale Fehler (MAPE) in Frage. Im Projekt haben wir uns in Absprache mit den Projektpartnern für den MAPE als Gütekriterium entschieden, da dieser eine skalenunabhängige Vergleichbarkeit zwischen den Prognosen erlaubt. Als Alternative kann auch der symmetrische MAPE (SMAPE) genutzt werden. Für weitere Details zur Definition dieser Gütekriterien verweisen wir auf Hyndman et al. (2021), [5].

6 Ergebnisse

Basierend auf den Ergebnissen für das Prognosejahr 2019 für die Ertragsprognose in Berlin (siehe Krembsler et al. (2019), [1]), die eine sehr gute Ertragsschätzung zeigten, folgte im Jahr 2020 die Erkenntnis, dass durch starke, zum Teil unvorhersehbare externe Einflüsse, wie der Corona-Pandemie und den damit einhergehenden Lockdowns und stark eingeschränkten Mobilität, weitere beschreibende externe Einflussfaktoren notwendig sind, um die einbrechende Prognosequalität wieder auf ein akzeptables Niveau zu heben. Die genauesten Prognosen konnten erzielt werden, wenn als exogene Variable für die Corona-Pandemie die Mobilitätsdaten von Mobilfunknetzanbietern genutzt wurden (siehe Bohnensteffen et.al. (2021), [15]). Diese Mobilitätsdaten haben, im Gegensatz zum R-Wert oder Inzidenzen, einen plausiblen Zusammenhang zur Nutzung des ÖPNV.

Darüber hinaus ergaben sich in 2022 durch politische Einflüsse auf die Tarifstruktur, wie dem bundesweiten 9-Euro-Ticket und dem 29-Euro-Ticket in Berlin, weitere Einflüsse, die modelliert werden müssen. Gleiches gilt für das seit Mai 2023 verfügbare Deutschlandticket und die Umstellung des Scool-Abos bei der SSB, welches in den Jahren zuvor im September für zwei Monate genutzt werden konnte. Von der Einführung des 9-Euro-Tickets war ein enormer Einfluss auf die Ticketverkäufe zu erwarten. Ähnlich große Auswirkungen konnten in den meisten Produktgruppen lediglich während der Corona-Pandemie beobachtet werden. Die Modellierung des (positiven) Einflusses des 9-Euro-Tickets auf die Mobilität erfolgt insofern analog zur Reduktion der Mobilität während der Corona-Pandemie.

Mit Hilfe dieser Logik lassen sich nicht nur zurückliegende Schocks modellieren, sondern auch zukünftige Schocks abschätzen. So können die Effekte des Deutschladtickets ab Mai 2023 mit Hilfe des 9-Euro-Tickets abgeschätzt werden. Neben der reinen Prognosegüte ist dabei ein weiteres Ziel, gute und verlässliche Methoden und Modelle unter Berücksichtigung externer Einflussfaktoren zu finden, die als Empfehlung für die Controllingpraxis im Zuge der weiteren Digitalisierung des Controllings im ÖPNV dienen können.

Im Folgenden betrachten wir Prognosen für die Jahre 2021 und 2022. Die wesentlichen zu modellierenden Effekten sind dabei die Corona-Pandemie (2021) und das 9-Euro-Ticket (2022). Zum Vergleich mit einem schockfreien Geschäftsjahr sind die Ergebnisse für das Jahr 2019 dargestellt. Ausgangspunkt für die Prognosen ist daher das Jahr 2019.

6.1 Ergebnisse BVG

Als zu prognostizierende Variable betrachten wir den Gesamtertrag sowie den Ertrag aus den Produktgruppen Abonnements, Einzelfahrscheine und Monatskarten. Für 2019 zeigt sich, dass die klassischen Modelle wie SARIMA und die exponentielle Glättung nach Holt-Winters sehr gute Ergebnisse erzielen, während die Regressionsmodelle nach Auswahl der exogenen Variablen Schwierigkeiten haben, dieselbe Prognosegüte zu erzielen (siehe Bild 1 und Tabelle 3).

Tabelle 3 gibt einen Überblick über die Prognosegüte der einzelnen Modelle und Methoden. Der MAPE wird dabei auf monatlicher Basis und auf den Jahresertrag angegeben. Der Hauptfokus des Controllings liegt auf dem Jahresertrag. Monatliche Schwankungen werden hierbei ausgeglichen. Zur Modellwahl stellt aber der monatlich gemittelte MAPE ein weiteres gutes Kriterium dar. Zu beobachten ist, dass alle Methoden gute bis sehr gute Ergebnisse mit einem MAPE zwischen 0,5 und 5,5% auf monatlicher Basis und zwischen 0,1 und 5,5% auf Jahresbasis erzielen. Es zeigt sich, dass das SARIMA-Modell, das SARIMAX-Modell und die exponentielle Glättung nach Holt-Winters die besten Ergebnisse erzielen.

Bild 1: Überblick der Prognoseergebnisse für die Erträge im Jahr 2019 für Abonnements (links oben), Einzelfahrscheine (rechts oben), den Gesamtertrag (links unten) und Monatskarten (rechts unten)

Tabelle 3: Übersicht über den Prognosefehler nach Modelloptimierung von 2019 im Vergleich der Modelle und Methoden.

Für das Prognosejahr 2021 zeigt sich ein anderes Bild (siehe Bild 2): Bei den Abonnements kann keine der Methoden das Zusammenwirken des starken Trends und des Effekts der Corona-Pandemie vollständig korrekt abbilden. In den anderen Produktgruppen sehen wir, dass die Regressionsmethoden und SARIMAX das generelle Verhalten richtig abbilden, jedoch den starken Einfluss der exogenen Effekte in einigen Monaten signifikant unter- oder überschätzen.

Bild 2: Überblick der Prognoseergebnisse für die Erträge im Jahr 2021 für Abonnements (links oben), Einzelfahrscheine (rechts oben), den Gesamtertrag (links unten) und Monatskarten (rechts unten)

Tabelle 4: Übersicht über den Prognosefehler nach Modelloptimierung von 2021 im Vergleich der Modelle und Methoden.

Im Jahr 2022 stellt sich von Juni bis August die Herausforderung des 9-Euro-Tickets. Es zeigt sich, dass die Erträge bei allen Produkten stark einbrechen. Spätere Ausgleichs-zahlungen durch den Berliner Senat sind dabei nicht berücksichtigt. Der Effekt des 9-Euro-Tickets lässt sich jedoch gut durch eine exogene Variable modellieren. Je nach Ticketgruppe kann der 9-Euro-Ticket-Schock analog zur Corona-Pandemie oder dem Schock der Einführung eines kostenlosen Schülertickets abgebildet werden. Diese liegen bereits in den historischen Daten vor und können somit als Referenz dienen.

Bild 3: Überblick der Prognoseergebnisse für die Erträge im Jahr 2022 für Abonnements (links oben), Einzelfahrscheine (rechts oben), den Gesamtertrag (links unten) und Monatskarten (rechts unten)

Zusätzlich zum visuellen Eindruck der Prognoseergebnisse zeigt sich an den erreichten MAPE-Werten, dass die Lasso-Regression und die SARIMAX-Methoden am besten geeignet sind, die außergewöhnlichen Effekte in 2022 nach dem Ende der Pandemie und der kurzfristigen und kurzzeitigen Einführung des 9-Euro-Tickets zu modellieren. Die SARIMA-Methode ist nur scheinbar gut, da sich hier die Fehler über das Jahr gesehen ausmitteln.

Tabelle 5: Übersicht über den Prognosefehler nach Modelloptimierung von 2022 im Vergleich der Modelle und Methoden.

6.2 Ergebnisse SSB

Das Controlling und die Prognose bei den Stuttgarter Straßenbahnen (SSB) beruht im Gegensatz zur BVG auf dem Mengengerüst des Verkaufs. Im Fokus dieser Fallstudie stehen dabei die folgenden Produkte: Abonnements, Einzelfahrscheine, Zeitkarten für den Ausbildungsverkehr und Monatskarten. Sofern keine Daten für exogene Variablen vorliegen, müssen diese selbst gebildet werden. Dies ist vor allem bei den internen Einflussfaktoren der SSB der Fall gewesen, wie der Tarifzonenreform, der Home-Office-Rate, dem ÖPNV-Anteil an allen Wegen und ticketbasierten Marketingstrategien. Einige dieser Einflüsse wurden in einer gemeinsamen Schockvariable modelliert.

Für die Prognosegüte in 2019 zeigt sich analog zur Fallstudie in Berlin ein gutes bis sehr gutes Bild. Der MAPE liegt zwischen 0 und 6,5%. Es gibt keine Methode, die global am besten prognostiziert. Allerdings zeigen die beiden Regressionsmethoden MLR und Lasso ein annährend gleich gutes Verhalten, genauso wie die SARIMAX-Methode.

Bild 4: Überblick der Prognoseergebnisse für die Erträge im Jahr 2019 für Abonnements (links oben), Einzelfahrscheine (rechts oben), den Ausbildungsverkehr (links unten) und Monatskarten (rechts

Tabelle 6: Übersicht über den Prognosefehler nach Modelloptimierung von 2019 im Vergleich der Modelle und Methoden.

Für das Jahr 2021 zeigt sich bei den Abonnements auch in Stuttgart ein Abwärtstrend, der am besten von der exponentiellen Glättung nach Holt-Winters erfasst wird. Neben der Holt-Winters-Methode zeigen wiederum die Regressionsmethoden und die SARIMAX-Methoden gute bis sehr gute Ergebnisse.

Bild 5: Überblick der Prognoseergebnisse für die Erträge im Jahr 2021 für Abonnements (links oben), Einzelfahrscheine (rechts oben), den Ausbildungsverkehr (links unten) und Monatskarten (rechts unten)

Tabelle 7: Übersicht über den Prognosefehler nach Modelloptimierung von 2021 im Vergleich der Modelle und Methoden.

Im Jahr 2022 zeigt sich bei den Einzelfahrscheinen ein klarer Einbruch in den Verkaufszahlen in den Monaten Juni bis August durch die Einführung des 9-Euro-Tickets. Diese werden in den Verkaufszahlen bei den Monatskarten erfasst. Wiederum gelingt es, den Regressionsmethoden und der SARIMAX-Methode diesen Effekt sehr gut zu erfassen, indem die externen Einflüsse mit Hilfe von Mobilitätsdaten, dem darauf basierend modellierten Einfluss des 9-Euro-Tickets, den Kraftstoffindex, Ferien- und Feiertage, Veranstaltungen, einem Anteil des ÖV an allen Wegen, der Anzahl an Erwerbstätigen in Stuttgart und den Landkreisen sowie ticketbezogene Marketingaktionen berücksichtigt werden. Die Holt-Winters-Methode wiederum funktioniert bei den Ticketgruppen Abonnements und Ausbildungsverkehr sehr gut, da das 9-Euro-Ticket keinen Einfluss auf die Verkaufszahlen in diesen Gruppen hatte, da diese Tickets in dem Zeitraum ebenso nur 9 € kosteten.

Bild 6: Überblick der Prognoseergebnisse für die Erträge im Jahr 2022 für Abonnements (links oben), Einzelfahrscheine (rechts oben), den Ausbildungsverkehr (links unten) und Monatskarten (rechts unten)

Tabelle 8: Übersicht über den Prognosefehler nach Modelloptimierung von 2022 im Vergleich der Modelle und Methoden.

6.3 Vergleich der Ergebnisse

Vergleicht man die Ergebnisse für die beiden Verkehrsunternehmen, so zeigt sich, dass die Auswirkungen des 9-Euro-Tickets sehr unterschiedlich sind. In Berlin führt die Preisreduktion zu einem Einbrechen der Erträge. Nachgelagerte Ausgleichszahlungen sind hierbei nicht berücksichtigt. Vielmehr ermöglicht die Prognose eine gute Abschätzung der notwendigen Ausgleichszahlungen. In Stuttgart gibt es keine großen Auswirkungen bei den Abonnements, da deren Anzahl im Wesentlichen unverändert bleibt. Die Preisreduktion wird hier nicht berücksichtigt.

Zudem ist zu beobachten, dass bei SSB ein in Teilen stärkerer Einfluss externer Faktoren zu beobachten ist. Die Zahlen der BVG erweisen sich aufgrund des größeren Volumens stetiger, mit der Ausnahme des Einflusses der Corona-Pandemie. Bei SSB lassen sich die Auswirkungen von Kampagnen und Tarifmaßnahmen deutlicher erkennen als bei der BVG. Bei SSB erfolgt die Segmentierung zumeist nach Nutzergruppen, bei der BVG eher nach Tickettypen. Hierbei zeigt sich, dass für die Modellierung der externen Effekte unterschiedliche Treiber relevant sind. Einzelne externe Effekte können u. U. nicht sauber getrennt werden, weil sie nur bestimmte Nutzergruppen oder bestimmtes Nutzungsverhalten betreffen. Die möglichst gute Modellierung der externen Einflussfaktoren spielt daher eine große Rolle für die Prognosegüte.

Hinsichtlich der Eignung der Prognosemethoden zeigt sich übergreifend, dass die Regressionsmethoden MLR und Lasso sowie das zeitreihenbasierte SARIMAX-Modell in den meisten Fällen die besten Ergebnisse erzielen und daher geeignete Kandidaten für den Einsatz im Predictive Analytics im Controlling sind.

7 Ein Open-Source-Prototyp für das Controlling im ÖPNV

Im Rahmen der Fallstudien und des zugehörigen Transferprojekts ist ein Open-Source-Prognosetool basierend auf Python, Plotly/Dash und zur Verfügung stehenden Statistikpaketen entstanden. Das Prognosetool ermöglicht es, eigene Daten (Produktdaten und exogene Variable) als Excel- oder csv-Dateien einfach zu importieren.

Das Prognosetool ist in sechs Seiten aufgebaut (vgl. linker Sidebar in Abbildung 7): Uploader, Voreinstellungen, Produktauswahl, Treiberauswahl (Wahl der exogenen Variablen), Methodenauswahl und Zusammenfassung. Als Voreinstellungen können u. a. der Trainingszeitraum, Prognosezeitraum und -länge, sowie die Einheit der Prognosewerte festgelegt werden.

Bild 7: Seite der Methodenauswahl des Prognosetools mit tabellarischer und grafischer Anzeige der Ergebnisse

Die Seiten Produkt- und Treiberauswahl ermöglichen die Auswahl des zu prognostizierenden Produktes und der exogenen Größen zur Unterstützung der Prognose. Für alle ausgewählten Größen wird der zeitliche Verlauf graphisch dargestellt. Zusätzlich ist es möglich, verschiedene Variablen visuell zu vergleichen. Es werden zusätzliche Informationen zur Analyse der Daten angezeigt, darunter Trend- und Saisonalitätsdetektion, Ausreißererkennung sowie Korrelationen.

Anschließend erfolgt auf der Hauptseite des Prognosetools die Methodenauswahl (vgl. Kapitel 6). Zudem kann eine Szenarioberechnung durch eine Anpassung der Treiber für den Prognosezeitraum durchgeführt werden. Die manuelle Eingabe einer (Experten-)Prognose ist ebenfalls möglich. Nachdem alle Methoden ihre Prognosen berechnet haben, werden die Ergebnisse graphisch und tabellarisch angezeigt (s. Abbildung 7). Zur Bewertung der Prognose werden verschiedene Gütekriterien berechnet, die es erlauben den Prognosefehler und die Modellqualität abzuschätzen. Für Methoden mit Treibern wird der Beitrag der jeweiligen Treiber zum Gesamtprognosewert angezeigt (s. Abbildung 8). Dies kann helfen, das Ergebnis, d. h. den Einfluss der Treiber, erklärbar zu machen.

Bild 8: Seite der Methodenauswahl des Prognosetools: Bewertung der Treiber und Parameter

8 Zusammenfassung und Ausblick

Im Rahmen zweier Fallstudien wurde aufgezeigt, wie klassische und moderne Prognosemethoden aus dem Bereich des Predictive Analytics durch geeignete Modellwahl und Modellierung der wesentlichen externen Einflussfaktoren über exogene Variable die Prognosegüte im Controlling des ÖPNV verbessern können. Dies gilt insbesondere unter Berücksichtigung des starken Einflusses unvorhergesehener Einflüsse wie die Corona-Pandemie und starker Änderungen in der Tarif- und Ticketstruktur, welche normalerweise die historische Basis für die Prognose signifikant beeinflussen und verändern.

Als Prognosemethoden haben sich insbesondere die SARIMAX-Methode sowie die Regressionsmethode Lasso als sehr zuverlässig erwiesen. Zudem ist in Ausnahmefällen auch die sich schnell adaptierende Methode der exponentiellen Glättung nach Holt-Winters eine gute Wahl.

Aus Sicht des Controllings bedeutet die Einführung der genannten datenbasierten Prognoseverfahren eine Weiterentwicklung in Richtung der Advanced Analytics. Dies setzt entsprechende fachliche und methodische Kompetenzen sowie eine Data Governance voraus. Die Digitalisierung des Controllings ist ein langfristiger abteilungs- und prozessübergreifender Change-Prozess, der einer professionellen Steuerung bedarf. Das Controlling kann und soll in Unternehmen künftig eine stärkere Rolle als Change Agent und Innovator einnehmen; im gleichen Zug verliert die heute noch dominierende Rolle als Service Provider an Bedeutung (Langmann (2019), S. 46, [4]).

Diese Forschung wurde und wird im Rahmen der Projekte ReComMeND und ReComTrans vom Institut für angewandte Forschung Berlin (IFAF) gefördert. Wir danken dem IFAF Berlin und allen Projektpartnern den Berliner Verkehrsbetrieben, den Stuttgarter Straßenbahnen, dem Internationalen Controllerverein mit der Arbeitsgruppe Berlin-Brandenburg, Lufthansa Systems und Lufthansa Industrie Solutions für die sehr gute und konstruktive Zusammenarbeit im Rahmen der Projekte und dieser Studien.

9 Literaturverzeichnis

  1. R. Knappe, J. Krembsler, S. Spiegelberg, N. K. Kämpf, N. Winter, T. Winter (2021). Erlösprognose mit Predictive Analytics im öffentlichen Personennahverkehr. Controller Magazin 46(4), S. 58-63
  2. K. Nobach, B. Zirkler, J. Hofmann (2020). Implikationen der Digitalisierung für das Controlling. Controller Magazin 45(6), S. 56-62
  3. C. Fuchs, R. Tischler (2022). Predictive Planning and Forecasting on the Rise – Hype or Reality? URL: https://barc.com/de/research/predictive-planning-and-forecasting-on-the- rise-hype-or-reality/ (zuletzt besucht: 19.09.2023)
  4. C. Langmann (2019). Digitalisierung im Controlling. Springer Gabler
  5. J. Krembsler, S. Spiegelberg, N. L. Kämpf, T. Winter, N. Winter, R. Knappe (2023). Fare revenue forecast in public transport: a comparative case study, Available at SSRN: https://ssrn.com/abstract=4405775 or http://dx.doi.org/10.2139/ssrn.4405775
  6. C. C. Holt (1957). Forecasting seasonals and trends by exponentially weighted moving averages. Office of Naval Research (ONR) 52.
  7. C. C. Holt (2004). Forecasting seasonals and trends by exponentially weighted moving averages. International Journal of Forecasting 20(1), S. 5-10. Reprint des Originalartikels von 1957.
  8. P. R. Winters (1960). Forecasting sales by exponentially weighted moving averages. doi:10.1287/mnsc.6.3.324.
  9. R. J. Hyndman, G. Athanasopoulos, (2021). Forecasting: Principles and Practice. Otexts, Melbourne, Australia. URL: https://otexts.com/fpp3/.
  10. R. J. Brockwell, R. A. Davis (2009). Time series: Theory and methods. Springer.
  11. R. Tibshirani (1996). Regression Shrinkage and Selection via the lasso. Journal of the Royal Statistical Society. Series B (methodological), 58(1), S. 267-288
  12. D. E. Hilt, D. W. and Seegrist (1977). Ridge, a computer program for calculating ridge regression estimates. JSDA Forest Service Research Note NE-236.
  13. J. Korstanje (2021). The SARIMAX Model. In: Advanced Forecasting with Python. Apress, Berkeley, CA. https://doi.org/10.1007/978-1-4842-7150-6_8
  14. S. Hochreiter, J. Schmidhuber (1997). Long Short-term Memory. Neural computation. 9. 1735-80.
  15. S. Bohnensteffen, J. Mühlhan, Y. Saidani (2021). Mobilität während der Corona-Pandemie. WISTA - Wirtschaft und Statistik 3/2021, S. 89-105