FGSV-Nr. | FGSV 002/140 |
---|---|
Ort | Stuttgart |
Datum | 13.03.2024 |
Titel | Auslastungsprognosen im ÖPNV: Wie lässt sich die Qualität von Prognoseergebnissen bewerten? |
Autoren | Univ.-Prof. Dr.-Ing. Carsten Sommer, M. Sc. Stefan Saake, Dr. rer. nat. Alina Budnitzki |
Kategorien | HEUREKA |
Einleitung |
KurzfassungDie zuverlässige Prognose der Auslastung von Fahrten im öffentlichen Verkehr kann für Kundinnen und Kunden einen großen Komfortgewinn darstellen und für Unternehmen und Verbünde die Planung erleichtern. Verschiedene Anbieter bieten bereits Prognosemodelle an, andere werden derzeit entwickelt. Um die Güte von Prognosen zu beurteilen, braucht es transparent anwendbare und interpretierbare Kennwerte. Dieser Beitrag stellt unterschiedliche Kennwerte vor und wendet diese beispielhaft auf die Ergebnisse zweier Prognosemodelle an. Zudem wird ein neuer Kennwert (Analytical Balance) eingeführt, der die Relevanz der unterschiedlichen Auslastungsklassen besser in einem Wert abbildet.
|
Volltext | Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.1 EinleitungEin nachhaltiger Verkehrssektor in Deutschland ist auf einen starken öffentlichen Verkehr (ÖV) angewiesen. Der derzeit noch immer vorherrschende Fokus auf den motorisierten Individualverkehr (MIV) erzeugt eine Vielzahl von Problemen: Das dringlichste Problem sind zweifellos die noch immer zu hohen Treibhausgasemissionen. Während andere Sektoren in Deutschland ihre Emissionen bereits senken konnten, ist im Verkehrssektor noch immer keine Trendumkehr hin zu weniger klimaschädlichen Emissionen zu erkennen [1]. Daneben sind vor allem in urbanen Räumen weitere Probleme deutlich sichtbar: Transport- und Verkehrssysteme erreichen regelmäßig ihre Kapazitätsgrenzen, der begrenzte Raum sorgt für Verteilungskonflikte beim Flächenverbrauch zwischen unterschiedlichen Verkehrsmitteln. Verkehrslärm, Luftschadstoffe und Unfälle beeinträchtigen die Gesundheit der Menschen. Zudem setzt die soziale Teilhabe in vielen Fällen den Zugang zu einem privaten Pkw voraus, wodurch bestimmte Personengruppen komplett oder teilweise ausgegrenzt werden (z. B. Kinder, ältere Menschen, Menschen mit körperlichen Beeinträchtigungen) [2]. Ein gutes ÖV-Angebot kann den Transport von vielen Menschen effizient sicherstellen und signifikante Mengen an Treibhausgasemissionen einsparen und somit den aufgezeigten Problemen und Herausforderungen entgegenwirken [3]. Wie also können Menschen überzeugt werden, den ÖV zu nutzen? Zahlreiche Veröffentlichungen weisen auf die Wirksamkeit von Push- und Pull-Maßnahmen hin (z. B. [4]). Während Push-Maßnahmen in der Regel restriktiver Natur sind (beispielsweise Parkraumbewirtschaftung in Innenstädten oder die Sperrung von Bereichen für den MIV), versuchen Pull-Maßnahmen den ÖV für Nutzerinnen und Nutzer attraktiver zu machen. Ein identifiziertes Hemmnis für Personen bei der Nutzung des ÖV sind überfüllte Fahrzeuge und die damit verbundenen Komfortverluste [5]. Ohne einen Sitzplatz ist die Fahrt in Bus oder Straßenbahn für viele Menschen vor allem bei längeren Fahrten nicht akzeptabel [6]. Im Kontext der Covid-19 Pandemie rückte zusätzlich der Gesundheitsaspekt in den Vordergrund. Die Angst vor einer Ansteckung in einem vollen Fahrzeug wurde für Menschen ein zusätzlicher Faktor bei der Verkehrsmittelwahl [7]. Zahlreiche Verkehrsverbünde haben sich vor diesem Hintergrund entschieden, Auslastungsinformationen1) an ihre Fahrgäste weiterzugeben [8]. Auf zumeist digitalen Informationskanälen, wie zum Beispiel Apps, Fahrgastinformationen an Haltestellen oder Websites von Verkehrsverbünden wird die erwartete Auslastung einer Verbindung an den Fahrgast kommuniziert. Dieser Service lässt sich als digitale Pull-Maßnahme einordnen. Aus Sicht der Fahrgäste und der Unternehmen ist es in diesem Zusammenhang natürlich entscheidend, dass zuverlässige Prognoseergebnisse veröffentlicht werden. Die Frage, die sich nun stellt, ist, wie sich Prognoseergebnisse transparent und objektiv bewerten lassen. Aus diesem Grund werden in diesem Beitrag Kennwerte vorgestellt und interpretiert, die zur Bewertung von Prognoseergebnissen genutzt werden können. Es werden Empfehlungen zur Auswahl der Testsets gegeben und auf Besonderheiten der Fahrgastnachfragestruktur hingewiesen, die bei Prüfungen berücksichtigt werden sollten. Ein Teil der vorgestellten Kennwerte wird anschließend zur Prüfung von Ergebnissen zweier Prognosemodelle verwendet. 1) In diesem Beitrag wird der Begriff Auslastung genutzt. In der Literatur werden unterschiedliche Begriffe verwendet. Häufig wird der Begriff Belegung verwendet, was synonym zu verstehen ist. 2 Prognosemodelle und Performance-Kennwerte im öffentlichen VerkehrDie Prognose von Fahrgastauslastungen wird in einer Vielzahl von Veröffentlichungen und Forschungsprojekten thematisiert und weiterentwickelt. Auch bei kommerziellen Anbietern gehören Prognosemodelle mittlerweile zum Angebot (z. B. [9] oder IVU Traffic Technologies). 2.1 PrognosemodelleDie nachfolgend vorgestellten Forschungsarbeiten thematisieren allesamt Prognosemodelle und geben einen Einblick, welche Daten und Methoden Verwendung finden. Die grundsätzliche Konzeption folgt meist einem ähnlichen Muster: Auf Basis von bestimmten Eingangsdaten werden durch Nutzung statistischer Modelle Prognosen berechnet. Die verwendeten Eingangsdaten stellen in der Regel Informationen über die Nachfragestruktur in der Vergangenheit bereit. Die wichtigste Information ist dabei die Belegung, bzw. die Anzahl der Ein- und Aussteiger in einem Fahrzeug. Diese Information kann beispielsweise aus Daten automatischer Fahrgastzählsysteme (AFZS-Daten), von Zähldaten aus Messfahrten oder aus Ticketverkaufsdaten (Automated Fare Collection (AFC) Daten) gewonnen werden [z. B. 10, 11, 12]. Um diesen Nachfragedaten weitere Informationen zur Nachfragestruktur hinzuzufügen, werden Kalenderdaten (z. B. Informationen über Schulferien) und Fahrplandaten hinzugefügt [z. B. 13, 14]. Betriebsdaten aus den Fahrzeugen, wie z. B. Positionsdaten (Automatic Vehicle Location (AVL) Daten) bilden zusätzlich die räumliche Struktur ab [12]. Ein weit verbreitetes Format für räumliches Strukturen ist zudem die General Transit Feed Specification (GTFS). Einige Arbeiten thematisieren zusätzlich die Nutzung von kurzfristig verfügbaren Daten. Hierzu zählen Echtzeit-AFZS-Daten und Echtzeit-Positionsdaten [10]. Je nach Arbeit werden weitere Eingangsdaten genutzt (z. B. Wetterdaten [15]). In den untersuchten Arbeiten werden verschiedene Methoden zur Vorhersage der Auslastung von öffentlichen Verkehrsmitteln verwendet. Dazu gehören: XGBoost-Modelle [15, 16], Gradient-Boosting-Regressionsmodelle [12, 13, 16], Random-Forest-Modelle [11-15], negative binomiale Regressionsmodelle [14], logistische Regressionsmodelle [14] und Modelle mit künstlichen neuronalen Netzen [13, 14]. Der Überblick zeigt, dass die genutzten statistischen Methoden häufig aus dem Bereich des maschinellen Lernens stammen und für die Prognose der Fahrgastauslastung erprobt wurden. Im Rahmen des Forschungsprojektes U-hoch-3 wurden ebenfalls Prognosemodelle zur Fahrgastauslastung entwickelt. Informationen zum Forschungsprojekt und eine ausführliche Erklärung der Funktionsweise der Modelle wurden separat veröffentlicht [17]. Prognoseergebnisse eines Modells aus U-hoch-3 werden später exemplarisch ausgewertet. Wie aufgezeigt, gibt es eine Vielzahl von Prognosemodellen im Bereich des öffentlichen Verkehrs. Der Vergleich zwischen prognostizierten und tatsächlich gezählten Werten bietet dabei die Möglichkeit der kontinuierlichen Verbesserung eines Prognosemodells während der Konzeptionsphase, aber auch nach Einführung im Betrieb. IVU Traffic Technologies führt die Auslastungsprognose als Teil eines Produktes in IVU.suite ein. Langfristig kann ein solches System in der Leitstelle (für einen Dispatcher) und in die Fahrgastinformationskanälen (dynamische FGI in Apps, Webseite) integriert werden. 2.2 Kennwerte zur Bewertung der PrognosequalitätIn diesem Beitrag liegt der Fokus auf der Bewertung der Qualität von Prognosemodellen. Bei diesen Vergleichen werden Performance-Kennwerte genutzt, um die Güte verschiedener Prognosemodelle zu bestimmen und miteinander zu vergleichen. Betrachtet man die in der Literatur verwendeten Kennwerte, muss zunächst unterschieden werden, was der Output eines Modells ist. So wird die Güte von Klassifizierungen mit anderen Kennwerten bewertet als numerische Vorhersagen. Bei numerischen Zielwerten ist der Mean Absolute Error (MAE) ein häufig genutzter Kennwert. Dieser Wert gibt an, wie groß der absolute Fehler der Prognose im Vergleich zum realen Wert im Mittel innerhalb eines Datensatzes ausfällt. Der RMSE (Root Mean Square Error) ist die Standartabweichung der Vorhersagefehler (Residuals) und ebenfalls ein häufig genutzter Kennwert. Der Vorhersagefehler ist dabei ein Maß dafür, wie weit die Instanzen in einem Datensatz von den Regressionspunkten (Regressionslinie) eines Prognosemodels entfernt sind. RMSE ist ein Maß für die Streuung dieser Vorhersagefehler. Die Werte von MAE und RMSE liegen zwischen 0 und unendlich. In der Verkehrsmodellierung sind der Geoffrey E. Havers Wert (GEH-Wert) und dessen Weiterentwicklung der Scalable Quality Value (SQV-Wert, skalierbarer Qualitätswert) gängige Kennwerte zur Bewertung der Güte von Modellwerten. Sie vergleichen einen Zählwert und einen modellierten (prognostizierten) Wert. Sie werden in der Regel genutzt, um die Modellierung von Verkehrsstärken oder personenbezogenen Kenngrößen (z. B. mittlere Reisezeiten) zu bewerten [18]. Werden Klassifizierungsergebnisse betrachtet, müssen andere Kennwerte genutzt werden. In der Literatur zu Auslastungsprognosen im ÖV vorkommende Kennwerte sind meist Precision, Recall, Balanced Accuracy und der F1-Wert (z. B [15, 16]). Da in diesem Artikel speziell mit diesen Kennwerten gearbeitet wird, werden deren Definition und Funktionsweise in Kapitel 4 genauer erläutert. Die in der Literatur vorhandenen Modelle nutzen wie gezeigt unterschiedliche Methoden und orientieren sich an verschiedenen Performance-Kennwerten zur Qualitätsbewertung. Der Output der Modelle, also numerische Prognosewerte oder Klassifizierungsergebnisse, lässt sich trotz unterschiedlicher Berechnungsmethodik vergleichend bewerten. Dieser Beitrag soll bei dieser Arbeit unterstützen. 3 ProblemstellungDie Herausforderung bei der vergleichenden Bewertung von Prognoseergebnissen liegt darin, objektive Performance-Kennwerte zu wählen, um die Performance eines Prognosemodells quantitativ messen zu können. Der Fokus dieses Beitrags liegt auf der vergleichenden Bewertung von Ergebnissen von zwei Prognosemodellen. Die Funktionsweise der vorliegenden Modelle ist dabei von untergeordnetem Interesse. Prognosen werden in der Regel klassifiziert veröffentlicht. Diese Auslastungsklassen ordnen einen numerisch berechneten Wert einer Klasse zu, die die Auslastung eines Fahrzeuges im Verhältnis zu seiner Kapazität beschreibt. Die Anbieter einer Prognose sind dabei grundsätzlich frei in der Wahl der Klassengrenzen. Der Verband deutscher Verkehrsunternehmen (VDV) [19] spricht hierzu Empfehlungen aus. Tabelle 1 zeigt, welche prozentuale Auslastung der Gesamtkapazität bzw. der Sitzplätze eines Fahrzeuges in welche Klasse codiert wird. Es lassen sich aber ebenso andere Klassengrenzen begründen. Die Klassengrenzen aus dem Forschungsprojekt U-hoch-3 wurden während der Covid-19 Pandemie gewählt und eingeführt. Klasse A sollte gewährleisten, dass ein Fahrgast allein auf einem Zwei-Personen-Sitz sitzen kann (Angst vor Kontakt). Klasse B signalisiert das generelle Vorhandensein eines Sitzplatzes. Klasse C signalisiert eine hohe Auslastung. Tabelle 1: Klassengrenzen gemäß VDV und U-hoch-3 Die Nachfragestruktur im ÖPNV unterliegt strukturellen und zufälligen Schwankungen. Strukturelle Unterschiede im Liniennetz (z. B. Stadt / Land), in den Verkehrszeiten oder den Tagestypen resultieren in stark unterschiedlich besetzten Auslastungsklassen. In der Regel kommt es also vor, dass sowohl bei der Prognose als auch bei ihrer Prüfung mit unausgeglichenen Datensätzen (unbalanced Datasets) gearbeitet werden muss. Dies bedeutet, dass sowohl bei den Trainingsdaten als auch bei den Testdaten deutlich mehr Fälle mit niedrigen Auslastungsklassen vorkommen. Idealerweise sollte eine Prognose gleichzeitig gut und unabhängig für alle Klassen funktionieren, das heißt, die Steigerung der Güte einer Klasse sollte nicht zu einem Güteverlust einer anderen Klasse führen. Erfahrungen aus U-hoch-3 und vergleichbaren Projekten in der Literatur [10, 17] zeigen aber, dass die ungleiche Klassenverteilung sehr starken Einfluss auf die Prognosequalität haben. Gleichzeitig ist es so, dass die verschiedenen Klassen eine unterschiedliche Relevanz für Fahrgäste und Verkehrsunternehmen haben. Eine fälschlicherweise als Klasse A (niedrige Auslastung) prognostizierte Klasse C (hohe Auslastung) kann zu der Situation führen, dass ein Fahrzeug dermaßen stark besetzt ist, dass die Fahrgäste an der Haltestelle stehen bleiben müssen und nicht befördert werden können. Diese Situation ist ein Nachteil für alle Beteiligten: Die Fahrgäste könnten Vertrauen verlieren oder zukünftig alternative Verkehrsmittel wählen (z. B. den privaten Pkw). Dem Verkehrsunternehmen entgehen Einnahmen, Verspätungen aufgrund von überfüllten Fahrzeugen können nicht vermieden werden. Die Tatsache, dass Auslastungsprognosen in Klassen veröffentlicht werden, führt dazu, dass in diesem Artikel Kennwerte vorgestellt und verwendet werden, die Klassifizierungsergebnisse bewerten. 4 Erläuterung der Performance-KennwerteBei der statistischen Bewertung der Ergebnisse von Prognosemodellen spielen wahre und falsche Positive und Negative eine entscheidende Rolle. Sie ermöglichen es, die Leistung (Performance) eines Models zu verstehen und mit anderen Modellen zu vergleichen. Definition 1.1.:Wahre Positive oder True Positive (TP) - ein Testergebnis, das korrekt auf das Vorliegen einer Eigenschaft hinweist. Dies sind die Fälle, in denen das Modell korrekt positive Instanzen erkennt. Zum Beispiel, wenn die Auslastungsklasse C richtig erkannt wird (s. Abbildung 1). Wahre Negative oder True Negative (TN) - ein Testergebnis, das korrekt auf das Fehlen einer Eigenschaft hinweist. Dies sind die Fälle, in denen das Modell korrekt negative Instanzen erkennt. Zum Beispiel, wenn das Modell Klasse A und B als nicht Klasse C richtig erkennt (s. Abbildung 1). Falsch Positive oder False Positive (FP), Type I Error - ein Testergebnis, das fälschlicherweise darauf hinweist, dass eine bestimmte Eigenschaft vorliegt. Hier erkennt das Modell fälschlicherweise eine Instanz als positiv, obwohl sie negativ ist. Zum Beispiel, das Modell klassifiziert eine Instanz als Klasse A, obwohl es zu Klasse C gehört (s. Abbildung 1). Falsch Negative oder False Negative (FN), Type II Error - ein Testergebnis, das fälschlicherweise darauf hinweist, dass eine bestimmte Eigenschaft fehlt. Hier erkennt das Modell fälschlicherweise eine Instanz als negativ, obwohl sie positiv ist. Zum Beispiel, wenn eine Instanz der Klasse C nicht als Klasse C erkannt wird (s. Abbildung 1). Abbildung 1: Mögliche Klassifizierungsergebnisse Definition 1.2.Precision (Positive Predictive Value, PPV) misst das Verhältnis der wahren positiven Vorhersagen zu allen positiven Vorhersagen und gibt an, wie genau das Modell in Bezug auf positive Vorhersagen ist. Die Precision wird damit wie folgt berechnet: Precision = TP / (TP + FP). Precision antwortet auf die Frage: Wie wahrscheinlich ist es, dass die angezeigte Prognose dem realen Wert entspricht? Im ÖPNV-Kontext bedeutet dies folgendes: Es werden für eine Klasse alle wahren positiven Instanzen gezählt, das heißt, wenn die prognostizierte Klasse korrekt die reale Klasse wiedergibt, und durch alle prognostizierten Instanzen aus dieser Klasse dividiert. Definition 1.3.Recall (Sensitivity, Hit Rate, True Positive Rate, TPR) misst das Verhältnis der wahren positiven Vorhersagen zu allen tatsächlichen vorhandenen positiven Instanzen dieser Klasse. Der Recall wird damit wie folgt berechnet: Recall = TP / (TP + FN). Recall antwortet auf die Frage: Wie wahrscheinlich ist es, dass die real beobachtete Auslastungsklasse eines Fahrzeuges korrekt vom Prognosemodell vorausgesagt wurde? In ÖPNV-Kontext bedeutet dies folgendes: Es werden für eine Klasse alle wahren positiven Instanzen, das heißt, wenn die prognostizierte Klasse korrekt die reale Klasse wiedergibt, gezählt und durch alle realen Instanzen aus dieser Klasse dividiert. Definition 1.4.Specificity (True Negative Rate (TNR), Selectivity) ist ein Kennwert, der sich auf die Fähigkeit eines Tests bezieht, korrekt negative Ergebnisse zu identifizieren. Specificity wird wie folgt berechnet: Specificity = TN / (TN + FP). Specificity ist wichtig, um die Zuverlässigkeit eines Modells zu beurteilen, insbesondere um sicherzustellen, dass nicht zu viele falsch negative Ergebnisse vorausgesagt werden. Ein hoher Specificity-Wert deutet darauf hin, dass das Modell in der Lage ist, tatsächlich negative Fälle korrekt zu identifizieren. In ÖPNV-Kontext bedeutet dies, dass für eine Klasse alle wahren negativen Instanzen durch alle nicht relevante Instanzen dividiert werden. Definition 1.5.F1-Score - harmonischer Mittelwert (Harmonic Mean) zwischen Precision und Recall, der eine ausgewogene Bewertung der Modelleistung (Performance) bietet. F1-score = balanced F-score = 2 * Precision * Recall / (Precision + Recall). Der Harmonische Mittelwert ist der kleinste pythagoreische Mittelwert und gewichtet den größten Ausreißer am wenigsten. Der F1-Score wird benötigt, um zu verhindern, dass ungleiche Ergebnisse bei Precision und Recall die Bewertung der Prognoseergebnisse verzerren. Definition 1.6.Balanced Accuracy ist ein weiterer Kennwert zur Bewertung der Leistung eines Klassifikationsmodells und wird wie folgt berechnet: Balanced Accuracy = (Recall + Specificity) / 2. Sie berücksichtigt die Verteilung der Klassen im Datensatz und gibt an, wie gut das Modell alle Klassen gleichermaßen korrekt klassifiziert. Die Balanced Accuracy ist besonders nützlich, wenn die Daten unausgewogen sind, das heißt, wenn es eine große Diskrepanz bei der Anzahl der Klassenelemente zwischen den Klassen gibt. In solchen Fällen kann die Gesamtgenauigkeit allein irreführend sein, da ein Modell einfach die häufigste Klasse vorhersagen könnte und dennoch eine hohe Genauigkeit erzielt. Die Balanced Accuracy ermöglicht es, die tatsächliche Leistung eines Modells besser zu verstehen, da sie sicherstellt, dass alle Klassen gleichwertig behandelt werden. Eine höhere Balanced Accuracy zeigt, dass das Modell in der Lage ist, alle Klassen effektiv zu erkennen, unabhängig von der Anzahl der Klassenelemente. Definition 1.7.Die Konfusionsmatrix (Confusion Matrix, Error Matrix) ist eine spezifische Tabelle, die die Visualisierung der Leistung eines Algorithmus ermöglicht, typischerweise eines überwachten Lernalgorithmus. Für eine binäre (zwei Klassen) Klassifikation ergibt sich eine 4x4-Konfusionsmatrix: Tabelle 2: Beispiel Konfusionsmatrix für Klasse A Jede Spalte der Matrix stellt die Instanzen einer tatsächlichen Klasse dar, während jede Zeile die Instanzen einer vorhergesagten Klasse darstellt. Man kann mithilfe der Konfusionsmatrix leicht erkennen, ob eine Prognose bestimmte Klassen verwechselt (d. h. häufig eine Klasse fälschlicherweise als eine andere Klasse bezeichnet) oder richtig prognostiziert. Beispiel 1:Wir haben tatsächlich (real) 9 Fahrten der Kategorie A und 9 Fahrten der Kategorie B. Es wurde folgendes prognostiziert: Kategorie A - 8 Fahrten, Kategorie B - 10 Fahrten. Tabelle 3: Konfusionsmatrix für Beispiel 1 Korrektvorhergesagt sind nun aber 5 Fahrten der Kategorie A und 6 der Kategorie B. Wenn Klasse B betrachtet wird, hat dieses Prognosemodel 6 Fahrten korrekt identifiziert (Wahre Positive), 4 Fahrten wurden nicht gefunden (Falsche Negative), 3 Fahrten wurden als Klasse B identifiziert, gehören aber zur Klasse A (Falsche Positive) und 5 Fahrten sind korrekt als „nicht Klasse B“ identifiziert (Wahre Negative). Gemäß den oben genannten Formeln sind Precision, Specificity, Recall, F1-Score und Balanced Accuracy folgendermaßen zu berechnen: Tabelle 4: Beispielrechnung der Kennwerte mit zwei Klassen Wie oben erläutert, liegen alle Werte - Precision, Specificity, Recall, F1-score und Balanced Accuracy, in dem Intervall zwischen 0 und 1, wobei 1 der beste Wert ist, der aber in der Praxis nicht erreicht wird. Die gezeigte Beispielprognose ist relativ weit von einer guten Prognose entfernt. Der Unterschied zu einer Münzwurf-Simulation ist nur marginal. Beispiel 2:Klasse C wird als dritte Klasse eingeführt. Es werde die folgenden Werte angenommen: Tatsächlich sind 9 Fahrten aus Kategorie A, 7 Fahrten aus Kategorie B und 6 Fahrten aus Kategorie C. Tabelle 5: Konfusionsmatrix für Beispiel 2 Es wurde Folgendes prognostiziert: Kategorie A - 8 Fahrten, Kategorie B - 8 Fahrten und Kategorie C - 6 Fahrten. Dabei sind richtig getroffen: 6 Fahrten aus Kategorie A, 5 Fahrten aus Kategorie B und 4 Fahrten aus Kategorie C. Es ergeben sich die folgenden Performance Kennwerte: Tabelle 6: Beispielrechnung der Kennwerte mit drei Klassen 5 Bewertung von Prognoseergebnissen anhand der Performance- KennwerteDie zuvor eingeführten Performance-Kennwerte Recall, Precision, Specificity, F1-Wert und Balanced Accuracy werden nun genutzt, um exemplarisch die Prognosegüte von zwei Modellen zu bewerten, die in der Praxis, bzw. Forschung Prognoseergebnisse produzieren. Modell 1 wurde im Forschungsprojekt U-hoch-3 entwickelt und im Feldtest erprobt, Modell 2 ist ein konzeptionelles Modell. Die dargestellten Prognoseergebnisse werden anschließend inhaltlich interpretiert. Am Ende des Kapitels wird ein neuer Kennwert vorgeschlagen, der Vorteile gegenüber den zuvor vorgestellten Kennwerten bietet. Für den vorliegenden Vergleich wurden Auslastungsprognosen von beiden Modellen für den 01.03.2023 berechnet. Beide Modelle erstellten dabei Prognosen für die gleichen Kanten von vier repräsentativ ausgewählten Buslinien. Als Kante ist der Abschnitt zwischen zwei Haltepunkten im Liniennetz des ÖPNV zu verstehen. Insgesamt liegen für diesen Tag Zählwerte von 10376 Kanten vor, die als Referenz für die errechneten Prognosen dienen. Die Ergebnisse der Prognosemodelle sind in den Konfusionsmatrizen in den Tabellen 7 und 8 dargestellt. Die dargestellten Zahlen stellen die Kanten dar, die von den jeweiligen Modellen klassifiziert wurden. Tabelle 7: Prognoseergebnisse des U-hoch-3 Modells für den 01.03.2023 Tabelle 8: Prognoseergebnisse des Vergleichsmodells für den 01.03.2023 Ein Blick auf die Konfusionsmatrizen verdeutlicht die zuvor aufgezeigten Herausforderungen bei der Bewertung von Prognoseergebnissen. Eine verkürzte Betrachtung mit nur einem Gütewert für alle Auslastungsklassen würde womöglich zu falschen Schlussfolgerungen führen. In diesem Beispiel würde ein Modell, welches immer Klasse A prognostiziert, zu einem guten Gesamtergebnis führen. Dieses Modell wäre in fast 90% der Fälle korrekt. Für ÖV-Anbieter und für Fahrgäste spielen Klasse B und insbesondere Klasse C jedoch eine große Rolle. Eine nicht erkannte Klasse C stellt den Fahrgast vor eine problematische Situation, da er entweder nicht mitfahren kann oder dies nur mit großen Komforteinbußen möglich ist. Es ist daher sinnvoll, die Ergebnisse für die unterschiedlichen Klassen separat zu betrachten, da ein Gütewert für das gesamte Testset aufgrund der Klassenverteilung wenig Aussagekraft besitzt. Aus den dargestellten Ergebnissen ergeben sich für die beiden Modelle die Performance- Kennwerte in den Tabellen 9 und 10. Tabelle 9: Performance Kennwerte des U-hoch-3 Modells Tabelle 10: Performance-Kennwerte des Vergleichsmodells Es zeigt sich, dass die beiden Modelle für das gleiche Testset unterschiedliche Werte bei den Performance-Kennwerte erzielen. Aber auch ein Blick auf die Werte innerhalb eines Modells bieten interessante Erkenntnisse. Zunächst wird deutlich, dass die unterschiedlichen Klassen eine unterschiedliche Prognosegüte erreichen. Klasse A wird in der Regel am häufigsten korrekt prognostiziert. Die höhere Güte in den niedrigeren Klassen ist sicherlich teilweise durch das typisch unausgeglichene Testset zu erklären. Ergebnisse aus der Literatur deutlichen ähnliche Ergebnisse an [10]. Die stark variierenden Ergebnisse führen zu der Erkenntnis, dass ein Blick auf den Gesamtwert eines Performance-Kennwertes nicht sinnvoll ist, da wichtige Informationen nicht dargestellt werden. So sind der Precision-Wert und der Recall-Wert des U-hoch-3 Modells und des Vergleichsmodells für Klasse A sehr hoch, was unter Berücksichtigung der realen Klassenverteilung zu einer hohen Gesamtgüte führen würde. Das Verhalten der Modelle für die Klassen B und C sind allerdings verbesserungswürdig. Die Werte für Precision und Recall können stark variieren. Der Recall-Wert des Vergleichsmodells in Klasse B ist hoch, der Precision-Wert niedriger. In diesem Fall werden nahezu 4 von 5 der realen Fälle der Klasse B korrekt vorausgesagt. Diese Güte wird jedoch „erkauft“ mit Prognosen, die fälschlich als Klasse B vorausgesagt werden. Das Modell aus U- hoch-3 weist ein ähnliches Verhalten auf. Dies kann auf ein Verbesserungspotenzial hinweisen, aber es kann auch der Fall sein, dass eine Klasse priorisiert erkannt werden soll, sodass eine niedrigere Güte in den anderen Klassen in Kauf genommen wird. F1-Wert und Balanced Accuracy geben einen guten Eindruck, wie sich Precision und Recall verhalten. Sind die beiden Werte nah beieinander, sind auch F1-Wert und Balanced Accuracy nahezu identisch. Gehen Precision und Recall stark auseinander, bestraft dies der F1-Wert stärker. Soll also nur einen Wert betrachtet werden, können der F1-Wert oder die Balanced Accuracy eine gute Wahl sein. Dennoch sollten auch bei diesen Kennwerten die Werte für die einzelnen Klassen separat betrachtet werden, da diese stark auseinander gehen können. Allerdings wäre es vorteilhaft, wenn die Bewertung eines Testsets auf einen einzelnen Wert heruntergebrochen werden könnte und trotzdem die Relevanz der unterschiedlichen Klassen berücksichtigt wird. Dafür soll im Folgenden ein Vorschlag gemacht werden. Zu diesem Zweck wird die Konfusionsmatrix in Tabelle 11 erneut ohne berechnete Werte dargestellt. Tabelle 11: Konfusionsmatrix für drei Klassen wobei die Werte folgendes bedeuten: xii, wo i = A, B, C korrekt identifizierte Instanzen sind und xij, wo i, j = A, B, C und fälschlicherweise identifizierte Instanzen bedeuten. Die neu vorgeschlagene Formel beruht auf dem Prinzip der gewichteten Einflussfaktoren. und werden am stärksten mit 2 gewichtet, weil es die größten Prognosefehler bei dieser Art der Prognose sind. Auch im ÖPNV-Kontext sollten diese beiden Fälle nach Möglichkeit vermieden werden:
xAB, xBA, xBC und xCB erhalten ein Gewicht von 1, weil es sich um Prognosefehler in die nächstliegenden Kategorien handelt und dies als weniger kritisch zu bewerten ist. Der neue Wert soll die Ergebnisse zusammenfassen und gleichzeitig die Fehler nach Klassenkombination hierarchisieren. Dies geschieht durch die folgende Formel: Formel in der PDF Für die Normalisierung fließen die korrekt identifizierten Instanzen xAA, xBB, xCC mit ein. Dies ermöglicht es, die Prognosefehler im Vergleich zu den korrekt prognostizierten Ergebnissen analytisch zu bewerten. Wie dargestellt, werden die Ergebnisse in der Konfusionsmatrix gewichtet, um nur einen Kennwert zu erhalten. Die Elemente xAC und xCA fließen am stärksten in den Kennwert ein, da dies die größten Prognosefehler sind. Das ist ein Fortschritt gegenüber F1-Wert oder Balanced Accuracy, da bei einem ähnlichen Informationsgehalt weniger Werte betrachtet werden müssen. Analytical Balance liegt im Intervall [0,∞]. Je kleiner der Wert ist, desto besser ist das Prognosemodell, weil die falsch prognostizierten Werte zu 0 neigen. Das bedeutet, dass das Modell weniger falsche Vorhersagen insgesamt macht und diese Fehler gleichmäßig auf die Klassen verteilt. Ein Wert über 1 bedeutet, dass vom Modell deutlich mehr Fälle falsch klassifiziert wurden, als für ein gutes Modell zulässig wäre. Zusammengefasst ist Analytical Balance eine Metrik, die die Fehler eines Klassifikationsmodells quantifiziert und diese Fehler in Bezug auf ihre Relevanz zwischen den Klassen gewichtet. Die Minimierung von Analytical Balance ist das Ziel, da sie auf eine bessere Leistung des Modells hindeutet, indem sie die Anzahl der Fehler reduziert und deren Verteilung berücksichtigt. Dies macht Analytical Balance zu einem nützlichen Werkzeug für die Feinabstimmung und Bewertung von Klassifikationsalgorithmen. Die nachfolgenden Berechnungen basieren auf den oben dargestellten Ergebnissen der Prognosemodelle (siehe Tabellen 7 und 8). Die Analytical Balance wird in diesen beiden Fällen wie folgt berechnet: Tabelle 12: Analytical Balance der Prognoseergebnisse Es ergibt sich also ein einzelner Wert, der die Relevanz der Fehler berücksichtigt. Der Fehlerwert ist normiert, ist also unabhängig von der Größe des Datensatzes und kann für andere Prognosemodelle direkt übernommen werden. Die Einführung eines neuen Kennwertes im ÖPNV erfordert sorgfältige Überlegungen. Der vorgestellte Kennwert berücksichtigt verschiedene Aspekte der Performance einer Prognose und bietet damit eine ausgewogene quantitative Messung. Zudem ist dieser Kennwert transparent und kann leicht mit der dargestellten Formel berechnet werden. Außerdem kann der Kennwert dabei helfen, eine gezielte Entscheidung bei der Modellauswahl zu treffen. Weiterhin können mit diesem Kennwert auch andere, nicht nur auslastungsbezogene Prognosemodelle verglichen werden. Insgesamt soll dieser neue Kennwert dazu beitragen, die Entscheidungsfindung beim Modellvergleich transparenter zu machen und damit zu optimieren und die Performance von Prognosemodellen zu verbessern. 6 Fazit und AusblickIm vorliegenden Beitrag wurde ein Vergleich der Ergebnisse von Prognosemodellen zur Vorhersage von Fahrgastauslastungen präsentiert. Zudem wurde ein Literaturüberblick über vorhandene Prognosemodelle und genutzte Performance-Kennwerte im aktuellen Forschungsfeld dargestellt. Die Berechnung der Qualität der Auslastungsprognosen in diesem Beitrag basiert auf Kennwerten, die im Feld des maschinellen Lernens verbreitet sind. Für die konsistente Darstellung wurden diese Kennwerte erläutert und eine Interpretation im ÖPNV- Kontext gegeben. Im Anschluss wurde die Performance von zwei unterschiedlichen Prognosemodellen dargestellt und die Ergebnisse interpretiert. Dabei wurde deutlich, dass die Betrachtung der unterschiedlichen Auslastungsklassen mit verschiedenen Kennwerten sinnvoll ist. Zuletzt wurde vorgeschlagen, einen neuen Kennwert mit dem Namen Analytical Balance zu betrachten. Mithilfe eines einzigen Wertes für ein Prognosemodell kann der Vergleich für einen Entscheidungsträger vereinfacht werden. Analytical Balance ist ein Kennwert, der sich aus der Konfusionsmatrix ableitet und eine gewichtete Kombination der Fehler des Modells darstellt. Analytical Balance berücksichtigt nicht nur die Anzahl der falschen Vorhersagen, sondern auch, wie diese Fehler zwischen den Klassen verteilt sind. Analytical Balance kann verwendet werden, um die Fehler in einer Klassifikationsvorhersage zu quantifizieren und dabei zu bewerten, wie gut ein Modell die verschiedenen Klassen unterscheidet. Ein niedrigerer Wert deutet dabei auf eine bessere Leistung des Modells hin. Die Beurteilung der Prognosegüte basiert in diesem Beitrag auf den Ergebnissen eines Tages. Bei einer tiefergehenden Bewertung sollten unterschiedliche Tagestypen betrachtet werden und ein längerer Zeitraum bewertet werden. Zudem sollte auch die zeitliche und räumliche Struktur der Fahrgastnachfrage bei der Prüfung beachtet werden. So sollten unterschiedliche Linientypen und Zeitschichten ausgewählt werden. Verlässliche Auslastungsprognosen können einen Beitrag für mehr Akzeptanz von öffentlichen Verkehrsmitteln leisten und somit ein Baustein für einen nachhaltigeren Verkehrssektor sein. Die objektive und differenzierte Beurteilung der Prognosegüte ist dafür unerlässlich. 7 Literatur
|