FGSV-Nr. | FGSV 002/140 |
---|---|
Ort | Stuttgart |
Datum | 13.03.2024 |
Titel | Interpretierbares Maschinelles Lernen für ein Verkehrsmittelwahlmodell basierend auf Trackingdaten |
Autoren | Univ.-Prof. Dr.-Ing. Klaus Bogenberger, Simone Weikl, Victoria Dahmen |
Kategorien | HEUREKA |
Einleitung | KurzfassungDie Modellierung der Verkehrsmittelwahl ist für die Vorhersage und das Verständnis des Mobilitätsverhaltens unerlässlich. Hierbei wurden in den letzten Jahren mit maschinellem Lernen vielversprechende Ergebnisse erzielt, insbesondere für XGBoost- und Random-Forest-Modelle. Aufgrund der zunehmenden Verwendung von Tracking-basierten Smartphone-Apps zur Aufzeichnung des Mobilitätsverhaltens, wenden wir diese Modelle auf einen solchen Datensatz an. Zudem analysieren wir eingehend deren Interpretierbarkeit. Wir kommen zu dem Schluss, dass das XGBoost-Modell am leistungsstärksten und dennoch erklärbar ist. Die von solchen Modellen gewonnenen Erkenntnisse können beispielsweise genutzt werden, um die Verkehrsmittelwahl für beliebige Quelle-Ziel-Paare vorherzusagen. |
Volltext | Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.1 EinleitungIm Verkehrswesen wird die Modellierung der Verkehrsmittelwahl seit vielen Jahren erforscht [1, 2]. Die Entwicklung dieser dient meist entweder der Vorhersage der Verkehrsmittelnutzung auf individueller oder aggregierter Ebene oder der Identifizierung der Einflussfaktoren. In den letzten Jahren gab es in diesem Bereich viele Beiträge, die maschinelles Lernen (ML) [3, 4, 5, 6] anstelle herkömmlicher Discrete-Choice-Modelle (DCM) verwenden. Während ML-Ansätze vielversprechende Ergebnisse liefern, ist es aufgrund der damit einhergehenden vergleichbar hohen Komplexität schwierig, einzelne Vorhersagen nachzuvollziehen. Dennoch sind diese Ansätze zunehmend erklärbar und interpretierbar. Des Weiteren wird zunehmend eine neue Umfrageart verwendet: (semi-)passive Wegetagebücher, bzw. automatisierte Tracking-basierte revealed-preference-Daten (TRP) [7]. Hierbei wird das Bewegungsprofil in einer Smartphone-App erfasst und Wegetagebücher werden automatisch erstellt und gegebenenfalls vom Nutzer korrigiert. Bislang wurde Möbilitätsverhalten üblicherweise mittels stated-preference-Befragungen (SP) oder konventionellen revealedpreference-Daten (KRP) erhoben. Bei ersterem geben Teilnehmer ihre Präferenzen in hypothetischen Situationen an, während bei letzterem ein Wegetagebuch geführt wird. Bei beiden Umfragearten treten Probleme wie unvollständige oder fehlerhafte Einträge oder Voreingenommenheit auf [8, 9]. Außerdem sind sie in Bezug auf Qualität und Granularität minderwertig im Vergleich zu TRP-Daten, welche über genaue Start- und Endzeiten der Wege sowie Start- und Zielorte verfügen, sofern keine Ungenauigkeiten aufgrund technischer Probleme o. Ä. entstehen. Diese Aspekte ermöglichen die präzise Berücksichtigung einer Vielzahl von Einflussfaktoren wie Infrastruktur, Wetter oder Informationen über nicht gewählte Verkehrsmittel. Abbildung 1: Vorgehen In diesem Artikel werden zwei bislang nicht erforschte Aspekte behandelt. Erstens: Die Anwendung eines XGBoost-Modells (häufig das Leistungsstärkste unter SP/KRP-Studien) auf TRP-Daten, um die Verkehrsmittelwahl vorherzusagen. Zweitens: Eine Analyse der Interpretierbarkeit eines solchen Ansatzes. Diese werden auf den etwa einjährigen TRP-Datensatz Mobilität.Leben (rund 1200 Teilnehmern, Fokus auf Großraum München) angewandt. Zunächst wird der aktuelle Forschungsstand betrachtet. In der Methodik werden drei Modelle sowie der verwendete Datensatz und dessen Aufbereitung beschrieben. Anschließend werden die Ergebnisse präsentiert. Das leistungsstärkste Modell wird im Hinblick auf seine Interpretierbarkeit analysiert und die wichtigsten Merkmale jedes Verkehrsmittels werden herausgearbeitet. 2 LiteraturBeim Umgang mit RP-Trackingdaten ist es wichtig zu beachten, dass es passive und semipassive Wegetagebücher gibt. Bei semi-passiven Wegetagebüchern hat der Nutzer die Möglichkeit, die automatisch generierten Wegetagebuchentwürfe zu validieren und zu korrigieren. Dies hat den Vorteil, dass die Daten nicht nur räumlich und zeitlich präzise sind, sondern dass sie auch hinsichtlich des Mobilitätsverhaltens und der Verkehrsmittelerkennung genau sind. Daher kann die Validierung der Nutzer die Datenqualität verbessern. Es ist abzusehen, dass TRP-Daten bei Mobilitätsstudien zunehmend häufiger vorkommen werden. Konventionelle Ansätze im Bereich der Verkehrsmittelwahlmodelle umfassen insbesondere die multinomiale logistische Regression (MNL) sowie hierarchische und gemischte logistische Modelle. Die ML-Ansätze für SP-Daten erreichen im Vergleich zu herkömmlichen Modellen durchweg eine höhere Genauigkeit [10]. Beispielsweise wurden über 20% [11] oder 15% [4] Unterschied zwischen dem besten ML-Modell (XGBoost) und MNL oder Mixed-Logit festgestellt. Wang et al. haben einen umfassenden Vergleich mit 86 ML-Klassifizierungsmodellen durchgeführt [12]. Unter diesen Studien schneiden XGBoost und Random Forest (RF) mit wenigen Ausnahmen am besten ab. In Bezug auf RP-Daten existiert Literatur zu KRP-Daten [13, 14, 15, 4, 16], wohingegen TRP-Daten bislang nur geringfügig in dieser Hinsicht untersucht wurden. Nach bestem Wissen der Autoren haben nur Buijs et al. [17] eine Verkehrsmittelwahlmodellierung an TRP-Daten unter Verwendung eines ML-Ansatzes (künstliches neuronales Netz) durchgeführt. Insgesamt wird beobachtet, dass ML-Ansätze bis zu einem gewissen Grad erklärbar sind. Pineda-Jaramillo und Arbeláez-Arenas [13] und Khashifi et. al. [10] verwendeten sogenannte SHAP-Werte und untersuchten Interaktionseffekte. SHAP-Werte messen im Wesentlichen den relativen Beitrag jeder Variable zur Modellausgabe. Zhao et al. [11] und Richards und Zill [14] beschäftigten sich mit der Wichtigkeit der einzelnen Einflussvariablen und partiellen Abhängigkeiten. Die Untersuchung der Interpretierbarkeit ist von großer Bedeutung bei der Verwendung von ML für Verkehrsmittelwahlmodelle, um die Plausibilität und Erklärbarkeit der Ergebnisse gewährleisten zu können. 3 MethodikIn diesem Abschnitt werden die verwendeten Modelle beschrieben, von denen zwei ML-basiert sind und eines eine konventionelle DCM-Methode ist, sowie die Datenaufbereitung und Modellkalibrierung. 3.1 ModelleDie Auswahl der hier verwendeten Modelle basierte auf der Literaturrecherche, bei der XGBoost- und Random-Forest-Modelle als die Gängigsten sowie Leistungsstärksten für SP- und KRP-Daten hervorgingen. Diese werden mit einem Discrete-Choice-Modell, der multinomialen logistischen Regression, verglichen. Ein eXtreme-Gradient-Boosting-Modell (XGBoost; XGB) basiert auf Entscheidungsbäumen [18]. Man kann sich einen Entscheidungsbaum intuitiv als ein Modell vorstellen, das Muster in Daten lernt und eine Entscheidung trifft (hier das Verkehrsmittel), die viele Einzelentscheidungen umfasst (Ist es warm? Regnerisch?). XGBoost-Modelle trainieren einen Baum nach dem anderen, beginnend mit Kleineren mit geringer Komplexität und Lernkapazität. Ziel ist es, aus vorigen Fehlern zu lernen. Die allmähliche Leistungsbesserung wird mithilfe einer Verlustfunktion gemessen, welche die Fehlerrate der Ausgabe quantifiziert. Der Gradient der Verlustfunktion unterliegt einer Optimierung, um schnelles und effizientes Lernen sicherzustellen [19, 15]. Random-Forest-Modelle (RF) beruhen ebenfalls auf Entscheidungsbäumen, jedoch werden diese unabhängig voneinander parallel (anstatt sequentiell) trainiert. Darüber hinaus werden diese Bäume anhand zufälliger Teilmengen der Daten und Merkmale trainiert und später aggregiert, um ein genaues und zugleich robustes Modell zu erhalten [20, 19]. Im Vergleich zu XGBoost und RF weist die multinomiale logistische Regression (MNL) einen geringeren Komplexitätsgrad auf. Es handelt sich um eine statistische Methode, die auf der Nutzentheorie basiert und eine Erweiterung der logistischen Regression darstellt. Ziel ist es, die sich gegenseitig ausschließenden Verkehrsmittel anzunähern [21, 15]. Die Einfachheit der MNL ermöglicht vollständige Erklärbarkeit, geht jedoch mit niedriger Lernkapazität einher. 3.2 Datensatz und DatenaufbereitungDie TRP-Studie Mobilität-Leben wurde durchgeführt, um die Auswirkungen des 9-Euro-Tickets in Deutschland zu untersuchen. Teilnehmer wurden zu ihrem Mobilitätsverhalten und soziodemografischen Daten befragt. 1.192 Teilnehmer installierten zusätzlich eine Smartphone-App, die automatisch Wegetagebücher erstellte, welche die App-Nutzer validieren und gegebenenfalls korrigieren konnten. Die Tracking-App konnte von Juni 2022 bis Juli 2023 verwendet werden. Die Wegetagebücher wurden bereinigt und aufbereitet [22], um fehlerhafte Aufzeichnungen zu beheben und die Datenqualität zu verbessern. Hier werden Daten von September 2022 bis März 2023 verwendet, um die Zeiträume des 9-Euro-Tickets und Deutschlandtickets auszuschließen. Es werden nur Wege berücksichtigt, welche (teilweise) innerhalb des MVV-Verbundraums stattfinden, um den räumlichen Untersuchungsbereich einzugrenzen. Darüber hinaus werden Rundfahrten ausgeschlossen (meist Freizeitaktivitäten). Um genaue Wegedaten zu erhalten, haben wir Wege von engagierten Teilnehmern verwendet, welche Entwürfe der Wegetagebücher zeitnah zum Zeitpunkt der Aufzeichnung aktiv korrigierten. Da sich der Anteil der Fußwege (37,7 %) drastisch von dem der MIV-(20,6 %), Fahrrad-(20,0 %) und ÖPNV-Wege (21,7 %) unterschied, wurde die Anzahl der Fußwege reduziert, um das Ungleichgewicht in den Eingabedaten zu verringern. Insgesamt wurden rund 60.000 Wege verwendet. Des Weiteren gilt bei intermodalen Wegen das Verkehrsmittel mit der größten Weglänge als Hauptverkehrsmittel. Tabelle 1: Berücksichtigte Merkmale (im Beispiel verwendete Kategorie fett-markiert). Basierend auf der Literatur und den verfügbaren und ableitbaren Werten wurden folgende Kategorien ausgewählt: soziodemografische Daten, Wetter, geschätzte Reisezeiten und -kosten nach Verkehrsmittel, Reiseinformationen sowie Infrastruktur. Tabelle 1 zeigt alle Merkmale (Variablen) sowie die dazugehörigen Datenquellen. In allen Fällen wurde die geschätzte und nicht die tatsächliche Reisezeit verwendet, da diese Aufschluss über das gewählte Verkehrsmittel geben könnte. Die geschätzten Kosten der MIV-Fahrt werden basierend auf der Entfernung dieser berechnet, während der ÖPNV-Preis der einer entsprechenden Einzelfahrkarte nach MVV-Tarif ist. Bei Besitz eines ÖPNV-Abos, ist der ÖPNV-Preis gleich null. Für die 22 Merkmale wurde eine Kollinearitätsprüfung durchgeführt, da Kollinearitäten die Leistung der MNL beeinträchtigen können und die Interpretation der Ergebnisse erschweren. Die standardmäßigen Pearson-Korrelationskoeffizienten (ein Maß für die lineare Korrelation [27]) wurden ausgewertet. Luftdistanz, MIV-Kosten, Fahrrad-Reisezeit und Fuß-Reisezeit korrelieren stark miteinander (>0,96). Folglich wurden alle bis auf ein Merkmal (Luftdistanz) entfernt. Darüber hinaus ist anzumerken, dass jedes der Modelle alle 19 Variablen als Input verwendet. 3.3 ModellkalibrierungDie Parameter der Modelle wurden mithilfe eines gitterbasierten Ansatzes optimiert (Testen aller Kombinationen ausgewählter Parameterwerte). Die Modelle wurden mit 70 % der Daten trainiert und mit 30 % getestet, und eine 10-fache cross-validation (CV) wurde eingesetzt, um Überanpassung und Stichprobenverzerrung entgegenzuwirken. CV bedeutet, dass die Daten vor jedem der zehn Durchläufe neu gemischt werden. Die Ergebnisse wurden anhand der Genauigkeit verglichen, welche in der Literatur häufig verwendet wird [5, 28, 11, 12, 14]. Diese wird wie folgt berechnet, bei n Werten und mit Indikatorfunktion Formel in der PDF. Da die Verkehrsmittel im aufbereiteten Datensatz nahezu gleichmäßig verteilt sind, ist nur eine geringe Verzerrung der Genauigkeit zu erwarten [10]. Zur Beurteilung der Konsistenz der Ergebnisse wird auch die Standardabweichung der CV berücksichtigt. Formel in der PDF 4 Ergebnisse4.1 ModellgüteUnter den XGBoost-, RF- und MNL-Modellen schnitt das XGBoost-Modell hinsichtlich der Genauigkeit am besten ab: 78,5 %. RF erreichte 76,0 % und MNL schnitt vergleichsweise schlecht ab (58,1 %), wie in Tabelle 2 gezeigt wird. Das XGBoost-Modell weist auch eine geringe Standardabweichung der CV auf, was bedeutet, dass die Variation zwischen den CV-Durchläufen gering ist. Bei der Betrachtung der einzelnen Kategorien übertraf das XGBoost-Modell die anderen Modelle erneut für MIV und Fuß. Bei ÖPNV und Fahrrad sind XGBoost und RF änhlich gut. Sowohl bei RF als auch bei XGBoost gab es, im Vergleich zu MNL, wenig Abweichung zwischen den einzelnen Verkehrsmitteln. Da alle Kategorien in den Daten ähnlich stark vertreten sind, sind die ML-Modelle in der Lage, die Muster aller Verkehrsmittel gut zu erfassen. Beim MNL-Modell hingegen war die Diskrepanz zwischen ÖPNV und Fahrrad zu Fuß und MIV ausgeprägter. Tabelle 2: Genauigkeit der drei Modelle, in Prozent, und die Standardabweichung. Die Konfusionsmatrix für MNL in Abbildung 2 zeigt, dass Fußwege häufig als Fahrradfahrten klassifiziert wurde (31 % aller Fußwege). Die falsch vorhergesagten MIV-Fahrten (47 %) wurden hauptsächlich als Fahrrad-(27 %) oder ÖPNV-Wege (18 %) vorhergesagt. Falsch geschätzte ÖPNV- und Fahrradwege wurden am häufigsten miteinander verwechselt: 22 % bzw. 20 % aller Fahrten. Ähnliche Trends sind bei XGBoost und RF vorhanden, allerdings sehr abgeschwächt. Die Verwechslung zwischen Fuß und Fahrrad ist darauf zurückzuführen, dass es sich bei beiden um aktive Fortbewegungsarten handelt und beide auf kurzen bis mittleren Distanzen (250 m – 750 m) häufig genutzt werden, wie in den Daten beobachtet wurde. Abbildung 2: Konfusionsmatrizen der drei Modelle (einzelne Durchläufe). Mittels einer Sensitivitätsanalyse wurde die Robustheit der drei Modelle überprüft. Hierfür wurden die vier Einflussreichsten Variablen (wie in dem nächsten Abschnitt ersichtlich werden wird) um bis zu 20 % verringert bzw. erhöht. Abbildung 3 zeigt die durchschnittliche Genauigkeit (d. h. über alle Verkehrsmittel hinweg), wenn die jeweilige Variable geändert wird. Bei XGBoost gibt es kaum sichtbare Veränderungen, bei RF nur geringfügige, und bei MNL deutlichere, jedoch um nicht mehr als 1 %. 4.2 Interpretierbarkeit der ErgebnisseDie Ergebnisse der ML-Modelle und insbesondere des XGBoost-Modells sehen bisher vielversprechend aus: Diese übertreffen das MNL-Modell um über 20 %. Jedoch scheint es unmöglich, die vielen Entscheidungsschritte solcher Modelle nachzuvollziehen. Seit kurzem verzeichnet ein Ansatz zunehmendes Interesse: SHAP (SHapely Additive exPlanations)-Werte [29] geben den Einfluss jedes Merkmals auf die Modellausgabe wieder. Abbildung 3: Sensitivitätsanalyse der durchschnittlichen Genauigkeit bei Änderung ausgewählter Variablen. Die Y-Achse umfasst einen Bereich von 0.01 (d. h. 1%). Im Wesentlichen bewertet ein Shapely-Wert die mittlere relative Abweichung der Vorhersage, wenn eine Variable ausgeschlossen wird, im Vergleich zu wenn diese berücksichtigt wird, in allen möglichen Kombinationen. Die entsprechende mathematische Formulierung ist in Gleichung (1) dargestellt, wo ϕi der Shapely-Wert einer Variable i ist, C eine Koalition von n Variablen (von allen N Variablen M ) und v(N ) die Vorhersage ist. Lundberg und Lee [29] formulierten eine Funktion, die Shapely-Werte aller Variablen M auf additive Weise kombiniert, siehe Gleichung (2), wo z′ 1 ist, wenn eine Variable vorhanden ist, andernfalls 0 [13]. Die Vorteile von SHAP bestehen darin, dass es genaue und konsistente Ergebnisse liefert und mit fehlenden Werten in den Eingabedaten umgehen kann. Es wird nur die Interpretierbarkeit des leistungsstärksten Modells, XGBoost, untersucht, da eine SHAP-Analyse für die anderen Modelle gleichermaßen durchgeführt werden kann. Abbildung 4 zeigt den durchschnittlichen SHAP-Wert jeder Variable. Beispielsweise ist Luftdistanz der mit Abstand wichtigste Indikator, gefolgt von MIV-Reisezeit, Alter und ÖPNV-Reisezeit. Diese Beobachtungen stehen im Einklang mit der Literatur [10, 12, 5, 11, 14]. Im Übrigen weist das RF-Modell die gleichen einflussreichsten acht Variablen auf, nur zwei sind leicht verschoben (Alter, ÖPNV-Halt-Dichte). Diese Konsistenz untermauert die Zuverlässigkeit der SHAP-Werte. Neben der Gesamtauswirkung kann auch der relative Beitrag einer Variable je Verkehrsmittel betrachtet werden, wie in Abbildung 4 farblich dargestellt wird. Darüber hinaus kann auch untersucht werden, wie sich der Wert einer Variable auf die Klassifizierung eines Verkehrsmittels auswirkt. Dies wird selten behandelt, ist jedoch essenziell für das Verständnis der Verkehrsmittelwahl. Solche Informationen werden in der Abbildung 5 abgebildet. Die Variablen sind nach relativer Wichtigkeit sortiert (analog zur Nummerierung in Abbildung 4). Kategoriale Variablen werden wie in Tabelle 1 gezeigt Indexbasiert kodiert, z. B. 0 für Montag und 6 für Sonntag. Abbildung 4: Der SHAP-Wert spiegelt die Auswirkung jeder Variable auf die Vorhersage wider. Die drei Wichtigsten je Verkehrsmittel sind numerisch markiert. Die Variablen Luftdistanz, Alter, ÖPNV-Preis und Temperatur tragen am meisten zu Fahrradvorhersagen bei, siehe Abbildung 5. Luftdistanz sowie Temperatur sind leicht nachvollziehbar; Winters et al. [30] beobachteten in einer SP-Umfrage Ähnliches. Die SHAP-Werte des ÖPNV-Preises wurden mithilfe eines partiellen Abhängigkeitsdiagramms weiter untersucht (Abbildung 6a): überwiegend positive SHAP Werte (d. h. Fahrrad ist wahrscheinlicher), wenn der ÖPNV-Preis größer als null ist. Ist ein ÖPNV-Abo vorhanden, ist der mittlere SHAP-Wert negativ. Beim Alter gibt es keinen leicht erkennbaren Trend, doch Abbildung 6b zeigt, dass ältere Altersgruppen weniger zum Fahrradfahren neigen: im Durchschnitt haben diese einen negativen SHAP-Wert. Interessanterweise haben Niederschlag, Wind und rel. Luftfeuchtigkeit geringen Einfluss auf die Modellausgabe. Tamim et al. beobachteten jedoch Ähnliches [10]. Abbildung 5: Der Einfluss jeder Variable auf die Kategorie Fahrrad. Hoch und niedrig beziehen sich auf den höchsten/niedrigsten Wert einer Variable. Spaziergänge werden am stärksten von der Luftdistanz, MIV-Reisezeit und Alter beeinflusst. Der mittlere SHAP-Wert der Luftdistanz beträgt 2,4, während die nächstwichtigste Variable nur einen Wert von 0,3 hat; für die anderen Verkehrsmittel ist dieser Unterschied nie größer als 0,4. Bei langen MIV-Reisezeiten (meist verbunden mit großen Entfernungen) und im hohen Alter ist Zufußgehen unwahrscheinlicher. Die Wahl des MIV wird am meisten vom Zugang zum Auto und Luftdistanz beeinflusst, gefolgt von der ÖPNV-Halt-Dichte und MIV-Reisezeit. Die Möglichkeit kein/ein Auto zu nutzen führt zu einem negativen/positiven SHAP-Wert. Wenn hierzu keine Angabe gemacht wurde, bleibt der SHAP-Wert leicht negativ. Die anderen drei Variablen folgen linearen Trends; z. B. reduziert eine hohe ÖPNV-Halt-Dichte die Nutzung des MIV, vermutlich mitunter aufgrund mangelnder Parkplätze und starkem Verkehr in der Innenstadt. Abbildung 6: Ausgewählte SHAP partielle Abhängigkeitsdiagramme. Ebenso folgen die vier einflussreichsten Variablen des ÖPNV linearen Trends. Eine hohe Luftdistanz, niedrige ÖPNV-Reisezeit und ein niedriger ÖPNV-Preis tragen positiv zu ÖPNV-Vorhersagen bei. Eine hohe MIV-Reisezeit begünstigt ÖPNV-Fahrten, da diese teils mit der Luftdistanz korreliert. Folglich wären Fuß und Rad unattraktiven Optionen. Es kann auch untersucht werden, inwieweit einzelne Variablen das Klassifizierungsergebnis einer einzelnen Vorhersage beeinflussen. Für jedes Verkehrsmittel werden die SHAP-Werte aller Variablen summiert. Die höchste Summe ist das vorhergesagte Verkehrsmittel. Ein Beispiel für eine korrekt vorhergesagte ÖPNV-Fahrt ist in Abbildung 7 dargestellt. Abbildung 7: SHAP-Werte der Vorhersage einer einzelnen ÖPNV Fahrt. Diese veranschaulicht, wie jede Variable zum Gesamtergebnis beiträgt. Beispielsweise hat eine Person kein Auto, jedoch ein ÖPNV-Abo, ist 23 Jahre alt und unternimmt an einem Dienstag gegen 09:00 Uhr eine 3,6 km lange Fahrt. In diesem Fall sind die einflussreichsten Variablen (d. h. mit den höchsten absoluten SHAP-Werten), wie folgt: Der ÖPNV-Preis ist mit 0,16 € sehr niedrig (aufgrund des Abos), die Distanz (3,6 km) ist eine typische ÖPNV-Fahrt, und der fehlende Zugang zu einem Auto erschwert die Nutzung des MIVs. 5 Diskussion und AusblickIn diesem Artikel wurden zwei ML-Modelle auf einen Tracking-basierten revealed-preference Datensatz (TRP) angewandt, um die Verkehrsmittelwahl vorherzusagen. Die ausgewählten XGBoost- und Random-Forest-Modelle haben sich bei stated-preference Befragungen und konventionellen revealed-preference Daten (KRP) bewährt, ihre Leistung und Interpretierbarkeit wurde jedoch bislang nicht für TRP-Daten untersucht. In dieser Arbeit übertreffen das XGBoost- und Random-Forest-Modell die herkömmliche multinomiale logistische Regression um über 20 %. Die Interpretierbarkeit des leistungsstärksten Modells wurde anhand von SHAP-Werten eingehend untersucht. Basierend auf den Mobilität.Leben Daten tragen Luftdistanz, MIV-Reisezeit, Alter sowie ÖPNV-Reisezeit am meisten zu der Verkehrmittelwahl bei. Die Verwendung von TRP- im Vergleich zu KRP-Daten verspricht präzise Start- und Zielpunkte sowie Zeitstempel und umgeht das Problem der unvollständigen Berichterstattung. Allerdings ist die Qualität von TRP-Daten mitunter von der Zuverlässigkeit der Nutzer und guter Datenbereinigung abhängig. Eine Einschränkung dieser Arbeit besteht darin, dass die hier verwendete Methodik zur Berechnung von SHAP-Werten für kategoriale Variablen weniger genau ist als für kontinuierliche Variablen. Amoukou, Salaün und Brunel [31] haben kürzlich einen Ansatz zur Lösung dieses Problems bei sogenannten ‘tree-based’ Modellen entworfen. Sobald dieser Ansatz verlässlich Ergebnisse liefert, wird es von Interesse sein, ihn auf diese Arbeit anzuwenden. In zukünftigen Studien wäre ein Vergleich von TRP-, KRP- und SP-Daten sinnvoll und hilfreich. Insgesamt tragen die in diesem Artikel gewonnenen Erkenntnisse zur Genauigkeit und Interpretierbarkeit von ML-Modellen für TRP-Daten bei der Bewertung und Analyse zukünftiger TRP-Studien bei und geben Aufschluss über die Verkehrsmittelwahl im Großraum München. Literatur
|