Tagungsbände

FGSV-Nr.	FGSV 002/140
Ort	Stuttgart
Datum	13.03.2024
Titel	Interpretierbares Maschinelles Lernen für ein Verkehrsmittelwahlmodell basierend auf Trackingdaten
Autoren	Univ.-Prof. Dr.-Ing. Klaus Bogenberger, Simone Weikl, Victoria Dahmen
Kategorien	HEUREKA
Einleitung	Kurzfassung Die Modellierung der Verkehrsmittelwahl ist für die Vorhersage und das Verständnis des Mobilitätsverhaltens unerlässlich. Hierbei wurden in den letzten Jahren mit maschinellem Lernen vielversprechende Ergebnisse erzielt, insbesondere für XGBoost- und Random-Forest-Modelle. Aufgrund der zunehmenden Verwendung von Tracking-basierten Smartphone-Apps zur Aufzeichnung des Mobilitätsverhaltens, wenden wir diese Modelle auf einen solchen Datensatz an. Zudem analysieren wir eingehend deren Interpretierbarkeit. Wir kommen zu dem Schluss, dass das XGBoost-Modell am leistungsstärksten und dennoch erklärbar ist. Die von solchen Modellen gewonnenen Erkenntnisse können beispielsweise genutzt werden, um die Verkehrsmittelwahl für beliebige Quelle-Ziel-Paare vorherzusagen.
PDF
Volltext	Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln. 1 Einleitung Im Verkehrswesen wird die Modellierung der Verkehrsmittelwahl seit vielen Jahren erforscht [1, 2]. Die Entwicklung dieser dient meist entweder der Vorhersage der Verkehrsmittelnutzung auf individueller oder aggregierter Ebene oder der Identifizierung der Einflussfaktoren. In den letzten Jahren gab es in diesem Bereich viele Beiträge, die maschinelles Lernen (ML) [3, 4, 5, 6] anstelle herkömmlicher Discrete-Choice-Modelle (DCM) verwenden. Während ML-Ansätze vielversprechende Ergebnisse liefern, ist es aufgrund der damit einhergehenden vergleichbar hohen Komplexität schwierig, einzelne Vorhersagen nachzuvollziehen. Dennoch sind diese Ansätze zunehmend erklärbar und interpretierbar. Des Weiteren wird zunehmend eine neue Umfrageart verwendet: (semi-)passive Wegetagebücher, bzw. automatisierte Tracking-basierte revealed-preference-Daten (TRP) [7]. Hierbei wird das Bewegungsprofil in einer Smartphone-App erfasst und Wegetagebücher werden automatisch erstellt und gegebenenfalls vom Nutzer korrigiert. Bislang wurde Möbilitätsverhalten üblicherweise mittels stated-preference-Befragungen (SP) oder konventionellen revealedpreference-Daten (KRP) erhoben. Bei ersterem geben Teilnehmer ihre Präferenzen in hypothetischen Situationen an, während bei letzterem ein Wegetagebuch geführt wird. Bei beiden Umfragearten treten Probleme wie unvollständige oder fehlerhafte Einträge oder Voreingenommenheit auf [8, 9]. Außerdem sind sie in Bezug auf Qualität und Granularität minderwertig im Vergleich zu TRP-Daten, welche über genaue Start- und Endzeiten der Wege sowie Start- und Zielorte verfügen, sofern keine Ungenauigkeiten aufgrund technischer Probleme o. Ä. entstehen. Diese Aspekte ermöglichen die präzise Berücksichtigung einer Vielzahl von Einflussfaktoren wie Infrastruktur, Wetter oder Informationen über nicht gewählte Verkehrsmittel. Abbildung 1: Vorgehen In diesem Artikel werden zwei bislang nicht erforschte Aspekte behandelt. Erstens: Die Anwendung eines XGBoost-Modells (häufig das Leistungsstärkste unter SP/KRP-Studien) auf TRP-Daten, um die Verkehrsmittelwahl vorherzusagen. Zweitens: Eine Analyse der Interpretierbarkeit eines solchen Ansatzes. Diese werden auf den etwa einjährigen TRP-Datensatz Mobilität.Leben (rund 1200 Teilnehmern, Fokus auf Großraum München) angewandt. Zunächst wird der aktuelle Forschungsstand betrachtet. In der Methodik werden drei Modelle sowie der verwendete Datensatz und dessen Aufbereitung beschrieben. Anschließend werden die Ergebnisse präsentiert. Das leistungsstärkste Modell wird im Hinblick auf seine Interpretierbarkeit analysiert und die wichtigsten Merkmale jedes Verkehrsmittels werden herausgearbeitet. 2 Literatur Beim Umgang mit RP-Trackingdaten ist es wichtig zu beachten, dass es passive und semipassive Wegetagebücher gibt. Bei semi-passiven Wegetagebüchern hat der Nutzer die Möglichkeit, die automatisch generierten Wegetagebuchentwürfe zu validieren und zu korrigieren. Dies hat den Vorteil, dass die Daten nicht nur räumlich und zeitlich präzise sind, sondern dass sie auch hinsichtlich des Mobilitätsverhaltens und der Verkehrsmittelerkennung genau sind. Daher kann die Validierung der Nutzer die Datenqualität verbessern. Es ist abzusehen, dass TRP-Daten bei Mobilitätsstudien zunehmend häufiger vorkommen werden. Konventionelle Ansätze im Bereich der Verkehrsmittelwahlmodelle umfassen insbesondere die multinomiale logistische Regression (MNL) sowie hierarchische und gemischte logistische Modelle. Die ML-Ansätze für SP-Daten erreichen im Vergleich zu herkömmlichen Modellen durchweg eine höhere Genauigkeit [10]. Beispielsweise wurden über 20% [11] oder 15% [4] Unterschied zwischen dem besten ML-Modell (XGBoost) und MNL oder Mixed-Logit festgestellt. Wang et al. haben einen umfassenden Vergleich mit 86 ML-Klassifizierungsmodellen durchgeführt [12]. Unter diesen Studien schneiden XGBoost und Random Forest (RF) mit wenigen Ausnahmen am besten ab. In Bezug auf RP-Daten existiert Literatur zu KRP-Daten [13, 14, 15, 4, 16], wohingegen TRP-Daten bislang nur geringfügig in dieser Hinsicht untersucht wurden. Nach bestem Wissen der Autoren haben nur Buijs et al. [17] eine Verkehrsmittelwahlmodellierung an TRP-Daten unter Verwendung eines ML-Ansatzes (künstliches neuronales Netz) durchgeführt. Insgesamt wird beobachtet, dass ML-Ansätze bis zu einem gewissen Grad erklärbar sind. Pineda-Jaramillo und Arbeláez-Arenas [13] und Khashifi et. al. [10] verwendeten sogenannte SHAP-Werte und untersuchten Interaktionseffekte. SHAP-Werte messen im Wesentlichen den relativen Beitrag jeder Variable zur Modellausgabe. Zhao et al. [11] und Richards und Zill [14] beschäftigten sich mit der Wichtigkeit der einzelnen Einflussvariablen und partiellen Abhängigkeiten. Die Untersuchung der Interpretierbarkeit ist von großer Bedeutung bei der Verwendung von ML für Verkehrsmittelwahlmodelle, um die Plausibilität und Erklärbarkeit der Ergebnisse gewährleisten zu können. 3 Methodik In diesem Abschnitt werden die verwendeten Modelle beschrieben, von denen zwei ML-basiert sind und eines eine konventionelle DCM-Methode ist, sowie die Datenaufbereitung und Modellkalibrierung. 3.1 Modelle Die Auswahl der hier verwendeten Modelle basierte auf der Literaturrecherche, bei der XGBoost- und Random-Forest-Modelle als die Gängigsten sowie Leistungsstärksten für SP- und KRP-Daten hervorgingen. Diese werden mit einem Discrete-Choice-Modell, der multinomialen logistischen Regression, verglichen. Ein eXtreme-Gradient-Boosting-Modell (XGBoost; XGB) basiert auf Entscheidungsbäumen [18]. Man kann sich einen Entscheidungsbaum intuitiv als ein Modell vorstellen, das Muster in Daten lernt und eine Entscheidung trifft (hier das Verkehrsmittel), die viele Einzelentscheidungen umfasst (Ist es warm? Regnerisch?). XGBoost-Modelle trainieren einen Baum nach dem anderen, beginnend mit Kleineren mit geringer Komplexität und Lernkapazität. Ziel ist es, aus vorigen Fehlern zu lernen. Die allmähliche Leistungsbesserung wird mithilfe einer Verlustfunktion gemessen, welche die Fehlerrate der Ausgabe quantifiziert. Der Gradient der Verlustfunktion unterliegt einer Optimierung, um schnelles und effizientes Lernen sicherzustellen [19, 15]. Random-Forest-Modelle (RF) beruhen ebenfalls auf Entscheidungsbäumen, jedoch werden diese unabhängig voneinander parallel (anstatt sequentiell) trainiert. Darüber hinaus werden diese Bäume anhand zufälliger Teilmengen der Daten und Merkmale trainiert und später aggregiert, um ein genaues und zugleich robustes Modell zu erhalten [20, 19]. Im Vergleich zu XGBoost und RF weist die multinomiale logistische Regression (MNL) einen geringeren Komplexitätsgrad auf. Es handelt sich um eine statistische Methode, die auf der Nutzentheorie basiert und eine Erweiterung der logistischen Regression darstellt. Ziel ist es, die sich gegenseitig ausschließenden Verkehrsmittel anzunähern [21, 15]. Die Einfachheit der MNL ermöglicht vollständige Erklärbarkeit, geht jedoch mit niedriger Lernkapazität einher. 3.2 Datensatz und Datenaufbereitung Die TRP-Studie Mobilität-Leben wurde durchgeführt, um die Auswirkungen des 9-Euro-Tickets in Deutschland zu untersuchen. Teilnehmer wurden zu ihrem Mobilitätsverhalten und soziodemografischen Daten befragt. 1.192 Teilnehmer installierten zusätzlich eine Smartphone-App, die automatisch Wegetagebücher erstellte, welche die App-Nutzer validieren und gegebenenfalls korrigieren konnten. Die Tracking-App konnte von Juni 2022 bis Juli 2023 verwendet werden. Die Wegetagebücher wurden bereinigt und aufbereitet [22], um fehlerhafte Aufzeichnungen zu beheben und die Datenqualität zu verbessern. Hier werden Daten von September 2022 bis März 2023 verwendet, um die Zeiträume des 9-Euro-Tickets und Deutschlandtickets auszuschließen. Es werden nur Wege berücksichtigt, welche (teilweise) innerhalb des MVV-Verbundraums stattfinden, um den räumlichen Untersuchungsbereich einzugrenzen. Darüber hinaus werden Rundfahrten ausgeschlossen (meist Freizeitaktivitäten). Um genaue Wegedaten zu erhalten, haben wir Wege von engagierten Teilnehmern verwendet, welche Entwürfe der Wegetagebücher zeitnah zum Zeitpunkt der Aufzeichnung aktiv korrigierten. Da sich der Anteil der Fußwege (37,7 %) drastisch von dem der MIV-(20,6 %), Fahrrad-(20,0 %) und ÖPNV-Wege (21,7 %) unterschied, wurde die Anzahl der Fußwege reduziert, um das Ungleichgewicht in den Eingabedaten zu verringern. Insgesamt wurden rund 60.000 Wege verwendet. Des Weiteren gilt bei intermodalen Wegen das Verkehrsmittel mit der größten Weglänge als Hauptverkehrsmittel. Tabelle 1: Berücksichtigte Merkmale (im Beispiel verwendete Kategorie fett-markiert). Basierend auf der Literatur und den verfügbaren und ableitbaren Werten wurden folgende Kategorien ausgewählt: soziodemografische Daten, Wetter, geschätzte Reisezeiten und -kosten nach Verkehrsmittel, Reiseinformationen sowie Infrastruktur. Tabelle 1 zeigt alle Merkmale (Variablen) sowie die dazugehörigen Datenquellen. In allen Fällen wurde die geschätzte und nicht die tatsächliche Reisezeit verwendet, da diese Aufschluss über das gewählte Verkehrsmittel geben könnte. Die geschätzten Kosten der MIV-Fahrt werden basierend auf der Entfernung dieser berechnet, während der ÖPNV-Preis der einer entsprechenden Einzelfahrkarte nach MVV-Tarif ist. Bei Besitz eines ÖPNV-Abos, ist der ÖPNV-Preis gleich null. Für die 22 Merkmale wurde eine Kollinearitätsprüfung durchgeführt, da Kollinearitäten die Leistung der MNL beeinträchtigen können und die Interpretation der Ergebnisse erschweren. Die standardmäßigen Pearson-Korrelationskoeffizienten (ein Maß für die lineare Korrelation [27]) wurden ausgewertet. Luftdistanz, MIV-Kosten, Fahrrad-Reisezeit und Fuß-Reisezeit korrelieren stark miteinander (>0,96). Folglich wurden alle bis auf ein Merkmal (Luftdistanz) entfernt. Darüber hinaus ist anzumerken, dass jedes der Modelle alle 19 Variablen als Input verwendet. 3.3 Modellkalibrierung Die Parameter der Modelle wurden mithilfe eines gitterbasierten Ansatzes optimiert (Testen aller Kombinationen ausgewählter Parameterwerte). Die Modelle wurden mit 70 % der Daten trainiert und mit 30 % getestet, und eine 10-fache cross-validation (CV) wurde eingesetzt, um Überanpassung und Stichprobenverzerrung entgegenzuwirken. CV bedeutet, dass die Daten vor jedem der zehn Durchläufe neu gemischt werden. Die Ergebnisse wurden anhand der Genauigkeit verglichen, welche in der Literatur häufig verwendet wird [5, 28, 11, 12, 14]. Diese wird wie folgt berechnet, bei n Werten und mit Indikatorfunktion Formel in der PDF. Da die Verkehrsmittel im aufbereiteten Datensatz nahezu gleichmäßig verteilt sind, ist nur eine geringe Verzerrung der Genauigkeit zu erwarten [10]. Zur Beurteilung der Konsistenz der Ergebnisse wird auch die Standardabweichung der CV berücksichtigt. Formel in der PDF 4 Ergebnisse 4.1 Modellgüte Unter den XGBoost-, RF- und MNL-Modellen schnitt das XGBoost-Modell hinsichtlich der Genauigkeit am besten ab: 78,5 %. RF erreichte 76,0 % und MNL schnitt vergleichsweise schlecht ab (58,1 %), wie in Tabelle 2 gezeigt wird. Das XGBoost-Modell weist auch eine geringe Standardabweichung der CV auf, was bedeutet, dass die Variation zwischen den CV-Durchläufen gering ist. Bei der Betrachtung der einzelnen Kategorien übertraf das XGBoost-Modell die anderen Modelle erneut für MIV und Fuß. Bei ÖPNV und Fahrrad sind XGBoost und RF änhlich gut. Sowohl bei RF als auch bei XGBoost gab es, im Vergleich zu MNL, wenig Abweichung zwischen den einzelnen Verkehrsmitteln. Da alle Kategorien in den Daten ähnlich stark vertreten sind, sind die ML-Modelle in der Lage, die Muster aller Verkehrsmittel gut zu erfassen. Beim MNL-Modell hingegen war die Diskrepanz zwischen ÖPNV und Fahrrad zu Fuß und MIV ausgeprägter. Tabelle 2: Genauigkeit der drei Modelle, in Prozent, und die Standardabweichung. Die Konfusionsmatrix für MNL in Abbildung 2 zeigt, dass Fußwege häufig als Fahrradfahrten klassifiziert wurde (31 % aller Fußwege). Die falsch vorhergesagten MIV-Fahrten (47 %) wurden hauptsächlich als Fahrrad-(27 %) oder ÖPNV-Wege (18 %) vorhergesagt. Falsch geschätzte ÖPNV- und Fahrradwege wurden am häufigsten miteinander verwechselt: 22 % bzw. 20 % aller Fahrten. Ähnliche Trends sind bei XGBoost und RF vorhanden, allerdings sehr abgeschwächt. Die Verwechslung zwischen Fuß und Fahrrad ist darauf zurückzuführen, dass es sich bei beiden um aktive Fortbewegungsarten handelt und beide auf kurzen bis mittleren Distanzen (250 m – 750 m) häufig genutzt werden, wie in den Daten beobachtet wurde. Abbildung 2: Konfusionsmatrizen der drei Modelle (einzelne Durchläufe). Mittels einer Sensitivitätsanalyse wurde die Robustheit der drei Modelle überprüft. Hierfür wurden die vier Einflussreichsten Variablen (wie in dem nächsten Abschnitt ersichtlich werden wird) um bis zu 20 % verringert bzw. erhöht. Abbildung 3 zeigt die durchschnittliche Genauigkeit (d. h. über alle Verkehrsmittel hinweg), wenn die jeweilige Variable geändert wird. Bei XGBoost gibt es kaum sichtbare Veränderungen, bei RF nur geringfügige, und bei MNL deutlichere, jedoch um nicht mehr als 1 %. 4.2 Interpretierbarkeit der Ergebnisse Die Ergebnisse der ML-Modelle und insbesondere des XGBoost-Modells sehen bisher vielversprechend aus: Diese übertreffen das MNL-Modell um über 20 %. Jedoch scheint es unmöglich, die vielen Entscheidungsschritte solcher Modelle nachzuvollziehen. Seit kurzem verzeichnet ein Ansatz zunehmendes Interesse: SHAP (SHapely Additive exPlanations)-Werte [29] geben den Einfluss jedes Merkmals auf die Modellausgabe wieder. Abbildung 3: Sensitivitätsanalyse der durchschnittlichen Genauigkeit bei Änderung ausgewählter Variablen. Die Y-Achse umfasst einen Bereich von 0.01 (d. h. 1%). Im Wesentlichen bewertet ein Shapely-Wert die mittlere relative Abweichung der Vorhersage, wenn eine Variable ausgeschlossen wird, im Vergleich zu wenn diese berücksichtigt wird, in allen möglichen Kombinationen. Die entsprechende mathematische Formulierung ist in Gleichung (1) dargestellt, wo ϕ_i der Shapely-Wert einer Variable i ist, C eine Koalition von n Variablen (von allen N Variablen M ) und v(N ) die Vorhersage ist. Lundberg und Lee [29] formulierten eine Funktion, die Shapely-Werte aller Variablen M auf additive Weise kombiniert, siehe Gleichung (2), wo z^′ 1 ist, wenn eine Variable vorhanden ist, andernfalls 0 [13]. Die Vorteile von SHAP bestehen darin, dass es genaue und konsistente Ergebnisse liefert und mit fehlenden Werten in den Eingabedaten umgehen kann. Es wird nur die Interpretierbarkeit des leistungsstärksten Modells, XGBoost, untersucht, da eine SHAP-Analyse für die anderen Modelle gleichermaßen durchgeführt werden kann. Abbildung 4 zeigt den durchschnittlichen SHAP-Wert jeder Variable. Beispielsweise ist Luftdistanz der mit Abstand wichtigste Indikator, gefolgt von MIV-Reisezeit, Alter und ÖPNV-Reisezeit. Diese Beobachtungen stehen im Einklang mit der Literatur [10, 12, 5, 11, 14]. Im Übrigen weist das RF-Modell die gleichen einflussreichsten acht Variablen auf, nur zwei sind leicht verschoben (Alter, ÖPNV-Halt-Dichte). Diese Konsistenz untermauert die Zuverlässigkeit der SHAP-Werte. Neben der Gesamtauswirkung kann auch der relative Beitrag einer Variable je Verkehrsmittel betrachtet werden, wie in Abbildung 4 farblich dargestellt wird. Darüber hinaus kann auch untersucht werden, wie sich der Wert einer Variable auf die Klassifizierung eines Verkehrsmittels auswirkt. Dies wird selten behandelt, ist jedoch essenziell für das Verständnis der Verkehrsmittelwahl. Solche Informationen werden in der Abbildung 5 abgebildet. Die Variablen sind nach relativer Wichtigkeit sortiert (analog zur Nummerierung in Abbildung 4). Kategoriale Variablen werden wie in Tabelle 1 gezeigt Indexbasiert kodiert, z. B. 0 für Montag und 6 für Sonntag. Abbildung 4: Der SHAP-Wert spiegelt die Auswirkung jeder Variable auf die Vorhersage wider. Die drei Wichtigsten je Verkehrsmittel sind numerisch markiert. Die Variablen Luftdistanz, Alter, ÖPNV-Preis und Temperatur tragen am meisten zu Fahrradvorhersagen bei, siehe Abbildung 5. Luftdistanz sowie Temperatur sind leicht nachvollziehbar; Winters et al. [30] beobachteten in einer SP-Umfrage Ähnliches. Die SHAP-Werte des ÖPNV-Preises wurden mithilfe eines partiellen Abhängigkeitsdiagramms weiter untersucht (Abbildung 6a): überwiegend positive SHAP Werte (d. h. Fahrrad ist wahrscheinlicher), wenn der ÖPNV-Preis größer als null ist. Ist ein ÖPNV-Abo vorhanden, ist der mittlere SHAP-Wert negativ. Beim Alter gibt es keinen leicht erkennbaren Trend, doch Abbildung 6b zeigt, dass ältere Altersgruppen weniger zum Fahrradfahren neigen: im Durchschnitt haben diese einen negativen SHAP-Wert. Interessanterweise haben Niederschlag, Wind und rel. Luftfeuchtigkeit geringen Einfluss auf die Modellausgabe. Tamim et al. beobachteten jedoch Ähnliches [10]. Abbildung 5: Der Einfluss jeder Variable auf die Kategorie Fahrrad. Hoch und niedrig beziehen sich auf den höchsten/niedrigsten Wert einer Variable. Spaziergänge werden am stärksten von der Luftdistanz, MIV-Reisezeit und Alter beeinflusst. Der mittlere SHAP-Wert der Luftdistanz beträgt 2,4, während die nächstwichtigste Variable nur einen Wert von 0,3 hat; für die anderen Verkehrsmittel ist dieser Unterschied nie größer als 0,4. Bei langen MIV-Reisezeiten (meist verbunden mit großen Entfernungen) und im hohen Alter ist Zufußgehen unwahrscheinlicher. Die Wahl des MIV wird am meisten vom Zugang zum Auto und Luftdistanz beeinflusst, gefolgt von der ÖPNV-Halt-Dichte und MIV-Reisezeit. Die Möglichkeit kein/ein Auto zu nutzen führt zu einem negativen/positiven SHAP-Wert. Wenn hierzu keine Angabe gemacht wurde, bleibt der SHAP-Wert leicht negativ. Die anderen drei Variablen folgen linearen Trends; z. B. reduziert eine hohe ÖPNV-Halt-Dichte die Nutzung des MIV, vermutlich mitunter aufgrund mangelnder Parkplätze und starkem Verkehr in der Innenstadt. Abbildung 6: Ausgewählte SHAP partielle Abhängigkeitsdiagramme. Ebenso folgen die vier einflussreichsten Variablen des ÖPNV linearen Trends. Eine hohe Luftdistanz, niedrige ÖPNV-Reisezeit und ein niedriger ÖPNV-Preis tragen positiv zu ÖPNV-Vorhersagen bei. Eine hohe MIV-Reisezeit begünstigt ÖPNV-Fahrten, da diese teils mit der Luftdistanz korreliert. Folglich wären Fuß und Rad unattraktiven Optionen. Es kann auch untersucht werden, inwieweit einzelne Variablen das Klassifizierungsergebnis einer einzelnen Vorhersage beeinflussen. Für jedes Verkehrsmittel werden die SHAP-Werte aller Variablen summiert. Die höchste Summe ist das vorhergesagte Verkehrsmittel. Ein Beispiel für eine korrekt vorhergesagte ÖPNV-Fahrt ist in Abbildung 7 dargestellt. Abbildung 7: SHAP-Werte der Vorhersage einer einzelnen ÖPNV Fahrt. Diese veranschaulicht, wie jede Variable zum Gesamtergebnis beiträgt. Beispielsweise hat eine Person kein Auto, jedoch ein ÖPNV-Abo, ist 23 Jahre alt und unternimmt an einem Dienstag gegen 09:00 Uhr eine 3,6 km lange Fahrt. In diesem Fall sind die einflussreichsten Variablen (d. h. mit den höchsten absoluten SHAP-Werten), wie folgt: Der ÖPNV-Preis ist mit 0,16 € sehr niedrig (aufgrund des Abos), die Distanz (3,6 km) ist eine typische ÖPNV-Fahrt, und der fehlende Zugang zu einem Auto erschwert die Nutzung des MIVs. 5 Diskussion und Ausblick In diesem Artikel wurden zwei ML-Modelle auf einen Tracking-basierten revealed-preference Datensatz (TRP) angewandt, um die Verkehrsmittelwahl vorherzusagen. Die ausgewählten XGBoost- und Random-Forest-Modelle haben sich bei stated-preference Befragungen und konventionellen revealed-preference Daten (KRP) bewährt, ihre Leistung und Interpretierbarkeit wurde jedoch bislang nicht für TRP-Daten untersucht. In dieser Arbeit übertreffen das XGBoost- und Random-Forest-Modell die herkömmliche multinomiale logistische Regression um über 20 %. Die Interpretierbarkeit des leistungsstärksten Modells wurde anhand von SHAP-Werten eingehend untersucht. Basierend auf den Mobilität.Leben Daten tragen Luftdistanz, MIV-Reisezeit, Alter sowie ÖPNV-Reisezeit am meisten zu der Verkehrmittelwahl bei. Die Verwendung von TRP- im Vergleich zu KRP-Daten verspricht präzise Start- und Zielpunkte sowie Zeitstempel und umgeht das Problem der unvollständigen Berichterstattung. Allerdings ist die Qualität von TRP-Daten mitunter von der Zuverlässigkeit der Nutzer und guter Datenbereinigung abhängig. Eine Einschränkung dieser Arbeit besteht darin, dass die hier verwendete Methodik zur Berechnung von SHAP-Werten für kategoriale Variablen weniger genau ist als für kontinuierliche Variablen. Amoukou, Salaün und Brunel [31] haben kürzlich einen Ansatz zur Lösung dieses Problems bei sogenannten ‘tree-based’ Modellen entworfen. Sobald dieser Ansatz verlässlich Ergebnisse liefert, wird es von Interesse sein, ihn auf diese Arbeit anzuwenden. In zukünftigen Studien wäre ein Vergleich von TRP-, KRP- und SP-Daten sinnvoll und hilfreich. Insgesamt tragen die in diesem Artikel gewonnenen Erkenntnisse zur Genauigkeit und Interpretierbarkeit von ML-Modellen für TRP-Daten bei der Bewertung und Analyse zukünftiger TRP-Studien bei und geben Aufschluss über die Verkehrsmittelwahl im Großraum München. Literatur Richard Barff, David Mackay, and Richard Olshavsky. A selective review of travel-mode choice models. Journal of Consumer Research, 8(4):370–380, 1982. Daniel J. Reck, Henry Martin, and Kay W. Axhausen. Mode choice, substitution patterns and environmental impacts of shared and personal micro-mobility. Transportation Research Part D: Transport and Environment, 102:103134, 2022. Julian Hagenauer and Marco Helbich. A comparative study of machine learning classifiers for modeling travel mode choice. Expert Systems with Applications, 78:273–282, 2017. José Carlos García-García, Ricardo García-Ródenas, Julio Alberto López-Gómez, and José Ángel Martín-Baos. A comparative study of machine learning, deep neural networks and random utility maximization models for travel mode choice modelling. Transportation Research Procedia, 62:374–382, 2022. Long Cheng, Xuewu Chen, Jonas De Vos, Xinjun Lai, and Frank Witlox. Applying a random forest method approach to model travel mode choice behavior. Travel Behaviour and Society, 14:1–10, January 2019. Dongwoo Lee, John Mulrow, Chana Joanne Haboucha, Sybil Derrible, and Yoram Shiftan. Attitudes on Autonomous Vehicle Adoption using Interpretable Gradient Boosting Transportation Research Record: Journal of the Transportation Research Board, 2673(11):865–878, November 2019. Adrian C. Prelipcean, Yusak O. Susilo, and Gyözö Gidófalvi. Collecting travel diaries: Current state of the art, best practices, and future research directions. Transportation Research Procedia, 32:155–166, 2018. Tom Thomas, Karst T. Geurs, Johan Koolwaaij, and Marcel Bijlsma. Automatic trip detection with the dutch mobile mobility panel: Towards reliable multiple-week trip registration for large samples. Journal of Urban Technology, 25(2):143–161, 2018. Lara Montini, Sebastian Prost, Johann Schrammel, Nadine Rieser-Schüssler, and Kay Axhausen. Comparison of travel diaries generated from smartphone data and dedicated gps devices. volume 11, 01 2015. Mohammad Tamim Kashifi, Arshad Jamal, Mohammad Samim Kashefi, Meshal Almoshaogeh, and Syed Masiur Rahman. Predicting the travel mode choice with interpretable machine learning techniques: A comparative Travel Behaviour and Society, 29:279– 296, October 2022. Xilei Zhao, Xiang Yan, Alan Yu, and Pascal Van Hentenryck. Prediction and behavioral analysis of travel mode choice: A comparison of machine learning and logit Travel Behaviour and Society, 20:22–35, July 2020. Shenhao Wang, Baichuan Mo, and Jinhuan Zhao. Predicting travel mode choice with 86 machine learning classifiers: An empirical benchmark study. 2019. Juan Pineda-Jaramillo and Óscar Arbeláez-Arenas. Assessing the Performance of Gradient-Boosting Models for Predicting the Travel Mode Choice Using Household Survey Data. Journal of Urban Planning and Development, 148(2):04022007, June 2022. Matthew John Richards and Jan Christoph Zill. Modelling mode choice with machine learning algorithms. 2019. Fangru Wang and Catherine L. Ross. Machine Learning Travel Mode Choices: Comparing the Performance of an Extreme Gradient Boosting Model with a Multinomial Logit Model. Transportation Research Record: Journal of the Transportation Research Board, 2672(47):35–45, December 2018. Jiankun Le and Jing Teng. Understanding Influencing Factors of Travel Mode Choice in Urban-Suburban Travel: A Case Study in Shanghai. Urban Rail Transit, 9(2):127–146, June 2023. Ruurd Buijs, Thomas Koch, and Elenna Dugundji. Applying transfer learning and various ANN architectures to predict transportation mode choice in Amsterdam. Procedia Computer Science, 184:532–540, 2021. Jerome H. Friedman. Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5):1189 – 1232, 2001. Ameet V Joschi. Machine Learning and Artificial Intelligence. Springer International Publishing, 2023. Md Musfiqur Rahman Bhuiya, Md Musleh Uddin Hasan, David Keellings, and Hossain Mohiuddin. Application of Machine Learning Classifiers for Mode Choice Modeling for Movement-Challenged Persons. Future Transportation, 2(2):328–346, April 2022. Juan D. Pineda-Jaramillo. A review of Machine Learning (ML) algorithms used for modeling travel mode choice. DYNA, 86(211):32–41, October 2019. Victoria Dahmen, Santiago Álvarez Ossorio Martínez, Allister Loder, and Klaus Bogenberger. Making large-scale semi-passive gps travel diaries valuable: a quality enhancement method. In 103rd Annual Meeting of the Transportation Research Board (TRB 2024), 2024. Deutscher Wetterdienst. Klimadaten Deutschland - Monats- und Tageswerte (Archiv) , 2023. Available at: https://opendata.dwd.de/climate_environment/CDC/ observations_germany/climate/hourly/ (Last accessed: 20 July 2023). TomTom. Routing API and Extended Routing API, 2023. Available at: https://developer. tomtom.com/routing-api/documentation/routing/calculate-route (Last accessed: 27 May 2023). Software Freedom Conservancy. OpenTripPlanner 2, 2023. Available at: https://docs. org/en/v2.2.0/ (Last accessed: 20 July 2023). OpenStreetMap Planet dump retrieved from https://planet.osm.org . https: //www.openstreetmap.org, 2017. David Freedman, Robert Pisani, and Roger Purves. Statistics (international student edition). Pisani, R. Purves, 4th edn. WW Norton & Company, New York, 2007. Ch. Ravi Sekhar, Minal, and E. Madhu. Mode Choice Analysis Using Random Forrest Decision Trees. Transportation Research Procedia, 17:644–652, 2016. Scott M Lundberg and Su-In Lee. A unified approach to interpreting model predictions. Advances in neural information processing systems, 30, 2017. Meghan Winters, Gavin Davidson, Diana Kao, and Kay Teschke. Motivators and deterrents of bicycling: comparing influences on decisions to ride. Transportation, 38(1):153–168, January 2011. Num Pages: 16. Salim I. Amoukou, Nicolas J-B. Brunel, and Tangi Salaün. Accurate shapley values for explaining tree-based models. In 25th International Conference on Artificial Intelligence and Statistics (AISTATS), 2023.