FGSV-Nr. FGSV 002/127
Ort online-Konferenz
Datum 13.04.2021
Titel Erzeugung und Nutzung synthetischer Routeninformationen aus aggregierten Daten der Radverkehrsnachfrage
Autoren Dipl.-Geogr. Stefan Huber
Kategorien HEUREKA
Einleitung

Detaillierte Routendaten von Radfahrenden sind für viele Städte nicht verfügbar und nur sehr aufwändig zu erheben. Aggregierte GPS-basierte Radverkehrsdaten, wie sie bspw. von Strava und anderen Anbietern veräußert werden, sind hingegen für viele Städte vorhanden und relativ günstig zu beschaffen. Ließen sich aus diesen Daten synthetische Routen disaggregieren, so stünde eine günstige Datenquelle für Planung und Forschung zur Verfügung. Im Artikel wird ein Disaggregationsansatz vorgestellt, der für die Erzeugung einzelner synthetischer Routen aus aggregierten GPS-basierten Daten genutzt werden kann. Es wird gezeigt, dass die synthetisch erzeugten Routen teils sehr hohe Übereinstimmung mit den Originalrouten aufweisen (bis zu 97%). Es wird jedoch auch deutlich, dass sich ein mit den Originalrouten geschätztes Routenwahlmodell nicht mit synthetisch erzeugten Routen reproduzieren lässt.

PDF
Volltext

Der Beitrag ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1 Einleitung

Die Steigerung des Radverkehrsanteils wird als ein wesentlicher Bestandteil auf dem Weg zu einem umweltverträglicheren städtischen Verkehrssystem angesehen [1]. Um die Fahrrad­nutzung zu fördern, müssen jedoch entsprechend gute Rahmenbedingungen zum Radfahren geschaffen werden. Dazu gehört vor allem eine an die Bedürfnisse der Radfahrenden angepasste Infrastruktur [2].

Damit Städte möglichst effektiv in Radverkehrsinfrastruktur investieren können, benötigen Verkehrsplaner Informationen darüber, welche Art von Infrastruktur wo umgesetzt werden sollte. Um Aussagen zu Präferenzen von Radfahrenden bei deren Routenwahl abzuleiten, werden meist disaggregierte Daten zu real beobachtetem Verhalten genutzt. GPS-Daten sind solch disaggregierte Daten. Bedauerlicherweise sind derartige Daten meist nicht flächendeckend verfügbar und nur sehr aufwendig zu erheben [3].

Kommerzielle Daten, die von privaten Unternehmen angeboten werden, könnten eine Alter­native darstellen und diese Lücke füllen. Weltweit nutzen bspw. mehr als 10 Mio. Menschen in 195 Ländern (2017) die Strava Smartphone-App um ihre Fahrten mit dem Fahrrad zu tracken [4] und es gibt neben Strava noch weitere Datenanbieter. Die angebotenen Daten stellen – in unterschiedlicher Qualität – das real beobachtete Verhalten der Radfahrenden und ihrer Routenwahl dar und besitzen daher ein augenscheinlich sehr großes Nutzungspotential. [5], [6] und [7] zeigen, wie derartig erhobene Daten für Forschung und Planung genutzt werden können. Da die erhobenen Daten jedoch nur als aggregierte Datensätze herausgegeben werden, erfüllen sie nicht die Ansprüche an den Detailgrad von Verkehrsplanern. Wäre eine Disaggregation dieser Daten möglich, so könnten sie dennoch für detaillierte Analysen, wie bspw. die Schätzung von Routenwahlmodellen, genutzt werden.

Die Forschungsfrage des vorliegenden Artikels lautet daher wie folgt: Können aggregierte Daten der Radverkehrsnachfrage disaggregiert bzw. synthetische Routen erzeugt werden, die für die Analyse des Routenwahlverhaltens genutzt werden können?

Zur Beantwortung dieser Frage wird zunächst der Forschungsstand in Kapitel 2 vorgestellt, bevor anschließend in Kapitel 3 die genutzten Methoden und Daten dargestellt werden. Dies schließt sowohl den Disaggregationsansatz ein, der für die Erzeugung der synthetischen Routen entwickelt wurde, als auch die Abschätzung auftretender Differenzen bei den resultierenden Routenwahlmodellen. In Kapitel 4 werden die Ergebnisse des Ansatzes, der auf einen vorliegenden GPS-Datensatz angewendet wurde, präsentiert. Es folgt eine Diskussion sowie das Fazit im letzten Kapitel des vorliegenden Artikels.

2 Forschungsstand

In der jüngeren Vergangenheit untersuchten zahlreiche Studien kommerziell erworbene GPS-basierte Daten der Radverkehrsnachfrage und deren Nutzen für die Verkehrsplanung. Seitdem die Firma Strava im Jahr 2014 damit begann die von ihren Tracking-App-Nutzern erhobenen Radverkehrsdaten in aggregierter Form zu verkaufen [8], wurde vor allem die Nutzung jener Daten in Studien untersucht [9].

[10] nutzen diese Daten zur Untersuchung der räumlichen und zeitlichen Verteilung des Radverkehrs in Victoria, British Columbia (Kanada). Sie analysieren in ihrer Studie das Radverkehrsaufkommen an unterschiedlichen Streckenabschnitten und finden Zusammen­hänge zwischen dem Aufkommen der Strava-Daten und den Referenzwerten aus Zählungen für einzelne Querschnitte. Die Ergebnisse weisen auf einen moderaten linearen Zusammen­hang hin (0,40 < R2 < 0,58).

[11] nutzen ebenso die von Strava angebotenen Daten und untersuchen die räumliche Verteilung und zeitlichen Variationen des Radverkehrs in Johannesburg (Südafrika). Im Rahmen der Studie wurden jedoch lediglich deskriptive Auswertungen durchgeführt.

Für ihre Untersuchungen in der Stadt Malmö (Schweden) erwarben [12] ebenfalls aggregierte Daten von Strava. Sie fanden, in Analogie zu [10], Zusammenhänge zwischen dem Radverkehrs­aufkommen in den Strava-Daten und den Referenzwerten aus Querschnitts­zählungen von automatischen Dauerzählstellen im Stadtgebiet.

Die Studie von [13], in der der Raum Ottawa-Gatineau (Kanada) betrachtet wurde, hat einen ähnlichen Schwerpunkt. [13] fanden ebenso Korrelationen zwischen den Strava-Daten und Querschnittszählungen (0,76 < R2 < 0,96). Die Autoren finden zudem heraus, dass sich die räumlichen Muster des Radverkehrs in den Strava-Daten bei angebotsseitigen Änderungen (z.B. Umsetzung infrastruktureller Maßnahmen) verändern. Sie schlussfolgern, dass sich die Daten daher für das Monitoring von Radverkehrsströmen eignen.

[14] analysieren die Strava-Daten für Greater Sydney (Australien) und finden ebenso wie andere Studien Zusammenhänge zw. den Strava-Daten und konventionell erhobenen Zähldaten. Die Ergebnisse zeigen jedoch auch, dass es in Abhängigkeit der räumlichen Lage zu signifikant unterschiedlich starken Zusammenhängen kommen kann.

[15] finden in ihrer Studie ähnliche Ergebnisse für das Stadtgebiet von Dresden (Deutschland). Sie analysieren und validieren die Strava-Daten darüber hinaus bzgl. Geschwindigkeiten im Netz, Wartezeiten an Knotenpunkten und dem Quellverkehrsauf­kommen in unterschiedlichen Zonen der Stadt. [15] weisen dabei unterschiedlich starke Zusammenhänge nach.

[16] nutzen die Strava-Daten zur Analyse des Radverkehrs in Glasgow (Schottland) und beobachten ebenso lineare Zusammenhänge des Verkehrsaufkommens. Sie nutzen darüber hinaus die Quelle-Ziel-Daten (Wege-Strings) und erzeugen Verkehrsströme auf den kürzesten Wegen zw. den Quell- und Zielzellen. Sie stellen diese dem von Strava gelieferten Verkehrsmengen im Netz gegenüber und ziehen so Schlüsse über die Routenwahl der Nutzer.

Die beschriebenen Arbeiten zeigen, dass bereits unterschiedliche Studien die Nutzung aggregierter GPS-basierter Radverkehrsdaten für die Verkehrsplanung untersucht haben. Die für diese Studien genutzten Daten enthalten aus datenschutzrechtlichen Gründen jedoch nur auf Netzkanten bezogene Verkehrsaufkommen. Darüber hinaus enthalten die angebotenen Daten sog. Wege-Strings. Sie geben Auskunft über Quell- und Zielzellen von Fahrten sowie über die auf den Relationen durchfahrenen (Transit-) Zellen. Da es sich bei diesen Daten jedoch lediglich um aggregierte Daten (Verkehrsaufkommen) geringer Auflösung (Zellengröße) handelt, können damit keine detaillierten Analysen zum Verhalten (bspw. zur Routenwahl) durchgeführt werden. Für derartige Analysen sind detaillierte Routen­informationen (Einzelrouten) notwendig.

Dies wird auch bei der Betrachtung von Studien zur Routenwahl im Radverkehr ersichtlich (siehe bspw. [17]-[27]), innerhalb derer Routen erhoben und einem Set von Alternativrouten gegenüberstellt werden, um mit statistischen Verfahren Routenwahlmodelle zu schätzen. Zwar lassen sich durch derartige Erhebungen oft hunderte oder tausende Routen von Radfahrenden erheben, doch sind diese Erhebungen meist sehr aufwändig und teuer.

Könnten die bereits vorhandenen aggregierten Daten der Radverkehrsnachfrage derart disaggregiert werden, dass sich einzelne Routen aus ihnen synthetisieren ließen, so könnten Forscher und Planer auf diese bereits weiträumig vorhandenen Daten zur Analyse des Rad­verkehrsverhaltens zurückgreifen.

3 Daten und Methoden

3.1 Daten kommerzieller Anbieter - das Beispiel Strava

Die Radverkehrsdaten von Strava werden durch einen sog. Crowdsourcing-Ansatz erhoben. Das bedeutet, dass die Radfahrenden selbst via GPS und Smartphone-App ihre Routen aufzeichnen und sie an den Anbieter übermitteln. Diesem liegen dementsprechend detaillierte Routeninformationen zu den Radfahrten vor. Aus Geschäfts- und Datenschutzgründen bieten kommerzielle Anbieter jedoch keine Einzelrouten zum Verkauf an, sondern aggregieren die erhobenen Daten [28].

Strava aggregiert bspw. alle Einzelfahrten auf ein zuvor definiertes (GIS-) Netzmodell, sodass lediglich aggregierte Informationen (Radverkehrsaufkommen auf den einzelnen Straßen­segmenten) vorliegen. Darüber hinaus kann ein zuvor definiertes Polygon-Netz mit Verkehrszellen (z.B. Raster mit 1.000m Kantenlänge) angefragt werden, zu dem sog. Wege-Strings geliefert werden. Sie geben Auskunft über Quell-, Ziel- und Transitzellen einer Fahrt. Die Zellgröße kann von den Kunden definiert werden – es müssen jedoch datenschutz­rechtliche Vorgaben ein­gehalten werden [28].

Es konnte in Arbeiten bereits gezeigt werden, dass aus derart aggregierten Daten prinzipiell Einzelrouten (GPS-Trajektorien) erzeugt werden können [29]. Um die Validität dieser erzeugten Routen zu untersuchen, bedarf es jedoch der Rohdaten, um die synthetisierten Routen mit den Originalrouten vergleichen zu können.

3.2 GPS-Forschungsdatensatz

Da Datenanbieter keine derart detaillierten Routendaten anbieten, wird auf einen Forschungsdatensatz von GPS-Routen von Radfahrenden zurückgegriffen, der an der TU Dresden vorliegt. Die Daten stammen aus einer umfangreichen Feldstudie, die das Radverkehrs­verhalten unterschiedlicher Nutzergruppen untersucht [30]. Im Rahmen der Studie wurden im Raum Dresden im Mai/Juni 2018 rund 5.000 Fahrten von ca. 200 Teilnehmern per Smartphone-App aufgezeichnet. Mit Hilfe dieser Daten kann der entwickelte Ansatz zum Synthetisieren von Einzelrouten getestet und validiert werden.

Die Daten werden in einem ersten Schritt aggregiert, sodass sie im gleichen Format und auf gleichem Aggregationsniveau vorliegen, wie sie bspw. von Strava angeboten werden. Die Daten werden dann für den Disaggregationsansatz genutzt und die synthetisierten Routen anschließend den Originalrouten gegenübergestellt, um deren Genauigkeit zu ermitteln. In einem letzten Schritt wird für jeden synthetisierten Datensatz ein Routenwahlmodell geschätzt, um sich ergebende Differenzen bestimmen zu können.

3.3 Aggregation der GPS-Forschungsdaten 

Zur Erzeugung eines Datensatzes, der vergleichbar zu den von Strava angeboten Daten ist, werden die Daten aus 3.2 unter Nutzung von QGIS [32] wie folgt aggregiert:

a) Definition und Erzeugung eines Polygon-Layers

In Deutschland wird bei Geodaten (v.a. GPS-Daten) aus Datenschutzgründen eine maximale räumliche Auflösung empfohlen. Der IMAGI (Interministerielle Ausschuss für Geo­informationen) empfiehlt bspw. eine maximale Auflösung von 1ha (100x100m) als Unter­grenze. Darüber hinaus sollten mindestens vier Haushalte in Zellen dieser Größenordnung existieren, um ausreichend Anonymität zu gewährleisten [32]. Aus diesem Grund wurde als minimale Auflösung eine Zellengröße von 100x100m gewählt. Da es aufgrund unterschied­licher Räume zu verschiedenen Anwendungsfällen kommen kann, wurde zusätzlich eine Zellgröße von 350x350m (entspricht der minimalen Auflösung der von Strava angebotenen Daten = 1.000 Fuß) sowie 1.000x1.000m (Auflösung des Geostatistischen Rasters der EU) genutzt. Abbildung 1 a) und b) verdeutlichen die unterschiedlichen Zellengrößen am Bsp. eines Ausschnitts aus der Dresdner Neustadt. Sie verdeutlichten, dass die unterschiedlichen Zellengrößen nicht den Vorgaben des IMAGI widersprechen, weil Bebauungsdichte und Anzahl der Haushalte in innerstädtischen Gebieten groß genug sind. Die definierten Zellen wurden mit QGIS 3.4 generiert [31]. Sie enthalten 704 (1.000x1.000m), 5.747 (350x350m) bzw. 70.400 (100x100m) Zellen und decken das gesamte Gebiet der Stadt Dresden ab.

Abbildung 1: Verdeutlichung der Zellengrößen am Bsp. der Dresdner Neustadt

b) Matching der GPS-Tracks zu den Polygonen

Es existieren unterschiedliche Möglichkeiten die Routendaten den erzeugten Zellen zuzuordnen (Matching). In diesem Fall wurde die Merge-Funktion genutzt, um jedem Punkt eines GPS-Tracks die ID der Zelle zu übertragen, in dem er sich befindet.

c) Berechnung der Wege-Strings

Zur Berechnung der Wege-Strings werden die Tracks mit den in b) erzeugten Zusatz­informationen in einem dritten Schritt gefiltert und aufbereitet. So kann bspw. in Datenbanken (PostgreSQL, Access) oder mit Hilfe von Tabellenkalkulationsprogrammen (bei geringen Datenmengen) über die kontinuierlich fortlaufende Punkt-ID gefiltert werden (Minimierung- und Maximierungsfunktionen), um die Start- und Endpunkte zu ermitteln. Darüber hinaus verbleiben durch das Löschen von Duplikaten eindeutige Werte – also ein Punkt pro Zelle. Diese werden als Wege-Strings je QZ-Relation exportiert und enthalten dann die auf die Zellen-Struktur reduzierten Informationen: eine ID der Quell- und Zielzelle sowie die IDs der Transitzellen. Der räumliche Informationsgehalt der Daten entspricht damit dem von kommerziellen Anbietern zur Verfügung gestellten Daten. Sie können im Folgenden für den Test des Disaggregationsansatzes genutzt werden. Abbildung 2 verdeutlicht die in den vorigen Abschnitten beschriebene Aggregationsmethode beispielhaft für einen GPS-Track. Die Aggregation wurde in QGIS mittels Batch-Processing umgesetzt.

Abbildung 2: Visualisierung der Datenaggregation am Bsp. eines GPS-Tracks

3.4 Disaggregationsansatz

Die Erzeugung synthetischer Routen aus den aggregierten Daten folgt einem mehrstufigen Ansatz. Er beinhaltet die folgenden Stufen:

a) Datenimport und Selektion potenziell genutzter Netzelemente

In einem ersten Schritt werden Polygon-Layer (Zellen), Netzmodell (Straßennetz) sowie die Wege-Strings importiert. Für die folgenden Schritte wurde ein OSM-Netz der Stadt Dresden sowie die in 3.3 beschriebenen Daten genutzt. In der ersten Stufe werden aus dem Netzmodell für jede QZ-Relation alle Netzsegmente gewählt, die innerhalb der Zellen liegen. Die Information zu den Zellen stammt aus den Wege-Strings. Anschließend werden alle übrigen Netzelemente über eine QGIS-Funktion (z.B. CLIP) entfernt, sodass nur Netzelemente (Kanten) innerhalb der Quell-, Ziel- und Transitzellen bestehen bleiben.

b) Erzeugung von Zentroiden für Quell- und Zielzellen

Mittels der Informationen in den Wege-Strings (ID der Quell- und Zielzellen) werden in einem nächsten Schritt für jede QZ-Relation Zentroide in den Quell- und Zielzellen erzeugt (QGIS-Tool: POLYGON CENTROIDS). Sie stellen den Zellmittelpunkt der jeweiligen Quell- und Zielzellen dar und werden in der nächsten Stufe für die Routensuche genutzt.

c) Point-to-point Routing

In dieser Stufe erfolgt die Routensuche. Um eine Route zwischen den erzeugten Zentroiden der Quell- und Zielzellen zu finden, wird auf den Algorithmus „Punkt-zu-Punkt-Routensuche“ von QGIS zurückgegriffen. Die Routensuche nutzt den Dijkstra-Algorithmus und sucht die kürzeste Route zwischen zwei Punkten innerhalb eines Netzes. Sie wird für jede Relation zwischen den berechneten Quell- und Ziel-Zentroiden auf den in a) selektierten Netzelementen durchgeführt. Die gefundene Route wird letztlich mit einem Attribut, dass die Zugehörigkeit der synthetischen Route zur Originalroute angibt, gespeichert und steht für den Vergleich mit ebendieser bereit. Abbildung 3 visualisiert die beschriebenen Schritte beispielhaft für einen Datensatz. Die Disaggregation wurde ebenfalls in QGIS mittels Batch-Processing umgesetzt.

Abbildung 3: Visualisierung der Disaggregation zur Erzeugung synthetischer Routen

3.5 Güte der Disaggregation

Um die Genauigkeit des Disaggregationsansatzes exakt zu bestimmen, kann die Güte des Disaggregationsmodells berechnet werden. Eine Möglichkeit dazu ist die Berechnung der sog. Fitness. Dieses Konzept ist vor allem in der Informatik weit verbreitetet und wird häufig bei dem Einsatz von evolutionären Algorithmen genutzt. Die Fitness gibt Aufschluss darüber, wie “fit” eine durch einen Algorithmus gefundene Lösung im Vergleich zur optimalen Lösung ist [33]. Sie kann bspw. durch einen Vergleich der gefundenen Lösung (hier: synthetisierte Route) mit einer Ziellösung (hier: die Originalroute) berechnet werden. Darüber hinaus kann zwischen zwei unterschiedlichen Fitness-Parametern unterschieden werden, um die Güte des Modells zu beschreiben: a) der Lokalen Fitness und b) der Globalen Fitness.

Die Lokale Fitness LFi gibt die Fitness jeder einzelnen synthetisierten Route SRi an. Sie ist hier definiert als gemeinsamer Streckenanteil der Originalroute ORi und der synthetisierten Route SRi, der durch die Kongruenz von ORi und SRi bestimmt wird. LFi wird berechnet nach:

Formel siehe PDF

mit lKRi als Länge der kongruenten Routenabschnitte zwischen ORi und SRi sowie lORi als Länge der Originalroute ORi. Die Lokale Fitness kann Werte zwischen 0 und 1 annehmen. Eine LFi = 0 bedeutet, dass ORi und SRi keinen gemeinsamen Routenverlauf besitzen. Ist LFi = 1, so stimmen SRi und ORi zu 100% überein.

Die Werte der LFi-n fließen in die Berechnung der Globalen Fitness GF ein. Sie zeigt die durchschnittliche Fitness des Gesamtmodells an und gibt somit einen Überblick über die Gesamtgüte des Disaggregationsansatzes. GF berechnet sich nach:

Formel siehe PDF

Die GF kann nach Erzeugung jeder zusätzlichen synthetischen Routen SRi+1 neu berechnet werden und zeigt damit im Verlauf der Erzeugung jeder zusätzlichen synthetischen SRi+1 an, wie sich die Modellgüte insgesamt entwickelt. Die Berechnung der relativen Änderung der GFn+1 im Vergleich zu GFn zeigt auch an, wenn keine nennenswerten Verbesserungen des Gesamtmodells mehr erreicht werden.

3.6 Routenwahlmodell

Um den Disaggregationsansatz und die Nutzbarkeit der synthetisch erzeugten Routen zu untersuchen, wird im Anschluss an die Erzeugung der synthetischen Routen für jede Auflösung ein Routenwahlmodell geschätzt. Die Ergebnisse werden anschließend mit den Ergebnissen des Modells, das mit den Originalrouten geschätzt wurde, verglichen. Dies erlaubt etwaige Abweichung in den Modellparametern zu identifizieren und deren Auswirkung auf die Aussagekraft der einzelnen Modelle zu analysieren.

Dazu wird jeweils ein klassisches Logit-Modell (Binär Logistische Regression) mit den entsprechend synthetisierten Routendaten geschätzt. Die Modelform lautet:

Formel siehe PDF

mit pi als Wahlwahrscheinlichkeit einer Alternative i, der Eulerschen Zahl e (Basis des natürlichen Logarithmus) sowie dem Logit z einer Alternative i. Der Logit z wird auch als Nutzen einer Alternative bezeichnet und beschreibt ein lineares Regressionsmodell. Die verwendete Nutzenfunktion lautet wie folgt:

Formel siehe PDF

mit den Regressionskoeffizienten βn und den alternativen-spezifischen unabhängigen Variablen xn und dem Fehlerterm ε. Das Modell beinhaltet die folgenden unabhängigen Variablen: Distanz der Routen(-alternative), Radverkehrsführungsform (Anteil separat geführter Radwege auf der Route) sowie DTV des MIV entlang der Routen(-alternative). Die Daten basieren auf Berechnungen (Distanz), OpenStreeMap (Führungsform) und Daten aus dem Themenstadtplan der Stadt Dresden (DTV). Als Routenalternative wurde der kürzeste Weg ermittelt. Für die Modellschätzung wurde eine Maximum-Likelihood-Schätzung mittels SPSS (24.0) durchgeführt.

4. Ergebnis

4.1 Disaggregation

Um den entwickelten Disaggregationsansatz anzuwenden und dessen Ergebnisse zu validieren, wurde er auf die in Kapitel 2 beschriebenen und in Kapitel 3 aggregierten Daten angewendet. Es kann zunächst allgemein festgehalten werden, dass der Disaggregations­ansatz funktioniert und plausible synthetische Routen erzeugt. Die synthetisierten Routen stimmen in Abhängigkeit der Zellengröße der in Kapitel 3.3 definierten Zellen stark bis schwach mit den Originalrouten überein. Abbildung 4 visualisiert die Ergebnisse des Ansatzes beispielhaft für eine Relation. Sie stellt die räumliche Übereinstimmung von synthetisierter und Originalroute innerhalb des Netzmodells und der Zellenstruktur (hier: 1.000x1.000m) dar.

Abbildung 4: Visualisierung der Ergebnisse am Bsp. einer Relation

Die Berechnung der Globalen Fitness zeigt, dass der Disaggregationsansatz mit einer GF100x100m = 0,82 recht gute Ergebnisse liefert. Dieser Wert entspricht einer mittleren Übereinstimmung der SRi und ORi von 81,5% für die Zellenstruktur mit einer Kantenlänge von 100m. Mit zunehmender Zellengröße verschlechtert sich die Globale Fitness allerdings auf einen Wert von GF350x350m = 0,59 und GF1.000x1.000m = 0,29. Die Graphen in Abbildung 5 a) bis 5 c) verdeutlichen die Entwicklung und Interaktion zwischen LF und GF für die unterschiedlichen Zellgrößen.  Die GF100x100m erreicht überraschenderweise bereits nach wenigen Routensynthetisierungen einen recht hohen Wert (siehe Abb. 5a), der sich schon früh um den genannten Wert (0,82) einpendelt und auch bei weiteren Iterationen auf dem Niveau verbleibt. Demgegenüber weist die GF350x350m eine starke Schwankung der Werte auf und erreicht erst nach ca. 100 Routensynthetisierungen einen stabilen Wert (siehe Abb. 5b), der sich um den bereits genannten Wert (0,59) einpendelt. Auch die GF350x350m bleib mit zunehmender Anzahl synthetisierter Routen stabil. Die GF1.000x1.000m zeigt ähnlich hohe Schwankungen und weist ebenso nach ca. 100 Routensynthetisierungen einen stabilen Wert (0,29) auf (siehe Abb. 5c). Er bleibt, ebenso wie die anderen GF, mit zunehmender Synthetisierung stabil. Für die Lokale Fitness wurde ein Maximal­wert von 0,97 beobachtet (Kongruenz von 96,7% zw. ORi und SRi bei 100x100m). Als minimale Lokale Fitness konnte ein Wert von 0,00 beobachtet werden (0% Kongruenz zw. ORi und SRi bei 1.000x1.000m).

Dies zeigt, dass die Ergebnisse des Modells, und damit die Modellgüte insgesamt, in hohem Maße von der Zellgröße (Kantenlänge der Zellen) der definierten Zellstruktur abhängen. Während die Ergebnisse für kleine Zellgrößen sehr gut sind, nimmt sie bei zunehmender Zellengröße ab. In Tabelle 1 sind die zentralen Kennwerte für die unterschiedlichen Zellengrößen dargestellt. 

Abbildung 5: Entwicklung von LF und GF mit zunehmender Synthetisierung von Routen für die unterschiedlichen Zellgrößen mit einer Kantenlänge von 100 m (a), 350 m (b) und 1.000 m (c)

Tabelle 1: Vergleich der Modellgüte für die unterschiedlichen Zellgrößen

Da bereits vor dem Versuch angenommen wurde, dass sich die Modellgüte ab einem gewissen Punkt mit zusätzlicher Synthetisierung von Routen nicht weiter verändert, wurde vorab ein Grenzwert festgelegt, bei dem weitere Berechnungen abgebrochen werden können, weil sie zu keiner nennenswerten Verbesserung führen. Der zuvor definierte Grenzwert GWGF der relativen Änderung der Globalen Fitness von ΔGF ≤ 0,5% wurde bei der geringsten Auflösung (100x100m) nach weniger als 60 synthetisierten Routen bereits dauerhaft unterschritten (siehe Abb. 6). Für die anderen Auflösungen wurde dieser Punkt erst ab ca. 100 synthetisierten Routen erreicht. Weitere Berechnungen führten zwar zu einem weiteren Absinken von ΔGF – teilweise auf unter 0,2%. Aufgrund der geringen relativen Änderungen waren diese jedoch marginal. Aus Abb. 5 und Abb. 6 wird ersichtlich, dass sich die Globale Fitness nach rund 100 synthetisierten Routen bei allen Auflösungen nicht mehr signifikant ändert.

Abbildung 6: Änderung der Globalen Fitness mit zusätzlicher Synthetisierung (n)

Aufgrund der geringen Änderungsrate von GF wurde die Synthetisierung von Routen aus dem aggregierten Datensatzes nach 150 Iterationen gestoppt, weil keine weiteren signifikanten Verbesserungen oder Verschlechterungen der Modellgüte beobachtet wurden und dadurch auch keine zusätzlichen Informationen zur Güte erzielt werden konnten.

4.2 Routenwahlmodelle

Auf Basis der Originalrouten, der synthetisierten Routen sowie der jeweiligen Routen­alternativen wurden vier Routenwahlmodelle geschätzt. Die einzelnen Regressions­koeffizienten der Modelle sind in Tabelle 2 gegenübergestellt.

Das Modell mit den Originalrouten (OR) zeigt Koeffizienten, die sich gut erklären lassen. Die Distanz übt im Modell einen moderaten positiven Einfluss auf die Wahlwahrscheinlichkeit aus, weil die gewählten Routen den kürzesten (nicht gewählten) Wegen auf der jeweiligen Relation gegenübergestellt wurden. Demgegenüber hat ein hoher DTV (≥10.000 Kfz/Tag) entlang einer Route negative Auswirkungen auf die Wahlwahrscheinlichkeit. Das Vorhanden­sein separat geführter Radwege wirkt sich hingegen positiv auf die Wahlwahrscheinlichkeit einer Route aus.

Tabelle 2: Regressionskoeffizienten der Modelle

Die Koeffizienten der mit den synthetischen Routendaten geschätzten Modelle zeigen im Vergleich dazu deutliche Unterschiede. So wird bspw. ersichtlich, dass die Koeffizienten der Distanz bei den SR-Modellen zwar die gleichen Vorzeichen besitzen, die Parameter jedoch von dem des OR-Modells abweichen. Ähnliches ist bei dem Merkmal „DTV ≥ 10.000“ zu beobachten (gleiche Vorzeichen). Allerdings wirkt sich ein hoher DTV bei den Modellen SR100x100m und SR350x350m deutlich weniger stark auf die Wahlwahrscheinlichkeit einer Route aus als bei dem OR-Modell oder dem Modelle SR1.000x1.000m, in dem das Merkmal sich noch stärker negativ auf die Wahlwahrscheinlichkeit auswirkt. Große Unterschiede sind bei dem Merkmal „sep. Radwege“ zu beobachten. Während sich das Vorhandensein separat geführter Radwege im OR-Modell positiv auswirkt, verringert es bei den Modellen SR100x100m und SR1.000x1.000m. sogar die Wahlwahrscheinlichkeit.

Die Omnibus-Tests der Modellkoeffizienten (Chi-Quadrat-Tests) zeigen, dass die Modelle SR100x100m und SR350x350m als Ganzes nicht signifikant sind (Sig. = 0,757 bzw. 0,578). Darüber hinaus zeigen das Cox&Snell R² und das Nagelkerkes R² bei den beiden Modellen sehr geringe Werte an (0,004 bzw. 0,007 und 0,005 bzw. 0,009). Die geringere Modellgüte zeigt sich auch in den geringeren Prozentsätzen der richtigen Vorhersagen (52% bzw. 50%) ggü. den Modellen OR (62%) und SR1.000x1.000m (60%).

5 Diskussion und Fazit

Kapitel 2 hat verdeutlicht, dass bereits viele Arbeiten aggregierte Daten für die Untersuchung des Radverkehrsverhaltens nutzen (siehe [10]-[16]). Die meisten Studien analysieren aufgrund des Aggregationsniveaus der Daten jedoch nur das Radverkehrs­aufkommen und dessen räumliche Verteilung. Andere Forschungsarbeiten, z.B. zur Routenwahl zeigen wiederum, dass disaggregierte Daten für eine detailliertere Analyse des Radverkehrsverhaltens notwendig sind (siehe [17]-[27]). Mit der vorgestellten Methode wurde gezeigt, dass es grundsätzlich möglich ist, einzelne synthetische Routen aus aggregierten GPS-basierten Datensätzen zu erzeugen, die dann für detaillierte Analysen genutzt werden könnten.

Die Ergebnisse des vorliegenden Modells fallen in ihrer Güte jedoch unterschiedlich aus (siehe Kapitel 4.1). Umso größer die Kantenlänge der Zellen, desto geringer fällt die Genauigkeit bei der Reproduktion der Originalrouten aus. Qualitativ konnte zudem ein Einfluss der Straßendichte im Netzmodell beobachtet werden. Bei der Verwendung des Ansatzes sollten Nutzer dementsprechende Einflüsse berücksichtigen. Darüber hinaus wird es aus Datenschutzgründen nicht immer möglich sein, aggregierte Daten auf Basis sehr kleiner Zellen (z.B. 100m Kantenlänge) zu nutzen, da potenzielle Datenanbieter an datenschutzrechtliche Vorgaben gebunden sind und bspw. bei geringer Bebauungsdichte die Routendaten nur auf Basis größerer Zellen (z.B. 350m oder 1.000m) aggregieren und anbieten werden.

Neben der Polygongröße hat die Qualität des Netzmodells, das für das Routing genutzt wird, einen wesentlichen Einfluss auf die Ergebnisse des Disaggregationsansatzes. So können bspw. Fehler beim Routing auftreten, wenn die von den Radfahrenden real genutzten Streckensegmente nicht in dem Netzmodell existieren. Obwohl Radfahrende diese Segmente genutzt haben, wird der Algorithmus keine entsprechende Route finden, die diese Strecken berücksichtigt.

Darüber hinaus können Nutzer-bedingte Fehler auftreten – z.B. wenn Radfahrende auf „offiziell“ nichtexistierenden Wegen unterwegs sind (z.B. beim Kreuzen großer Flächen). Derartige Fehler werden zwangsläufig zu Fehlern bzw. Ungenauigkeiten beim Suchen der korrekten Route führen.

Eine weitere Einflussgröße des Ansatzes besteht in dem verwendeten Routensuch-Algorithmus. Der für die vorliegende Arbeit verwendete Dijkstra-Algorithmus sucht den kürzesten Weg zwischen den Quell- und Ziel-Zentroiden. Die Ergebnisse könnten sich mit einem angepassten Routensuch-Algorithmus, der mehr Attribute als nur die Distanz berücksichtigt, weiter verbessern – insbesondere bei der Routensuche innerhalb größerer Zellen.

Die mit dem Ansatz synthetisierten Routendaten können prinzipiell von Planern für weitere Analysen genutzt werden. Wie vermutet, hat sich im vorliegenden Fall gezeigt, dass sich die Güte der Synthetisierung direkt auf die Ergebnisse der Routenwahlmodelle auswirkt, die mittels synthetisierter Routen geschätzt werden können. Trotz teils hoher Übereinstimmung der synthetischen Routen (siehe Tabelle 1) mit den Originalrouten, konnten bei den geschätzten Modellen aber nur eine geringe Güte bei der Vorhersage erreicht werden (siehe Kapitel 4.2).

Der präsentierte Ansatz stellt damit zwar eine Methode dar, mit der sich unter gewissen Voraussetzungen adäquat synthetische Routendaten aus aggregierten Datensätzen erzeugen lassen, was wiederum das Potential vorhandener aggregierter Daten für deren Nutzung erhöht. Die erzeugten synthetischen Routen scheinen für die Schätzung von Routen­wahlmodellen und die Modellierung jedoch nicht geeignet.

6 Literatur

[1]   T. Böhmer, F. Richter, R. Wittwer (2012). Potenziale des Radverkehrs für den Klimaschutz. Schlussbericht zum Umweltforschungsplan des Bundesministeriums für Umwelt, Naturschutz und Reaktorsicherheit. Dresden.

[2]   M. Birk, R. Geller (2006). Bridging the Gaps: How Quality and Quantity of a Connected Bikeway Network Correlates with Increasing Bicycle Use. Transportation Research Board, 85th Annual Meeting.

[3]   S. Lißner, A. Francke, O. Chernyshova, T. Becker (2017). App-Daten für die Radverkehrsplanung. Eine explorative Datenanalyse von GPS-Daten im Radverkehr. Internationales Verkehrswesen, Heft 1/2017, S.48-52, München.

[4]   T. Thornhill (2017). Globally cyclists clocked up 4.5 BILLION miles and Regent's Park is the UK's most popular bike route: GPS training app reveals how much exercise the world did in 2017. Mail Online, United Kingdom

[5]   A. Clarke, R. Steele (2011). How Personal Fitness Data Can be re-used by Smart Cities. Seventh International Conference on Intelligent Sensors, Sensor Networks and Information Processing (ISSNIP), Adelaide.

[6]   G. Romanillos, M.Z. Austwick, D. Ettema, J. De Kruijf (2015). Big Data and Cycling. Transport Reviews.

[7]   D. Milne, D. Watling (2018). Big data and understanding change in the context of planning transport systems, Journal of Transport Geography.

[8]   R. Albergotti, (2014). Strava, popular with cyclists and runners, wants to sell its data to urban planners. Wall Street Journal

[9]   K. Wamsley (2014). Optimal power-based cycling pacing strategies for Strava segments. Doctoral dissertation. University of Pennsylvania, Kutztown.

[10]B. Jestico, T. Nelson, M. Winters (2016). Mapping Ridership using crowdsourced cycling data, Journal of Transportation Geography.

[11]W. Musakwa, K.M. Selala (2016). Mapping cycling patterns and trends using Strava Metro data in the city of Johannesburg, South Africa. Data in Brief 9, 898-905.

[12]J. Holmgren, A. Aspegrena, J. Dahlströma (2017). Prediction of bicycle counter data using regression. The 2nd edition of the International Workshop on Data Mining on IoT Systems (DaMIS), Procedia Computer Science 113 (2017) 502–507

[13]D. Boss, T. Nelson, M. Winters, C.J. Ferster (2018). Using crowdsourced data to monitor change in spatial patterns of bicycle ridership. Journal of Transport Health.

[14]L. Conrow, E. Wentz, T. Nelson, C. Pettit (2018). Comparing spatial patterns of crowdsourced and conventional bicycling datasets. Applied Geography 92, 21-30.

[15]S. Lißner, A. Francke, T. Becker (2018). Modeling Cyclists Traffic Volume – Can Bicycle Planning benefit from Smartphone based Data? Proceedings of 7th Transport Research Arena TRA 2018, April 16-19, Vienna.

[16]D.P. McArthur, J. Hong (2019). Visualising where commuting cycliysts travel using crowdsourced data” Journal of Transport Geography.

[17]G. Menghini, N. Carrasco, N. Schüssler, K.W. Axhausen (2010). Route Choice of Cyclists in Zurich; Transportation Research Part A.

[18]J. Hood, E. Sall, B. Charlton (2011). A GPS-based bicycle route choice model for San Francisco, California. Transportation Letters 63–75.

[19]J. Broach, J. Dill, J. Gliebe (2012). Where do cyclists ride? A route choice model developed with revealed preference GPS data. Transportation Research Part A.

[20]L. Kang, J.D. Fricker (2013). Bicyclist commuters' choice of on-street versus off-street route segments. Transportation 40, 887–902. http://dx.doi.org/10.1007/s11116-013-9453-x.

[21]P.P. Koh, Y.D. Wong (2013). Influence of infrastructural compatibility factors on walking and cycling route choices.  Journal of Environmental Psychology Vol. 36, p. 202-213.

[22]J. Casello, V. Usyukov (2014). Modelling Cyclists Route Choice based on GPS Data, Transportation Research Record, TRB Annual Meeting.

[23]R. Kathri, C.R. Cherry, S.S. Nambisan, L.D. Han (2016). Modeling route choice of utilitarian bikeshare users with GPS data. Transportation Research Record - Journal of the Transportation Research Board.

[24]D. Ton, O. Cats, D. Duives, S. Hoogendoorn (2017). How do people cycle in Amsterdam? Estimating cyclists route choice determinants using GPS data from an urban area; Transportation Research Record Journal of the Transportation Research Board.

[25]P. Chen, Q. Shen, S. Childress (2017). A GPS data-based analysis of built environment influences on bicyclist route preference; International Journal of Sustainable Transportation.

[26]M. Zimmermann, T. Mai, E. Frejinger (2017). Bike route choice modeling using GPS data without choice sets of paths. Transportation Research Part C.

[27]M. Ghanayim, S. Bekhor (2018). Modelling Bicycle Route Choice using data from GPS-assisted household survey; European Journal of Transport and Infrastructure Research.

[28]S. Lißner, A. Francke, L. Schaefer (2018). "Big Data in Bicycle Traffic – A user-oriented guide to the use of smartphone-generated bicycle traffic data". Verkehrsökologische Schriftenreihe, Dresden.

[29]S. Huber, S. Lißner (2019). Disaggregation of aggregate GPS-based cycling data – How to enrich commercial cycling data sets for detailed cycling behaviour analysis. Transportation Research Interdisciplinary Perspectives, Volume 2, https://doi.org/10.1016/j.trip.2019.100041.

[30]A. Francke, J. Anke, S. Lißner (2018). Sag mir, wie du radelst und ich sage dir, welche Infrastruktur du dir wünschst – Darstellung erster Ergebnisse einer Radfahrtypologie. Verkehrswissenschaftliche Tage, Tagungsband S.139-152, Dresden.

[31]QGIS (2019). QGIS 3.4 Madeira, URL: https://www.qgis.org/de/site/forusers/download.html

[32]Interministerieller Ausschuss für Geoinformationswesen – IMAGI (2014). Behördenleitfaden zum Datenschutz bei Geodaten und -diensten.

[33]M. Keijzer, A. Tettamanzi, P. Collet, J. van Hemert, M. Tomassini (2005). Genetic Programming. Proceedings of the 8th European Conference on Genetic Programming, EuroGP, Lausanne.