FGSV-Nr. FGSV 002/127
Ort online-Konferenz
Datum 13.04.2021
Titel Explorative Analyse zur Füllung von Lücken in Geschwindigkeitsdaten
Autoren DI Christina Flitsch, Dr. Matthias Neubauer
Kategorien HEUREKA
Einleitung

Für die Erstellung einer qualitativ hochwertigen Echtzeitverkehrslage ist die Verfügbarkeit von Verkehrslagedaten essentiell. Dies ist vor allem in großen Straßennetzwerken herausfordernd. Um Lücken in Verkehrslagedaten zu füllen, wird zum Teil auf die Ergänzung durch ein Verkehrsmodell zurückgegriffen. Für die Kalibrierung und Validierung dieser werden ebenfalls genügend Verkehrsdaten benötigt. Der Informationsgewinn aus historischen Daten durch statistische Analysen erweist sich als maßgeblich. In dem vorliegenden Beitrag werden Ansätze zur Lückenfüllung von Geschwindigkeitsdaten für große Straßennetzwerke untersucht. In einer explorativen Datenanalyse werden (i) die Einflüsse von räumlichen und baulichen Attributen auf Geschwindigkeiten analysiert (ii) die Ermittlung von Ähnlichkeiten in Fahrgeschwindigkeiten mit einer Clusteranalyse analysiert und (iii) Ansätze zur Lückenfüllung durch die Clusteranalyse präsentiert.

PDF
Volltext

Der Beitrag ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1 Einleitung

Echtzeitverkehrsinformation ist notwendig für die Routenplanung individueller Verkehrsteilnehmer, Transportmanagement oder auch für effizientes Verkehrsmanagement. Bei der Erstellung von Echtzeitverkehrsinformation liegt der Interessenschwerpunkt vor allem auf den Fahrgeschwindigkeiten der Verkehrsteilnehmer um Staus und Verzögerungen zu detektieren. Über verschiedene Sensoren werden mittlerweile weltweit in unterschiedlichen Unternehmen Verkehrsdaten gesammelt und verarbeitet, um sowohl aktuelle Informationen als auch Prognosen für Einzelpersonen und Firmen zur Verfügung stellen zu können. Das Interesse des Verkehrsteilnehmers liegt meist darin, eine Route von A nach B zu planen, die Reisezeit abzuschätzen oder Prognosen zu erhalten. Aktuelle Verkehrslagen werden in der Regel über einen Level of Service visuell dargestellt, welcher auf Basis einer Referenzgeschwindigkeit definiert wird. Die verzögerte Reisezeit wird ebenfalls anhand dieser Referenzgeschwindigkeit berechnet [1].

Zur Gewinnung aktueller Echtzeitverkehrsinformation werden häufig Sensoren, wie z.B. Floating Car Data, Floating Phone Data, Dauerzählstellen und Bluetooth installiert. Betreiber von (Echtzeit-)Verkehrsinformationsdiensten sind heute jedoch immer noch gefordert flächendeckend Verkehrsinformation bereitzustellen. Neben der Verwendung von Sensoren zur Verkehrsdatenerhebung, werden dabei Lösungsansätze wie Verkehrssimulationsmodelle und/oder statistische Analysen verwendet, um eine Bereitstellung von Reisezeiten, Routeninformation und Prognosen zu unterstützen. Für die Kalibrierung und Validierung von Simulationsmodellen werden ebenfalls (historische) Verkehrsinformationsdaten benötigt. Die Analyse von historischen Verkehrslagedaten ist daher essenziell um Informationen für Bereiche, in denen es keine aktuelle und/oder historische Verkehrsinformation gibt, zu generieren [2] . Ergebnisse derartiger Analysen können Aussagen über Ähnlichkeiten und Beziehungen von Verkehrslagedaten liefern. In der Literatur wird hierfür häufig die Clusteranalyse verwendet, wobei je nach Analyseschwerpunkt (z.B. Tageszeiten, Sensortypen,. . . ) unterschiedliche Beziehungen in Verkehrsdaten identifiziert werden können. Beispielsweise haben Antoniou et al. [3] Ereignisdaten von Einsatzfahrzeugen, auf Basis von Floating Phone Data, herangezogen mit dem Ziel ein Simulationsmodell für ein kleines Straßennetzwerk mit den Ergebnissen einer Clusteranalyse zu kalibrieren. Shafei et al. [4] verwenden eine Clusteranalyse um Dauerzählstellen mit Haushaltsanalysedaten zu vergleichen und um Kalibrierungs- und Validierungsprozesse zu verbessern. Kessler et al. [5] vergleichen die Messergebnisse von Dauerzählstellen im Bereich von Stauzonen mit Floating Car Data unter der Verwendung der Clusteranalyse. Die Ähnlichkeiten bei Verkehrsunfallsdaten wurden von Yuan et al. [6] analysiert unter der Anwendung einer Clusteranalyse und Faktorenanalyse. Hou et al. [7]und Rahaman et al. [8] verwenden in unterschiedlichen regionalen Gebieten eine Clusteranalyse um Ähnlichkeiten zwischen Tageszeiten und Wochentagen festzustellen und unter anderem Verkehrsstärke daraus abzuleiten. Hertkorn [9] verwendet die Clusteranalyse um tageszeitabhängige Verkehrswege (Kombination des Wegezwecks) aus Tagebuchdaten zu klassifizieren. Jeon et al. [10] verwenden unterschiedliche Analysemethoden um die Relevanz des Einflusses von unterschiedlichen städtischen Bereichen darzustellen. Hierbei werden Informationen für umfangreichere Netzgrößen nach unterschiedliche Gebieten gespeichert und analysiert. Die Studie identifiziert unterschiedliches Verkehrsverhalten in verschiedenen städtischen Bereichen als signifikant. Russo et al [11] analysiert die Einflüsse von Kurvigkeiten von Straßen im ruralen Raum.

Zusammenfassend zeigen verwandte Arbeiten, dass die Clusteranalyse im Verkehrsbereich eine erprobte Möglichkeit ist, um Ähnlichkeiten in Verkehrsdaten offen zu legen. Dabei können auf Basis unterschiedlicher Sensordaten Zusammenhänge zwischen Tageszeiten sowie Wochentagen identifiziert werden, welche zur Füllung von Informationslücken in Verkehrsdaten dienen.

Ziel des vorliegenden Beitrages ist ein Ansatz zur Füllung von Lücken in Verkehrsdatensätzen in Bezug auf Fahrgeschwindigkeiten. Dieser Ansatz soll die Berechnung von Echtzeitverkehrslagen und die Kalibrierung von Verkehrssimulationsmodellen unterstützen. Dazu wird basierend auf dem oberösterreichischen Verkehrsnetz (mit mehr als 200.000 Links) eine explorative Datenanalyse durchgeführt. Basis der Datenanalyse sind fast 90.000 Links zur V85 und der durchschnittlichen Tagesgeschwindigkeit, welche aus Dauerzählstellen und Floating Car Data gewonnen wurden. Zusätzlich werden Tagesganglinien im 15-Minutenintervall mit der jeweiligen Geschwindigkeit verwendet. Dieser Datensatz bezieht sich auf Dienstag-Donnerstag mit über 2 Millionen Datensätze. Die Analysen werden mit dem Programm R-Studio 3.5.0 [12] durchgeführt. Im Rahmen der explorativen Analyse werden im ersten Schritt signifikante räumliche Attribute bestimmt. Weiters werden mithilfe von Clusteranalyse-Algorithmen, im speziellen der Ward-Methode und CLARA (PAM), Ähnlichkeiten der Geschwindigkeiten bezogen auf unterschiedliche Straßen untersucht. Das Paper geht dabei auf die Analyse der V85 näher ein und zeigt außerdem die Herausforderungen bei Auswertungen von großen Datensätzen auf. Im letzten Schritt wird gezeigt wie die Ergebnisse zukünftig verwendet werden könnten. Abschließend wird eine Zusammenfassung präsentiert und ein Ausblick auf weitere Tätigkeiten dargestellt.

2 Datengrundlage

Bei der Datenanalyse werden tatsächlich gefahrene historische Geschwindigkeiten untersucht. Der erste Datensatz beinhaltet für Links die V85 und die durchschnittliche Geschwindigkeit (V50) von 6:00-20:00. Die V85 ist jene Geschwindigkeit, welche von 85 Prozent der Fahrzeuge nicht überschritten wird [1]. Der zweite Datensatz beinhaltet Geschwindigkeiten für unterschiedliche Links verteilt über von 6:00-20:00 im 15-Minutenintervall. Die Geschwindigkeiten werden aus Floating Car Data, übermittelt aus unterschiedlichen Fahrzeug-Flotten, und wenn vorhanden Dauerzählstellen berechnet. Hierbei ist anzumerken, dass Dauerzählstellen höhere Geschwindigkeitswerte liefern als Floating Car Data. Grundsätzlich werden Geschwindigkeiten, wenn vorhanden, auf Basis von Dauerzählstellen ermittelt. Sind keine Dauerzählstellen- Daten verfügbar werden Floating Car Data verwendet. Floating Car Data werden in einem Intervall zwischen 30 Sekunden und 1 Minute erhoben. Für Links für die keine Geschwindigkeitsdaten verfügbar sind, wird die Geschwindigkeit auf Basis der Trajektorie berechnet [13]

Für die spätere Validierung der Ergebnisse werden außerdem Datensätze von September 2018 und März 2019 herangezogen (vgl. Abschnitt 3.4).

Die Datensätze wurden für die nachfolgende Analyse um räumliche und bauliche Informationen (siehe Tabelle 1) je Link ergänzt. Die Functional Road Class (FRC), die bauliche Klasse (From of Way - FOW) und der Straßentyp werden aus der geographischen Informationsplattform Österreich (GIP.AT) [14] gewonnen. Um eine regionale Zuordnung zu erhalten wurde jedem Link eine Urban-Rural-Typologie zugeordnet. In der Europäischen Union werden meist NUTS-3 Klassen verwendet [15]. Diese stellen jedoch im oberösterreichischen Raum Informationen nicht im benötigten Detaillierungsgrad dar. In Österreich sind zwei weitere Raumklassifikationen verfügbar: eine definiert von der ÖROK, der österreichischen Raumordnungskonferenz [16], die andere definiert von der Statistik Austria [17]. Die Statistik Austria Klassifikation wird für die nachfolgenden Auswertungen verwendet. Diese Klassifikation gliedert Raumtypen nach dem Einfluss von ökonomischen Attributen, wie zum Beispiel Arbeitsplätze, Infrastruktur, sowie die Population [18]. Um herauszufinden ob Ähnlichkeiten zwischen unterschiedlichen Raumtypen vorhanden sind, wird dieses Attribut hinzugefügt. Eine Detailanalyse ist dadurch möglich. Zusätzlich wurde die Kurvigkeit für jeden Link bestimmt, der Kreuzungstyp bzw. ob die Straße eine Vorrangstraße ist oder nicht. Als weiteres Merkmal wurden kreuzende Straßen definiert. Hierbei wird erfasst wie viele höher oder niedrigrangigere Straßen einen Link kreuzen.

Tabelle 1: Räumliche und bauliche Attribute und deren Ausprägungen

3 Explorative Datenanalyse

Zur Analyse von Verkehrsdaten können unterschiedliche statistische Methoden verwendet werden. Gemeinsam haben diese Methoden, dass ein Vorverarbeitungsprozess der Rohdaten immer nötig ist. Im nächsten Schritt werden Analyseverfahren angewandt und Bedarfsweise die Daten bereinigt. Schlussendlich kommt es zur Interpretation sowie zur Anwendung der Ergebnisse. Um Ähnlichkeiten in Datensätzen zu identifizieren wird in dem vorliegenden Papier die Clusteranalyse angewandt. Je nach Anwendungsbereich gibt es bei der Clusteranalyse unterschiedliche Verfahren (z.B. hierarchische Verfahren und prototypenbasierte Verfahren; siehe Abschnitt 3.2)[19]. Der Vorverarbeitungsprozess der Rohdaten ist bei der verwendeten Datenbasis nur bedingt erforderlich. Bevor die Daten in der bestehenden Form zur Analyse weitergegeben werden, sind Plausibilisierungsprozesse und Anonymisierungsprosesse durchgeführt worden. Das Hinzufügen von zusätzlichen räumlichen Informationen, wie Raumtyp, Kurvigkeitsgrad, Kreuzungstyp und Vorrangstraßeninformation wurde im Anschluss durchgeführt und in der entsprechenden Datenbank abgelegt (vgl. Abschnitt 2). Um zu erkennen, welche räumlichen Attribute einen Einfluss auf die Geschwindigkeiten haben und für die Ermittlung von Ähnlichkeiten relevant sind, werden im nächsten Abschnitt die Signifikanzen dieser untersucht.

3.1 Identifizierung von Auswirkungen räumlicher und baulicher Attribute auf Geschwindigkeiten

Vorbereitend auf die folgende Clusteranalyse werden in einem ersten Schritt die Varianzen der räumlichen und baulichen Attribute getestet um zu erkennen, in wie weit diese die Geschwindigkeiten beeinflussen (siehe Tabelle 1). Varianzanalysen werden eingesetzt um im Vorfeld Einflüsse von gegebenen Variablen auf die Daten zu ermitteln. Im Kontext der Verkehrsdatenanalyse haben etwa Xu et al. [20] eine Varianzanalyse (ANOVA) verwendet um den Einfluss von Haushaltsdaten auf Verkehrsemissionen zu testen. Weiters haben Alonso et al. [21] unterschiedliche sozio-demografische Eigenschaften auf aggressives Fahrverhalten mithilfe der ANOVA Varianzanalyse und dem Tukey-HSD Test analysiert. Peng et al. [22] verwenden den ANOVA Algorithmus um den Einfluss von Schlechtwetter auf tageszeitabhähngige Verkehrszustände zu analysieren.

Im Rahmen der vorliegenden Analyse werden folgende Hypothesen getestet:

H0: Räumliche und bauliche Attribute (vgl. Tabelle 1) haben keine Auswirkung auf Fahrgeschwindigkeiten

H1: Räumliche und bauliche Attribute (vgl. Tabelle 1) haben eine Auswirkung auf Fahrgeschwindigkeiten

Das Konfidenzintervall wird bei allen Analysen auf 95 Prozent festgelegt. Durchgeführt werden die statistischen Auswertungen für die V85, V50-tagsüber und die Tagesganglinien (15- Minuten Intervall). Die Tagesganglinien werden in Morgenspitze, Abendspitze und Mittagszeit unterteilt. Bei der Auswertung wird wie folgt vorgegangen: Varianzen innerhalb der Geschwindigkeitsdaten werden zunächst mit der ANOVA-Funktion des Programms R-Studio berechnet [23]. Hierbei ist zu beachten, dass in einem vorherigen Schritt der Bartlett-Test angewandt wird um die Zulässigkeit der ANOVA Funktion festzustellen [24]. Die Ergebnisse zeigen, dass das verwendete Datenset sich für die Anwendung der ANOVA Funktion eignet. Weiters wurde nach der Varianzanalyse der Tukey-HSD Test [23] angewandt damit der Bezug zwischen Ausprägungen von Attributen zueinander analysiert werden kann (z.B. Attribut = FRC; Ausprägungen: FRC-1, FRC-2,. . . ; Tukey-HSD: FRC-1 <p=0> FRC-2). Dieser Test zeigt die Unterschiede zwischen den einzelnen Ausprägungen der Attribute auf. Sind Attributwerte zueinander nicht signifikant können diese zusammengefasst werden. Bei unterschiedlicher Anzahl der jeweiligen Attributwerte innerhalb des Testdatensets muss die Tukey-Kramer-Methode angewandt werden – dies wurde in der vorliegenden Analyse berücksichtigt. Darüber hinaus wurden visuelle Analysen durchgeführt. Die visuellen Analysen können mithilfe von Boxplots durchgeführt werden, dies unterstützt unter anderem die Detektion von Ausreißern.

Die Analyse mithilfe des ANOVA-Tests zeigt, dass alle Attribute je Geschwindigkeit signifikant sind. Im nächsten Schritt wird der Tukey-HSD-Test bzw. die Tukey-Kramer-Methode angewandt.

Die Regionstypen sind bei den unterschiedlichen Tagesganglinien signifikant zueinander. Bei der V85 und V50 über den ganzen Tag gemittelt zeigt sich, dass sich der suburbane Raum nicht signifikant vom ruralen Raum unterscheidet (bei v50 p=0.99 und v85 p=0.65). Der suburbane Raum ist geprägt durch Pendlerströme, wodurch es möglich ist, dass die Geschwindigkeiten über den ganzen Tag gemittelt sich gegenseitig ausgleichen. Die Objekte werden bei der späteren Analyse der V85 und V50 zusammengezogen, jedoch bei den tageszeitenabhähngigen Geschwindigkeiten einzeln behandelt.

Die Analyse des Attributs FRC zeigt, dass die Ausprägungen (1-4) in Bezug auf die V85, V50 und v50-mittags und abends signifikant unterschiedlich zueinander sind. Werden die Uhrzeiten morgens betrachtet, dann sind alle Ausprägungen ausgenommen FRC 2-1 signifikant unterschiedlich zueinander. Das bedeutet für die Uhrzeiten morgens können FRC2 und FR1 betreffend deren Auswirkung auf die morgendliche Fahrgeschwindigkeit zusammengefasst werden.

Bei der baulichen Struktur (FOW) ist der FOW10 und FOW2 für die V85 und V50 nicht signifikant unterschiedlich zueinander. Die bei der V50 ist zusätzlich der FOW-4 nicht signifikant unterschiedlich zu FOW10 und FOW2. Betrachtet man die Uhrzeiten morgens, dann zeigen sich alle signifikant unterschiedlich, außer der FOW 10 im Vergleich zu 3 ist nicht signifikant unterschiedlich. Das gleiche trifft auch für die Mittags-/Nachmittagszeit sowie Abendszeit zu.

Die Detailanalyse von Kreuzungstypen zeigt, dass bei der V50-tagsüber und bei der v50- Morgens Sackstraßen nicht signifikant unterschiedlich zu VLSAs sind. V85, V50-mittags und abends sind diese signifikant unterschiedlich.

Die Analyse des Radiustyps zeigt, dass bei der V85 und V50 die Ausprägungen „kleine Kurven“ und „Kurvig“ des Attributes „Kurvigkeitstyp“ zusammengefasst werden können, da diese nicht signifikant unterschiedlich sind. In der Morgenspitze, Mittagsspitze und Abendspitze zeigen sich alle als signifikant unterschiedlich.

Der Datensatz für höherrangig kreuzende Straßen wurde vorweg wegen der Stichprobengröße bearbeitet. Aufgrund der zu geringen Stichprobe von drei oder mehr kreuzenden, höherrangigen Staßen, wurde hier mehr als 2 höherrangige Straßen gesetzt. Alle Ausprägungen sind signifikant.

Die Ergebnisse für niederrangige kreuzende Straßen zeigen, dass es nur einen Unterschied macht ob es eine niederrangige Straße gibt, welche kreuzt und wie viele niederrangige Straßen kreuzen.

Der Datensatz für die Straßenkategorien zeigt, dass unabhängig von der betrachtenden Geschwindigkeit, alle Straßentypen zueinander signifikant unterschiedlich sind.

Zusammenfassend kann festgestellt werden, dass die V50 und V85 sich voneinander in den Detailanalysen der einzelnen Attributausprägungen hinsichtlich Signifikanzen unterscheiden. Werden die Tageszeiten betrachtet zeigt sich, dass Morgens sich von Mittags und Abends betreffend der räumlichen und baulichen Attribute unterscheidet. Die Analyse bestätig somit die oben definiert Hypothese H1: Räumliche und bauliche Attribute (vgl. Tabelle 1) haben eine Auswirkung auf Fahrgeschwindigkeiten.

Die gewonnenen Erkenntnisse zur Signifikanz räumlicher und baulicher Attribute sind eine wichtige Ausgangsbasis für die im folgenden Abschnitt beschriebene Clusteranalyse. Die räumliche und bauliche Attribuierung der Straßenabschnitte bildet die Grundlage des Clustering auf Basis von Geschwindigkeitsdaten.

3.2 Identifizieren ähnlicher Geschwindigkeiten bei räumlichen und baulichen Objekten mittels Clusteranalyse

Die Clusteranalyse kann auf verschiedene Arten angewandt werden. Einerseits können über prototypenbasierte Verfahren Objekte nach einer festgelegten Anzahl der Cluster zusammengefügt werden. Die alternative Möglichkeit ist eine hierarische Anlyse durchzuführen. Der Vorteil ist, dass die Anzahl der Gruppen nicht vorweg bekannt sein muss und die Bildung der Cluster visuell nachvollziehbar sind, wenn diese in einem Dendogramm abgebildet werden. Verschiedene Algorithmen können für die hierarchische Clusteranalyse angewandt werden [25] [24].

Um diese verschiedenen Verfahren und ihre Eignung für konkrete Anwendungsfälle testen zu können, ist es sinnvoll einen Testdatensatz zu verwenden. Dieser beinhaltet Informationen zur V85 und V50, sowie die oben beschriebenen örtlichen Attribute und Straßenklassifizierungen.

Die Auswirkungen auf Basis des Testdatensatzes der fünf bekanntesten Verfahren unter der Verwendung der Funktion hclust [23] wurden ermittelt und verglichen. Die überprüften Verfahren beinhalten die klassischen Clusteranalyse Verfahren. Die Autoren möchten anmerken, dass es weitere Verfahren gibt auf die in diesem Paper nicht näher eingegangen wird. Die Ergebnisse haben gezeigt, dass die Ward-Linkage Methode die realistischsten Ergebnisse wieder gibt. Die Ward-Methode, welche in der Praxis häufig eingesetzt wird, minimiert Varianzen innerhalb der Cluster. Dies bedeutet, dass jene Objekte zusammengefasst werden, welche das Heterogenitätsmaß am wenigsten vergrößern [24].

Der Testdatensatz hat jedoch weit weniger Beobachtungen beinhaltet als der im Rahmen der Analyse, verwendete Datensatz. Bei der Durchführung mit dem Programm R und der Funktion hclust entstehen bei der Verwendung großer Datensätze Probleme mit der Rechenzeit und dem RAM-Speicher. Lösungsansätze hierfür sind neben Parallel-Computing einerseits die Verwendung von den Funktionen Daisy und Diana, andererseits die Funktion CLARA des Paketes Cluster [26] . Die Funktion Daisy kann aus größeren Datensätzen Distanzmatritzen bilden. Der Versuch hat jedoch gezeigt, dass auch hierfür der verwendete Datensatz zu groß ist. Deshalb wurde in einem ersten Schritt auf die Funktion CLARA (Clustering Large Applications) zurück gegriffen. Die Methode verwendet zur Bildung der Cluster den k-mediods PAM-Algorithmus. Die Funktion zieht aus dem Datensatz kleine Testdatensätze. Die Cluster werden auf den gesammten Datensatz umgelegt. Des Weiteren werden Qualiätsmaße auf den ganzen Datensatz bezogen ausgegeben, um die Qualität der Cluster bestimmen zu können. Ein Vorteil ist, dass auch gemischte Typen von Variablen verarbeitet werden können. Ziel der Clusteranalyse war es, die Ergebnisse zur Füllung von Lücken in Geschwindikeitsdaten verwenden zu könnnen. Die Clusteranalyse ergibt Cluster-Gruppen auf Basis der betrachtenden Links. Jeder analysierte Link befindet sich dadurch in einer Gruppe. Die Verwendung der Gruppe für Links, welche nicht mit ausgewertet wurden, erweist sich als schwierig. Die Übersetzung welcher Link aufgrund welcher Eigenschaft in einer speziellen Gruppe liegt, würde hier viel Nachbearbeitungszeit beanspruchen.

Um eine einfache Verwendung der Ergebnisse zu ermöglichen, wird eine Vorklassifizierung vorgenommen. Die räumlichen und baulichen Charakteristiken der Straßen werden hierfür verwendet. Diese eignen sich sehr gut, weil jede Ausprägung eines Attributes nur einmal je Link abgebildet werden kann. Die Eigenschaften werden aus dem GIP-Graphen oder anderen Datensätze gezogen und sind daher, bezogen auf weitere Analysen, statisch. Für die Bildung der neuen Straßenklassen werden die in der vorherigen Analyse als nicht signifikant identifizierten Attribute zusammengezogen. Folglich werden aus den gegeben Eigenschaften jeder Straße Objekte gebildet, welche im Anschluss mit der Ward-Methode geclustert werden können.

Im folgenden Abschnitt wird der Vorgang der Auswertung und die Ergebnisse der Clusteranalyse auf Basis der V85 beschrieben.

3.3 Ergebnisse der Clusteranalyse für die V85

Im Rahmen der Varianzanalyse konnte festgestellt werden, dass alle Attribute einen signifikanten Einfluss auf die V85 haben (siehe Abschnitt 3.1). Jedoch können einige Ausprägungen bei manchen Attributen zusammengefasst werden: Der „rurale Raum“ und „suburbane Raum“ kann als eine Ausprägung des Attributes „Raumtyp“ angesehen werden. Weiters können die Ausprägungen FOW-10 und FOW-2 zusammengefasst werden. Die Ausprägungen “schmale Kurven” und “Kurvig” des Attributes Radiustypen werden ebenfalls aufgrund des nicht signifikanten Unterschieds zusammengefasst.

Daraus ergeben sich 948 neu definierte Straßenklassen, welche die Basis der Clusteranalyse darstellen. Für die Berechnung wird der Median, das Minimum und Maximum der V85 je Gruppe verwendet. Dadurch kann der Bereich, in welchem sich die Geschwindigkeit einer Cluster-Gruppe liegt, weiter verwendet werden. Tabelle 2 zeigt als Beispiel sechs der 948 definierten Straßenklassen.

Tabelle 2: Beispiel Straßenklassen als Objekte

Als nächstes wird die Anzahl der Cluster-Gruppen bestimmt. Für große Datensätze eignet sich die Funktionen NbClust des Paketes NbClust [27]. Aus dem vorhergegangen Versuch mit Testdatensätzen wurde erkannt, dass sich eine Mindestanzahl von 5 Gruppen eignet. Daher wurde die statistisch best geeignetste Gruppenanzahl zwischen 5 bis 20 Gruppen mithilfe der Funktion NaClust bestimmt. Für diese Auswertung wurde festgelegt, dass die Analyse mithilfe ward.2 durchgeführt wird. Der Vorteil dieser Funktion ist, dass die Anzahl der Cluster-Gruppen auf der Basis von unterschiedlichen Tests bestimmt wird. Empfohlen wird die Anzahl welche statistisch am Häufigsten berechnet wird. Die Ergebnisse zeigen, dass 7 Cluster-Gruppen gewählt werden sollen, am Zweithäufigsten wurde eine Anzahl von 9 Cluster-Gruppen bestimmt. Die Zuordnung der Geschwindigkeiten je Cluster-Gruppe wird in Tabelle 3 dargestellt. Erkennbar ist, dass die Geschwindigkeiten der Gruppen 1,4,5 und 7 nur gering variieren (vom Minimum bis Maximum).

Tabelle 3: Cluster-Gruppen mit durchschn. Geschwindigkeitsattributen (V85)

3.4 Verwendung der Ergebnisse zur Füllung von Datenlücken

Für die Verwendung der Ergebnisse zur Lückenfüllung werden im ersten Schritt die erhaltenen Cluster-Gruppen jedem Link im Netzwerk zugeordnet, wodurch eine Zuordnung der Geschwindigkeiten möglich werden sollte (siehe Abbildung 1). Fehlt auf einem Link die V85 so wird Beispielsweise wie folgt vorgegangen: Die Cluster-Gruppe des Links wird über die Attribute bestimmt. Der Link304215414 besitzt die folgenden Eigenschaften: UC-L-FRC4-FOW2- right_before_left-Straight-ILP0-IHP1 und wird daher der Cluster-Gruppe6 zugeordnet. Diese hat einen durchschnittlichen Median von 51 km/h und ein durchschnittliches Maximum von 69 km/h. Um die Lücken zu füllen wird in einem ersten Schritt der V85-Median eingesetzt.

Bild 1: Vorgang um Datenlücken zu füllen

Bevor jedoch die Daten für Anwendungszwecke verwendet werden wird eine Validierung durchgeführt. Diese kann einerseits visuell stattfinden, andererseits kann ein zweiter Datensatz verwendet werden um festzustellen ob die Daten, welche später eingesetzt werden, stark abweichen. Eine eindeutige Validierung der gefüllten Lücken kann allerdings nicht stattfinden, denn es werden wieder nur Datensätze verglichen für welche Messdaten vorhanden sind.

Abbildung 2 zeigt die Zuordnung der Cluster-Gruppen auf das oberösterreichische Straßennetz. Visuell kann erkannt werden, dass rurale Strecken sich in einer Gruppe befinden (Cluster-Gruppe 6 (grün)). Wichtige, stark befahrene Verbindungsstraßen zwischen urbanen Zentren und ruralen Zentren sind ebenfalls einer Gruppe zugeordnet worden (Cluster-Gruppe 2 (rot)). Diese bestehen aus Landestraßen und Bundesstraßen. Alle anderen Typen sind stark unterschiedlich. Die Gruppen 1, 5 und 7 beinhalten sehr viele Gemeindestraßen und zeichnen sich durch eine geringere V85 aus. Der Testdatensatz für die neuen Daten ist von September 2018, ohne die Ferienzeit. Bei einem Vergleich der Juni 2018 Daten mit jenen von September, wird erkannt dass die V85-Daten in einigen Bereichen bereits eine Abweichung voneinander aufzeigen. Diese Abweichung kann an unterschiedlichen Einflüssen liegen, wie zum Beispiel Erhöhung der Fahrzeugflotten Anzahl (und dadurch Steigerung der Genauigkeit) oder auch am eventuell, situationsbedingt oder jahreszeitbedingten, veränderten Fahrverhalten von Verkehrsteilnehmer.

Tabelle 4 stellt einen Vergleich mit historischen Daten in Bezug auf unterschiedliche Zeiträume dar. Ein geographischer Link wurde je Cluster-Gruppe durch Zufall gewählt. Der Link in

Bild 2: Umlegung der Cluster-Gruppen auf das Netzwerk

Gruppe 5 besitzt keine Daten wodurch diese zu befüellen sind. Abbildung 3 zeigt wie stark die historische V85 des Monats März 2018 in den verschiedenen Gruppen schwankt. Werden Ergebnisse der Clusteranalyse mit den historischen Daten verglichen wird der Root Mean Square Error (RMSE), welcher Ausreißer berücksichtigt,berechnet. Die Cluster-Gruppen 1,2,3 und 7 besitzen einen RMSE von 15. Die Cluster-Gruppen 4,5 und 6 von ca. 20. Zusätzlich wurde der Vergleich mit den Daten vom März 2018 durchgeführt, hier liegt die Abweichung wieder im selben Bereich. Ein Versuch die Cluster-Anzahl von sieben auf neun zu erhöhen zeigt, dass der RMSE sich nicht verbessert, sondern in zwei Gruppen sogar ein höherer RMSE (von 25) entsteht. Eine Interpretation der Abweichung von 15 sagt aus, dass die Daten um 15 km/h abweichen. Bei einer geringeren V85, wie zum Beispiel 30-50km/h kann diese Abweichung zu groß sein. Bei höheren Geschwindigkeiten, zum Beispiel im Bereich einer Freilandstraße, sind diese Abweichungen tolerierbar. Zu beachten hierbei ist jedoch, dass die Testdatensätze schon im Vorfeld voneinander abweichen. Eine Analyse der einzelnen Eigenschaften kann aufzeigen, in welchen Gebieten die Zuordnung der Cluster einen geringeren RMSE aufweist. Abhängig davon kann versucht werden ob eine bessere Einteilung der Cluster-Gruppen möglich ist.

Tabelle 4: Vergleich der V85 zufällig ausgewählter Links mit der V85-aus der Cluster-Gruppe

Werden die Daten verwendet um Lücken in den Datensätzen zu füllen, dann wird in einem ersten Schritt der neue Straßentyp identifiziert. Durch die Zuordnung nach den angegebenen Kriterien kann die Cluster-Gruppe hinzugefügt werden. Wird die V85 im Datensatz als fehlend ausgegeben, kann der Link mit der V85 der Cluster-Gruppe befüllt werden.

Bild 3: Verteilung der V85 März 2018 je Cluster Gruppe

4 Zusammenfassung und Ausblick

Der Vorgang zur Füllung von Lücken ist in drei wesentlichen Schritten erfolgt:

1. Identifizierung der Auswirkung von räumlichen und baulichen Attributen auf Geschwindigkeiten

2. Identifizierung ähnlicher Geschwindigkeiten durch Clusteranalyse

3. Verwendung der Ergebnisse für die Füllung von Lücken

Die Testung von räumlichen und baulichen Attributen in Hinblick der Signifikanz auf Geschwindigkeiten hat ergeben, dass alle zur Verfügung stehenden Attribute signifikant sind. Die einzelnen Ausprägungen eines Attributes ist nicht immer signifikant und können dadurch vereinfacht zusammengezogen werden. Die Analyse zeigt, dass sich diese Eigenschaften abhänig von den Geschwindigkeitsarten (V85, V50-ganz Tags, Tageszeitabhängig) unterscheiden können. Werden die Daten für weitere Analysen verwendet, muss die Größe der Datensätze beachtet werden. Um mit großen Datensätzen zu arbeiten kann die Funktion CLARA in R-Studio verwendet werden. Bei der explorativen Datenanalyse zeigt sich auch ein weiterer Ansatz für die Füllung von Lücken in Verkehrsinformationsdaten als geeignet. In einem ersten Schritt werden signifikante Eigenschaften der räumlichen und baulichen Attribute von Straßensegmenten als neue Gruppen herangezogen. In weiterer Folge werden diese dann mit der max. V85, min. V85 und dem Median der V85 geclustert. Die eindeutige Zuordnung der Cluster-Gruppen auf einen Link ist gegeben. Eine Validierung der Ergebnisse zeigt, dass die erhaltenen Gruppen im Vergleich mit einem weiteren Datensatz etwas abweichen. Jedoch ist anzumerken, dass der Testdatensatz vom ursprüglichen Datensatz stark abweicht. Die Ergebnisse zeigen, dass Informationen für die Lückenfüllung von Fahrgeschwindigkeiten auf einem beliebigen Link im Netz, welcher räumliche und bauliche Eigenschaften mitbringt gewonnen werden können. In den nächsten Schritten wird die Analyse für die V50 Tagsüber, die Morgen-, Abendspitze sowie für den restlichen Tag ausgewertet und auch miteinander verglichen. Der Einfluss der Referenzgeschwindigkeit wird hierbei zusätzlich beachtet. Die daraus gewonnenen Geschwindigkeiten können vor allem für die Validierung und Kalibrierung von Verkehrssimulationen verwendet werden.

Literatur

[1] W. Schnabel and D. Lohse, Grundlagen der Straßenverkehrstechnik und der Verkehrsplanung Band 1: Straßenverkehrstechnik. Berlin: Beuth Verlag GmbH Berlin-Wien-Zürich, 2011.

[2] C. Antoniou, J. Barcelo, M. Brackstone, H. B. Celikoglu, B. Ciuffo, V. Punzo, P. Sykes, T. Toledo, P. Vortisch, and P. Wagner, “Traffic simulation: Case for guidelines,” 2014.

[3] C. Antoniou, V. Gikas, V. Papathanasopoulou, T. Mpimis, I. MarkouIoulia, and H. Perakis, “Towards distibution-based calibration for traffic simulation,” in IEEE 17th International Conference on Intelligent Transportation Systems (ITSC), 2014, pp. 786–791, 2014.

[4] S. Shafiei, Z. Gu, M. Sarvi, and M. Saberi, “Deployment and calibration of a large-scale mesoscopic dynamic traffic assignment model of melbourne, australia,” in 96th Annual Meeting of Transportation Reasearch Board, 2016.

[5] L. Kessler, G. Huber, A. Kesting, and K. Bogenberger, “Comparing speed data from stationary detectors against floating-car data,” in IFAC PapersOnLine, vol. 51-9, pp. 299–304, 2016.

[6] Q. Yuan, X. Li, C. Wang, Y. Li, and Y. Gao, eds., Cluster and factor analysis on data of fatal traffic crashes in China, 2017.

[7] Z. Hou and X. Li, “Repeatability and similarity of freeway traffic flow and long-term prediction under big data,” in IEEE Transactions on intelligent transport systems, vol. 17, pp. 1786–1796, 2016.

[8] M. Rahman, M, Shuvo, M,M,M, I. Zaber. M., and Ali, A.,A., “Traffic pattern analysis from gps data: A case study of dhaka city,” in 2018 IEEE International Conference on Electronics, Computing and Communication Technologies (CONECCT), pp. 1–6, 2018.

[9] G. Hertkorn, Mikroskopische Modellierung von zeitabhängiger Verkehrsnachfrage und von Verkehrsflußmustern. Phd-thesis, 2004.

[10] S. Jeon and B. Hong, “Monte carlo simulation-based traffic speed forecasting using historical big data,” in Future Generation Computer Systems, vol. 65, pp. 182–195, 2015.

[11] F. Russo, S. A. Biancardo, and M. Busiello, “Operating speed as a key factor in studying the driver behaviour in a rural context,” TRANSPORT, vol. 31, no. 2, pp. 260–270, 2016.

[12] RStudio Team, RStudio: Integrated Development Environment for R. RStudio, Inc., Boston, MA, 2016.

[13] C. Flitsch, K.-H. Kastner, K. Bósa, and M. Neubauer, “Calibrating traffic simulation models in sumo based upon diverse historical real-time traffic data – lessons learned in its upper austria,” EPiC Series in Engineering, pp. 25–26, EasyChair, 2018.

[14] ÖVDAT - Österreichisches Institut für Verkehrsdateninfrastruktur, “Gip-at,” 2018.

[15] European Union, “Nuts classification - nomenclature of territorial units for statistics,” 2018.

[16] Österreichische Raumordnungskonferenz, “Örok atlas raumbeobachtung -stadtregionale verpflechtungen,” 2016.

[17] Statistik Austria, “Statistik austria: Stadt-land klassifikationen,” 27.04.2018.

[18] Statistik Austria, “Urban-rural-typologie,” 2016.

[19] Forschungsgesellschaft für Straßen- und Verkehrswesen, Arbeitspapier Data Mining im Verkehrsmanagement und in der Verkehrsplanung: Anwendungen und Verfahren. 2019.

[20] C. Xu and S. Wu, “Evaluating the effects of household characteristics on household daily traffic emissions based on household travel survey data,” MPDI Sustainability, vol. 11, no. 6, 2019.

[21] F. Alonso, C. Esteban, L. Montoro, and A. Serge, “Conceptualization of aggressive driving behaviors through a perception of aggressive driving scale (pad),” Transportation Research Part F: Traffic Psychology and Behaviour, vol. 60, pp. 415–426, 2019.

[22] Y. Peng, Y. Jiang, J. Lu, and Y. Zou, “Examining the effect of adverse weather on road transportation using weather and traffic sensors,” PloS one, vol. 13, no. 10, p. e0205409, 2018.

[23] R Core Team, R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2018.

[24] K. Backhaus, B. Erichson, W. Plinke, and R. Weiber, Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Berlin: Springer-Verlag, 13. auflage ed., 2010.

[25] L. Fahrmeier, A. Hamerle, and G. Tutz, multivariate statistische Verfahren. Berlin, New York: Walter De Gruyter Verlag, 2. auflage ed., 1996.

[26] M. Maechler, P. Rousseeuw, A. Struyf, M. Hubert, and K. Hornik, cluster: Cluster Analysis Basics and Extensions, 2018. R package version 2.0.7-1 — For new features, see the ’Changelog’ file (in the package source).

[27] M. Charrad, N. Ghazzali, V. Boiteau, and A. Niknafs, “NbClust: An R package for determining the relevant number of clusters in a data set,” Journal of Statistical Software, vol. 61, no. 6, pp. 1–36, 2014.