FGSV-Nr. FGSV 002/127
Ort online-Konferenz
Datum 13.04.2021
Titel Automatisierte Qualitätsanalyse der Umfelddatenerfassung für Autobahnen und Schnellstraßen
Autoren Univ.-Prof. Dr.-Ing. Martin Fellendorf, M.Sc. Manuel Lienhart, MSc Bohdan Andrusyak, Dr.techn. Mark Kröll, Dr.techn. Roman Kern, Dipl.-Ing. Michael Cik
Kategorien HEUREKA
Einleitung

Aktuell wird im Streckennetz des österreichischen Autobahnen- und Schnellstraßenbetreibers ASFiNAG die Qualität der Sensoren zur Umfelddatenerfassung weder systematisch noch vergleichend untersucht. Fehler werden dadurch häufig nicht oder erst spät bzw. zufällig erkannt. Diese Publikation beschäftigt sich mit der Vorstellung von Methoden für eine automatisierte Qualitätsbeurteilung von Sensormesswerten. Nach einer umfassenden Literaturrecherche wurden existierende Algorithmen und Ansätze auf ihre Einsetzbarkeit hin evaluiert. Die speziellen Eigenschaften des ASFiNAG Sensornetzwerks erschwerten den Einsatz komplexerer Methodiken. Stattdessen erwiesen sich heuristische Ansätze als erfolgreicher, die auf Verfahren aus den Bereichen der Statistik und des maschinellen Lernens beruhten und sich vor allem durch ihrer Einfachheit und Robustheit auszeichneten.

PDF
Volltext

Der Beitrag ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1 Einleitung

Die im Rahmen von Verkehrsbeeinflussungsanlagen (VBA) auf Autobahnen und Schnellstraßen ermittelten Umfelddaten stellen Eingangsgrößen für situationsabhängige Schaltvorschläge dar. Mittels dynamischen Warnhinweisen und Geschwindigkeitsbeschränkungen werden die Verkehrsteilnehmer vor potenziell gefährlichen Umfeldbedingungen gewarnt.

Die Schaltungen aufgrund kritischer Fahrbahnzustände, Niederschlag und Sichtweite sind Elemente des Automatikbetriebs von Verkehrsbeeinflussungsanlagen. Auf die Verkehrssicherheit wirken sich Fahrbahnnässe/-glätte und/oder Niederschlag in zweierlei Hinsicht negativ aus: zum einen wird durch die Nässe auf der Fahrbahn der Kraftschluss zwischen Reifen und Fahrbahn verringert, wodurch der Bremsweg erhöht und die aufnehmbaren Radialkräfte bei Kurvenfahrten reduziert werden. Zum anderen wird durch Niederschlag und Sprühfahnenbildung die Sicht des Kraftfahrers beeinträchtigt. Diesen
negativen Einflüssen wird durch die Anzeige einer angepassten zulässigen Höchstgeschwindigkeit und ggf. von Warnhinweisen mittels Wechselverkehrszeichen (WVZ) begegnet.

Eingeschränkte Sicht ist für Verkehrsteilnehmer gefährlich, da Hindernisse bei zu hoher Geschwindigkeit nicht rechtzeitig erkannt werden können. Die Wahrnehmung möglicher Gefahrensituationen verzögert sich, woraus Auffahrunfälle resultieren können. Durch die Anzeige von Warnhinweisen und zulässigen Höchstgeschwindigkeiten soll der Anhalteweg eines Fahrzeuges an die vorhandene Sichtweite angepasst und so ein Auffahren auf verspätet erkannte Hindernisse vermieden werden.

Witterungsbedingte Schaltungen können nur dann einen positiven Einfluss auf die Verkehrssicherheit erzielen, wenn die Anzeigen der VBA durch die Verkehrsteilnehmer befolgt werden. Hierfür ist es wiederum erforderlich, dass die stationär erfassten Umfelddaten eine hohe Qualität aufweisen und die aktuellen Umfeldbedingungen zeitnah im System abgebildet werden. Nur so kann in Abhängigkeit der vorliegenden Verkehrs- und Umfeldsituationen eine sinnvolle und wirksame Beeinflussung des Verkehrsablaufs stattfinden.

1.1 Motivation

Witterungsereignisse sind inhomogene und instationäre Ereignisse, deren genaue Ausprägung schwer überprüfbar ist und in der Praxis mit Ansätzen, wie einer manuellen Sicht- und Plausibilitätsprüfung begegnet wird.

Derzeit sind sowohl in den geltenden nationalen als auch in auch internationalen Richtlinien noch keine Methoden zur Prüfung der Genauigkeit von Umfelddaten definiert. Weiters wurde auf Basis der Ergebnisse von international ähnlich orientierten Projekten ersichtlich, dass eine formale Statistik-orientierte Vorgehensweise zur Analyse der Umfeldsensordaten nicht durchgängig anwendbar und auch nicht zweckmäßig ist (Rascher et al. 2014, [18]).

Gründe dafür sind:

- Die Heterogenität der Ergebnisse
Beim Vergleich der Zeitreihen der verschiedenen Sensoren zeigte sich häufig eine heterogene Verteilung der Messwerte unterschiedlicher Sensoren, so dass eine statistische Auswertung mit der Ermittlung von Abweichmaßen nicht zielführend ist.

- Fehlende bzw. zu wenige Referenzmessungen und -beobachtungen
Für viele der Messgrößen standen keine (Bodentemperatur, Windgeschwindigkeit, Windrichtung) bzw. statistisch nicht aussagekräftige (Temperatur der Fahrbahnoberfläche, Wasserfilmdicke) oder "ungleiche" (Niederschlagsart: große Stichprobe für Schnee durch Video, praktisch keine für Regen) Referenzmessungen zur Verfügung. Somit konnten keine bzw. nur statistisch nicht aussagekräftige Angaben zu Abweichungen von der "Realität" getroffen werden.

Aktuell wird aus diesen Gründen im Streckennetz des österreichischen Autobahnen- und Schnellstraßenbetreibers ASFiNAG die Qualität der Systeme (bzw. Sensoren) zur Umfelddatenerfassung weder systematisch noch vergleichend untersucht und speziell im täglichen Betrieb der Umfelddatenerfassung werden Fehler häufig nicht oder erst spät bzw. zufällig erkannt. Sensormessstationen werden derzeit hauptsächlich per manueller Messwertüberprüfung und -plausibilisierung jährlich überprüft. Hierbei können jedoch unterschiedliche Fehler (z.B. Ausreißer in bestimmten meteorologischen Situation) leicht übersehen werden, oder durch die grafische Repräsentation unterrepräsentiert werden. Im Fall von erkannten Sensormesswertfehlern wird eine Fehleranalyse vor Ort an der Sensormessstation durchgeführt.

1.2 Zielsetzung

Das Hauptziel dieser Publikation ist die Vorstellung von Ansätzen und Algorithmen, um unterschiedliche Sensormesswerte aus dem gesamten Streckennetz der ASFiNAG, sowie deren Qualität automatisiert zu bewerten. Dabei wird einerseits eine Plausibilisierung zwischen den unterschiedlichen Sensoren sowie andererseits ein Längsabgleich (entlang der Strecke, zwei benachbarte Stationen, Datenfusion) angestrebt. Das Ziel besteht in der Entwicklung eines Toolkits automatisierter Methoden, die unterschiedliche Arten von Fehlern in den Daten erkennen können, um somit auf fehlerhafte oder auffällige Sensorik hinzuweisen. Dieses soll die weitere Entwicklung von automatischen Sensormesswertüberwachungssystemen unterstützen, um so später bisherige Prozesse zu ergänzen und die Überprüfung von Sensormessstationen vor Ort zielgerichtet durchführen zu können.

2 Umfelddatenerfassung und -messwerte

2.1 Sensortypen und Messwerte

Die Grundlage der zu entwickelnden Ansätze und Algorithmen, um unterschiedliche Sensormesswerte sowie deren Qualität automatisiert zu bewerten, sind die Sensordaten der Umfelddatenmessungen. In der nachfolgenden Tabelle 1 wird eine Auswahl der, im Streckennetz der ASFiNAG eingesetzten, Sensortypen mit den zugehörigen erfassten Mess- und Rechengrößen dargestellt.

Von der ASFiNAG wurden Sensordaten teilweise in einer Datenbank und auch über unterschiedliche vorhandene Datenübertragungsprotokolle (Verkehrsmanagement- und. Informationssystem VMIS) bzw. Schnittstellen (TLS oder MSI), zur Verfügung gestellt. Die in Tabelle 1 aufgelistete Sensorik wird einerseits eingesetzt im Bereich UDE/VMIS, diese werden hauptsächlich im Umfeld von VBA für die Beurteilung von situationsabhängigen Schaltungen verwendet. Den zweiten Bereich bildet das OpenWIS-System einer eigenen ASFiNAG-Entwicklung zur Nutzung von Sensorik unterschiedlicher Hersteller und Übertragung unterschiedlicher Messwerte, dieses dient vornehmlich der Einschätzung für Maßnahmen im Rahmen des Winterdienstes. Ebenso stehen historische Daten für die  verschiedenen Sensortypen zur Verfügung.

Tabelle 1: Sensormessgrößen der Umfelddatenerfassung im ASFiNAG-Streckennetz am Beispiel ausgewählter Sensoren

2.2 Datenvorverarbeitung und -haltung

Um die zur Verfügung gestellten Daten konsistent und einheitlich auszubreiten, wurden mehrere Vorverarbeitungsschritte eingeführt, unter anderem (i) Gruppierung, um ein einheitliches Datenlayout der UDE/VMIS-Daten und OpenWIS-Daten zu gewährleisten sowie (ii) Filterung, die nicht vorhandene (keine Messwerte aufgezeichnet für einen bestimmten Zeitraum), bzw. fehlerhafte Datenpunkte (Fehleinträge in den Dateien wie z.B. „ERROR (was not able to read 7 bytes, got:“ )) aus den finalen Messpunkten entfernen soll.

Die vorverarbeiteten OpenWIS- und UDE/VMIS-Daten werden als Zeitreihen1 in einer InfluxDB gehalten, wobei eine Zeitreihe aus einer beliebigen Anzahl an Datenpunkten bestehen kann. Zudem werden OpenWIS- und UDE/VMIS-Daten in zwei getrennten Datenbanken speichert, um eine bessere Performance und mehr Flexibilität hinsichtlich eventueller künftiger Entwicklungen zu erlangen, wenn beispielsweise, neue Sensorik hinzugefügt werden soll. Im Zuge einer Erstevaluierung erwies sich die InfluxDB als sehr geeignet für diesen Anwendungsfall. Ein Datenpunkt in der Datenbank besteht aus einem Zeitstempel, Messwerten und Metadaten.

2.3 Datenqualität

Zur Abschätzung des Status quo wurden umfassende Statistiken für OpenWIS- sowie UDE/VMIS-Daten erstellt. OpenWIS- und UDE/VMIS-Daten unterscheiden sich voneinander unter anderem in den existierenden Feldern eines Sensors und wirken sich somit auf die anwendbaren Statistiken aus. Die folgende Tabelle 2 vermittelt einen Überblick über die Anzahl der Stationen, die betrachteten Zeiträume sowie die angewandten:

Tabelle 2: Überblick der zur Verfügung gestellten Daten

Die durchgeführten, statistischen Auswertungen brachten große Unterschiede zwischen den beiden Systemen zu Tage. Bei OpenWIS-Daten fehlten bei 220 Stationen ca. 10% an Daten über einen Zeitraum von 6 Jahren – das sind kumuliert umgerechnet auf eine Station etwa 45650 Tage ohne aufgezeichnete Sensorwerte. Gründe dafür sind einerseits technischer Natur, z.B. Fehler bei der  Speicherung, andererseits handelt es unter anderem auch um ein gezieltes Abschalten einer Station z.B. aufgrund einer Baustelle oder generell über die Wintermonate. Die UDE/VMIS-Daten hingegen zeichneten sich durch eine höhere Verfügbarkeit aus: von 783 Stationen gab es nur bei 21 Stationen fehlende Werte, die vorwiegend im Bereich unter 20% lagen. Stationen, die „gut“ hinsichtlich ihrer Verfügbarkeit sind, eignen sich zur Generierung für Trainingsdaten und zur Evaluierung von Plausibilitätsalgorithmen.

3 Erkennung von Fehlern in Sensormessdaten

Ein breit ausgebautes und weit verzweigtes Sensornetzwerk unterliegt einer Vielzahl von möglichen Ursachen für fehlerhafte Messwerte auf dem Transportweg vom Sensor hin zur Datenbank. Bild 1 skizziert ein drahtloses Sensornetzwerk und deutet die vielfältigen Ursachen an, die in dem Netzwerk zu Fehlern führen können – beispielsweise zu fehlerhaften Sensormessungen oder zu überhaupt keinen Messungen.

Bild 1: Potentielle Fehler, die innerhalb eines drahtlosen Sensornetzwerkes auftreten können

Gerade in Hinblick auf die Thematik Datenanalyse und Fehlererkennung ist es wichtig, diese Zusammenhänge zu betrachten. Fehlerhaftes Equipment kann sich beispielsweise sowohl auf die  Verfügbarkeit (Sensor defekt, bzw. Leitungsunterbrechung), als auch auf die Plausibilität (Driften der Werte bei einem älteren Sensor, Herstellungsfehler, bzw. möglicherweise unzureichende Eichung des Sensors) auswirken. Der Fokus liegt auf der Plausibilität eines Sensors, d.h. geben die gemessenen Werte die Realität wieder bzw. wie groß ist deren Abweichung?

3.1 Plausibilität eines Sensors

Die Eruierung der Plausibilität eines Sensors geht Hand in Hand mit der Identifikation von Ausreißern in den Sensordaten (Outlier-Detection), in diesem Fall konkret in drahtlosen Sensornetzwerken. Ein drahtloses Sensornetzwerk besteht typischerweise aus einer großen Anzahl kleiner Sensorknoten, die über eine große Region verteilt sind. Aufgrund der begrenzten Ressourcen und Fähigkeiten der Sensoren bzw. aufgrund von Umwelteinflüssen und böswilliger Angriffe sind die gemessenen Daten oft unzuverlässig und ungenau (vgl. Zhang et al. 2010, [3]). Zentral hierbei ist die Definition eines Ausreißers, der für gewöhnlich als „Abweichung vom Normalverhalten“ definiert wird (Hawkins 1980, [1]). Die zu stellenden Frage ist nun: Was fällt unter Normalverhalten und was nicht? Konkret bei der
Fragestellung dieser Publikation zu behandelnde Beispiele umfassen: Baustellen, Verkehrsstaus, saisonale und auch regionale Wetterphänomene, etc. Bekannte Kategorien von Ausreißern in Sensordaten, die es bei algorithmischen Überlegungen zu berücksichtigen gilt, sind (1) Punktausreißer, (2) kollektive Ausreißer sowie (3) kontextuelle Ausreißer:

- Punktausreißer bezeichnen kurze, abrupte Änderungen im Sensorverlauf zwischen aufeinander folgenden Sensorwerten; jeweils ein Messwert unterscheidet sich beispielsweise vom Rest der Zeitserie. (vgl. rechts in Bild 2)

- Kollektive Ausreißer ist eine Gruppe von Ausreißern, die erst als Kollektiv, d.h. als eine Gruppe von aufeinanderfolgenden Datenpunkten, zu Ausreißern werden. (z.B. mehrere Messwerte folgen keinem saisonalen Muster)

- Kontextuelle Ausreißer treten zum Beispiel auf, wenn ein Sensor einen konstanten Wert für mehrere aufeinanderfolgende Datenpunkte misst (vgl. links in Bild 2). Der gemessene Wert korreliert nicht mit der zugrundeliegenden, physikalischen Verteilung bzw. unterscheiden sich Messwerte von zeitlich direkt vergleichbaren Messwerten.

Bild 2: Beispiele für kontextueller Ausreißer (links) und Punktausreißer (rechts); (Sharma et al. 2010, [11])

3.2 State-of-the-Art Algorithmen zur Outlier-Detection in Sensornetzwerken

Gängige Methoden zur Outlier-Detection in Sensornetzwerken können grob in 3 Kategorien unterteilt werden:

1. auf Klassifikation basierende Methoden wie beispielsweise one-class Supportvektormaschine (Shahid et al. 2013, [4]). Dieser spezielle Typ von Supportvektormaschine lernt ein Modell der Daten, indem es die Mehrheit der sich normal verhaltenden Daten mit einem geometrischen Konstrukt, z.B. eine Hyperebene, umschließt. Alle Datenpunkte, die sich außerhalb befinden, werden als Ausreißer
gekennzeichnet. Weitere Methoden inkludieren Self-Organizing Maps (SOMs, vgl.Siripanadorn et al. 2010, [15]), Neuronale Netze sowie Bayesian Belief Netzwerke (Janakiram et. al 2006, [16]).

2. auf Statistik basierende Methoden wie beispielsweise minimum covariance determinant (MCD), minimum volume ellipsoid (MVE), und M-Schätzer (Alameddine et al. 2010, [5]). Eine weitere Methode stellt die Berechnung der Mahalanobis Distanz (MD, vgl. Rousseeuw und Leroy 2003, [2]) dar, d.h. wie weit ein Datenpunkt vom Zentrum der multivariaten Datenwolke entfernt ist (unter Berücksichtigung des Mittelwert und der Kovarianzmatrix). MDs sind einfach zu berechnen und können Ausreißer in multivariaten Räumen effektiv identifizieren. Allerdings ist die Berechnung von MDs nicht robust; darüber hinaus wurde berichtet, dass es zu Problemen kommen kann, wenn mehr als 10% der Daten Ausreißer sind.

3. sowie auf Spektralzerlegung basierende Methoden, die die Daten einer Dimensionsreduktion unterziehen. Demzufolge können sie gut mit Ausreißern in hochdimensionalen Daten umgehen, sofern diese in den niederdimensionalen Einbettungen separierbar sind (Chandola et al. 2009, [6]). Zu erwähnen ist die partial least square (PLS) Regression, eine Methode, die die Originaldaten auf eine Menge latenter Variable projiziert. Eine nicht lineare Erweiterung dieser Methode wird erreicht, indem das innere Modell durch ein Neuronales Netzwerk ersetzt wird, ein Multi-Layer Perceptron (MLP). Diese Erweiterung ist in der Literatur als MLPPLS (Garces und Sbarbaro 2011, [7]) Methode bekannt.

In einem ersten Schritt wurde eine Literaturrecherche durchgeführt, um den existierenden Stand der Technik zu dokumentieren. Darüber hinaus wurden existierende Methodiken dahingehend bewertet, ob sie für die Fragestellung dieser Publikation geeignet und daher sinnvoll einsetzbar sind. Anforderungen gemäß den verfügbaren Sensordaten umfassten unter anderem:

- Verarbeitung multivariater Daten, d.h. Zeitreihen mehrerer Sensoren sollen miteinander verglichen werden können.

- Verarbeitung von spatial bzw. temporal korrelierten Daten, da die Messdaten aus verschiedenen OpenWIS- sowie UDE/VMIS-Stationen, sowohl zeitlich als auch räumlich zusammenhängen können.

- Unterstützung einer zentralisierten Datenanalyse, da die Messdaten aller Stationen zentralisiert in einer Datenbank abgespeichert werden.

-Miteinbeziehung von Daten, bei denen bekannt ist, ob sie sich „normal“ verhalten oder nicht; d.h. Trainingsdaten sind vorhanden und können in überwachten Lernverfahren zum Einsatz kommen.

-Robustheit, d.h. der Algorithmus kann mit Ausreißern in den Trainingsdaten umgehen.

Tabelle 3 gibt einen Überblick der Ergebnisse der Literaturrecherche über die gängigsten Methoden zur Outlier-Detection in Sensornetzwerken und stellt den Bezug zu den Anforderungen in diesem Forschungsvorhaben her.

Tabelle 3: Gegenüberstellung von verschiedenen State-of-the-Art Algorithmen zur Outlier-Detection in Sensornetzwerken. Klammern bedeuten, dass die Anforderungen nur teilweise erfüllt werden.

Einige der Methoden erscheinen für den Einsatz geeignet, unter anderem Bayesian Belief Netzwerke und one-class Support Vektor Maschinen sowie aufgrund ihrer Robustheit multivariate auf Statistik basierende Methoden und auf MLPPLS basierende Methoden. Aufgrund projektspezifischer Einschränkungen waren viele Ansätze jedoch nicht anwendbar. Die Erstellung eines Trainingsdatensatzes erwies sich, aufgrund von Budgetobergrenzen, hinsichtlich der notwendige Annotation als zu aufwendig. Somit kamen Verfahren wie z.B. die auf Hidden-Markov Modellen (Sharma et al. 2010, [11]) basieren bzw. MLPPLS-basierende Methoden (Garces and Sbarbaro 2011, [7]) nicht zum Einsatz. Spezielle Charakteristika in den Daten erschwerten den Einsatz andere Standardverfahren wie beispielsweise der ARIMA Methode (Sharma et al. 2010, [11]), die autoregressive Eigenschaften in den Daten voraussetzen.

4 Resultierende Algorithmik

Die folgende Tabelle 4 gibt einen Überblick über alle entwickelten und implementierten algorithmischen Ansätze, mit den jeweiligen Vorteilen und Nachteilen des Ansatzes bzw. der Kategorie des Ausreißers, die der Ansatz adressiert und somit erkennen kann.

Tabelle 4: Entwickelte und implementierte algorithmische Ansätze

Ein wichtiges Kriterium bei der Auswahl bestand darin, alle Kategorien von Ausreißern zu identifizieren, also (i) punktuelle, (ii) kollektive sowie (iii) kontextuelle, da jede Kategorie auf eine andere Fehlerursache hinweisen kann. Punktuelle Ausreißer können auf Herstellungsfehler oder einen Sensorfehler hinweisen; kontextuelle Ausreißer auf ein Driften der Werte bei einem älteren Sensor.

Eine zusätzliche Rechtfertigung für die in Tabelle 4 angeführten Methoden stellte die speziellen Charakteristika des Sensornetzwerks der ASFiNAG dar, u.a. die Dichte der vorhandenen Sensorstationen bzw. die Häufigkeit einzelner Sensoren und die damit einhergehende Abdeckung des Autobahnnetzwerks. Als Beispiel hierfür eine Gegenüberstellung von Parametern der UDE/VMIS-Sensorik: Der Helligkeitssensor (HK) ist mit ~77%, die Fahrbahntemperatur mit ~19% und der Fahrbahnzustand mit ~18% am häufigsten und die Globalstrahlung mit 0,1%, Schadstoffe / PM10 mit 0,5% und Stickoxid mit 0,8% am seltensten in UDE/VMIS-Stationen des ASFINAG Sensornetzwerks verbaut. Demzufolge kann die Regressionanalyse bei Stationen eingesetzt werden, die mehr als 2 Sensoren verbaut haben. Jeweils ein Sensor kann durch eine Linearkombination der anderen Sensoren approximiert werden. Bei Stationen mit nur einem Sensor können über den Nearest Neighbor Ansatz benachbarte Stationen für eine Approximation herangezogen werden. Der Estimation-based Ansatz wird zur Ermittlung von kollektiven Ausreißern eingesetzt und benötigt keine benachbarten Stationen, sondern lediglich korrelierte Stationen im Netzwerk. Mit der Netzwerkanalyse werden kontextuelle Ausreißer erkannt; zudem ist es möglich, das Netzwerk aus einer globaleren Sicht heraus zu analysieren – es bilden sich dann auch kleinere Netzwerke heraus, die ähnliche Eigenschaften aufweisen, z.B. alle Stationen in der Nähe von Brücken. Die Varianzanalyse ist in der Lage konstante Sensorverläufe zu erkennen. Abhängig von der Art des Sensors deutet ein konstanter Wert auf einen Fehler hin.

Die in Tabelle 4 aufgelisteten Verfahren zeichnen sich darüber hinaus aufgrund ihrer Einfachheit, Robustheit und Qualität aus. Im Folgenden werden (1) die Regressionsanalyse, (2), der Nearest-Neighbour Ansatz sowie (3) der Estimation-based Ansatz in einer qualitativen Analyse detaillierter vorgestellt.

4.1 Regressionsanalyse

Es werden zunächst lineare Regressionsmodelle dazu verwendet, um Ausreißer bei (zum Teil unterschiedlichen) Sensoren am gleichen Standort (in-situ) zu erkennen. Voraussetzung für die Anwendung von Regressionsmodellen ist, dass jede Station S mit mehreren Sensoren ausgestattet ist, um verschiedene physikalische Größen wie z.B. Temperatur, Feuchtigkeit, etc. zu messen. Als Beispiel soll die Temperatur eines Sensors über die Temperaturwerte anderer Sensoren in der gleichen Station mittels Gleichung (1) modelliert werden, wobei T1 die vorherzusagende Temperatur ist und T2 … Tk sind andere Temperatursensoren der gleichen Station

Formel (1) siehe PDF.

Bild 3 illustriert das Verfahren anhand einer konkreten Situation anhand der OpenWIS Station IP 10.171.141.101 (A9 nahe Bosruck) am 23.02.2016. Minütliche Sensormessungen ergeben 1440 Datenpunkte pro Tag:

- T2 (IRS31FBTDegrees CelsiusBT4) und T3 (wireFBTDegrees CelsiusBT0) wurden benutzt, um

- T1 (SensitFBTDegrees CelsiusBT8) zu modellieren und somit vorherzusagen.

Um die beiden Signale aneinander anzugleichen, wurde die Methode des „dynamic time warping“ (Benkabou et al. 2017, [13]) angewandt. Diese Methode wird beim Verarbeiten von Zeitreihen  standardmäßig verwendet, um beispielsweise zeitliche Verschiebungen auszugleichen. Zusätzlich zu linearen Regressionsmodellen wurde auch mit Random Forest Regressionsmodellen experimentiert, die zu guten Ergebnissen führten.

Bild 3: Anwendung linearer Regression zur Erkennung von Ausreißern. In grün: der Verlauf der gemessenen Sensorwerte; in blau der Sensorverlauf, wie von der Regression (T2 + T3) vorhergesagt. Der viereckige Bereich (in magenta) zeigt die Stelle der Abweichung, d.h. des Ausreißers

4.2 Nearest-Neighbour Ansatz

In diesem Ansatz werden gezielt benachbarte Stationen zur Erkennung von Ausreißern herangezogen. Ausreißer werden durch einen Mehrheitsbeschluss (75%) benachbarter, gleicher Sensoren  erkannt. Im Folgenden einige visuelle Beispiele, wobei benachbarte Sensoren in einem Umkreis von 20 km liegen.

Bild 4 vermittelt die Idee dieses Ansatzes; das linke Bild zeigt den Verlauf der Fahrbahntemperatur (FBT) der UDE/VMIS Station A23-2|013,955-RN-2, das rechte Bild zeigt denselben Verlauf (in rot) eingebettet in die Temperaturverläufe der benachbarten Stationen, die mehrheitlich ein ähnliches Verhalten aufweisen.

Bild 4: Links: Verlauf der Fahrbahntemperatur (FBT). Rechts: Verlauf der FBT (in rot) im Vergleich zu den FBT der benachbarten Stationen

Bild 5 zeigt nun im linken Bild den FBT-Verlauf mit in rot gekennzeichneten Ausreißern.

Bild 5: Links: Verlauf der Fahrbahntemperatur (FBT) und in rot die gekennzeichneten Ausreißer. Rechts: Verlauf der FBT (in rot) im Vergleich zu den FBT der benachbarten Stationen

Bild 6 zeigt ein weiteres Beispiel mit sehr vielen erkannten Ausreißern – in diesem Fall weicht die gemessene Wasserfilmdicke stark von den Verläufen der benachbarten Stationen ab.

Bild 6: Links: Verlauf der Wasserfilmdicke (WFD) und in rot die gekennzeichneten Ausreißer. Rechts: Verlauf der WFD (in rot) im Vergleich zu den WFD der benachbarten Stationen

4.3 Estimation-based Ansatz

Da der Nearest-Neighbour Ansatz Stationen in der Nachbarschaft voraussetzt, wurden andere Ansätze angedacht darunter ein Ansatz von (Sharma et al. 2010, [11]), der auf einer statistischer Schätzung beruht. Diese Schätzung wird auf Basis von Sensorwerten einer hoch korrelierten Station (aus historischen Daten) errechnet; der Vorteil: diese Station muss zwar hoch korrelieren, muss sich jedoch nicht in der Nachbarschaft befinden. So kann durch den Vergleich von mehreren Schätzungen auf abweichendes Verhalten geschlossen werden. Im folgenden Beispiel wird für die Wasserfilmdicke (WFD) der UDE/VMIS Station A02_1|004,128 jeweils eine Schätzung mit 2 hoch korrelierten Stationen, d.h. A02_1|002,358_RN_4 sowie A23_2|001,198_RN_2, berechnet und die Differenz zu den aktuellen Werten ermittelt (vgl. Bild 7).

Bild 7: Differenz zwischen den Werten von A02_1|004,128 (WFD) und der Schätzung basierend auf A02_1|002,358_RN_4 (links) sowie A23_2|001,198_RN_2 (rechts) am 2017-04-05

Die Bereiche mit erhöhten Differenzen in beiden Graphiken von Bild 7 gleichen einander und deuten auf Ausreißer in diesen Regionen hin.

5 Zusammenfassung und Ausblick

Aktuell wird im Streckennetz des österreichischen Autobahnen- und Schnellstraßenbetreibers ASFiNAG die Qualität der Sensoren zur Umfelddatenerfassung für witterungsbedingte Schaltvorgänge von Verkehrsbeeinflussungsanlagen (VBA) weder systematisch noch vergleichend untersucht. Fehler werden dadurch häufig nicht oder erst spät bzw. zufällig erkannt. Eine sinnvolle und wirksame  Beeinflussung des Verkehrsablaufs in Abhängigkeit der vorliegenden Verkehrs- und Umfeldsituationen kann jedoch nur stattfinden, wenn die stationär erfassten Umfelddaten eine hohe Qualität aufweisen und die aktuellen Umfeldbedingungen zeitnah im System abgebildet werden.

Diese Publikation beschäftigt sich mit der Vorstellung von Methoden für eine automatisierte Qualitätsbeurteilung von Sensormesswerten. Nach einer umfassenden Literaturrecherche wurden existierende Algorithmen und Ansätze auf ihre Einsetzbarkeit hin evaluiert.

Ein wichtiges Kriterium bei der Auswahl bestand darin, alle Kategorien von Ausreißern zu identifizieren, also (i) punktuelle, (ii) kollektive sowie (iii) kontextuelle, da jede Kategorie auf eine andere Fehlerursache hinweisen kann. Punktuelle Ausreißer können auf Herstellungsfehler oder einen Sensorfehler hinweisen; kontextuelle Ausreißer auf ein Driften der Werte bei einem älteren Sensor.

Die speziellen Eigenschaften des ASFiNAG Sensornetzwerks erschwerten den Einsatz komplexerer Methodiken, u.a. die Dichte der vorhandenen Sensorstationen bzw. die Häufigkeit einzelner Sensoren und die damit einhergehende Abdeckung des Autobahnen- und Schnellstraßennetzwerks. Stattdessen erwiesen sich heuristische Ansätze als erfolgreicher, die auf Verfahren aus den Bereichen der Statistik und des maschinellen Lernens beruhten und sich vor allem durch ihre Einfachheit und Robustheit auszeichnen, wie z.B. die Regressionsanalyse, der Nearest-Neighbour Ansatz sowie der Estimation-based Ansatz.

Ein plausibler, nächster Schritt ist es, festzustellen, ob Deep Learning Technologien für die Analyse von Sensormesswerten eingesetzt werden können und ob diese Technologien bessere Ergebnisse erzielen. Diese Art der Methodik wurde im Themengebiet Umfelddatensensorik unseres Wissens nach noch nicht angewendet.

Vorläufige Experimente mit Long Short Term Memory (LSTM) Architekturen (Hochreiter und Schmidhuber 1997, [14]), eine spezielle Art rekurrenter Neuronaler Netzwerker, wurden bereits durchgeführt. Aufgrund fehlender annotierter Daten wurden künstliche Ausreißer in die Datensätze eingepflegt, um die prinzipielle Anwendbarkeit zu zeigen. Es ist jedoch ein strategischeres Vorgehen erforderlich, um ernsthafte Aussagen treffen zu können.

6 Danksagungen

Die zugrundeliegenden Arbeiten wurden im Rahmen des Förderprogrammes „Verkehrsinfrastrukturforschung VIF 2015“ durch das österreichische Bundesministerium für Verkehr, Innovation und Technologie und der Österreichischen Forschungsförderungsgesellschaft mbH (FFG, FFG-Projektnummer 854581), gefördert. Der Projekttitel lautete „UDEQI – Qualitätssicherung der  Umfelddatenerfassung“.

Die Know-Center GmbH Graz wird innerhalb des Österreichischen COMET Programm – Competence Centers for Excellent Technologies - gefördert; unter der Schirmherrschaft des
Bundesministeriums für Verkehr, Innovation und Technologie, des Bundesministeriums für Wirtschaft, Familie und Jugend und vom Land Steiermark. COMET wird von der Österreichischen Forschungsförderungsgesellschaft (FFG) verwaltet.

7 Literatur

7.1 Bücher

[1] D. M. Hawkins. (1980). Identification of outliers (Vol. 11). London: Chapman and Hall

[2] P. J. Rousseeuw, A. M. Leroy. (2003). Robust regression and outlier detection. Hoboken, NJ: Wiley-Interscience.

7.2 Zeitschriftenartikel

[3] Y. Zhang, N. Meratnia, P. Havinga. (2010). Outlier Detection Techniques for Wireless Sensor Networks: A Survey. IEEE Communications Surveys & Tutorials, 12(2), 159-170.  doi:10.1109/surv.2010.021510.00088

[4] N. Shahid, I. H. Naqvi, S. B. Qaisar. (2013). One-class sup-port vector machines: analysis of outlier detection for wireless sensor networks in harsh environments. Artificial Intelligence Review, 43:515–563

[5] I. Alameddine, A. Kenney, J. Gosnell, H. Reckhow. (2010a). Robust multivariate outlier detection methods for environmental data. Journal of Environmental Engineering, 136(11):1299–1304.

[6] V. Chandola, A. Banerjee, V. Kumar. (2009). Anomaly detection. ACM Computing Surveys,41(3), 1-58. doi:10.1145/1541880.1541882

[7] H. Garces, D. Sbarbaro. (2011). Outliers detection inenvironmental monitoring databases.Eng. Appl. Artif. Intell., 24(2):341–349.

[8] N. Shahid, I. H. Naqvi, S. B. Qaisar. (2012). Characteristics and classification of outlier detection techniques for wireless sensor networks in harsh environments: A survey. Artificial Intelligence Review, 43(2), 193-228. doi:10.1007/s10462-012-9370-y

[9] E. W. Dereszynski, T. G. Dietterich. (2011). Spatiotemporal Models for Data-Anomaly Detection in Dynamic Environmental Monitoring Campaigns. ACM Transactions on Sensor Networks, 8(1), 1-36. doi:10.1145/1993042.1993045

[10] N. Ramanathan, L. Balzano, M. Burt, D. Estrin, E. Kohler, T. Harmon, C. Harvey, J. Jay, S. Rothberg, and M. Srivastava (2006), Monitoring a toxin in a rural rice field with a wireless sensor network, Tech. Rep. 62, Cent. for Embedded Network Syst., Univ. of Calif., Los Angeles, California

[11] A. B. Sharma, L. Golubchik, R. Govindan. (2010). Sensor faults. ACM Transactions on Sensor Networks, 6(3), 1-39. doi:10.1145/1754414.1754419

[12] J. Gupchup, R. Musăloiu-E., A. Szalay, A. Terzis. (2009). Sundial: Using Sunlight to Reconstruct Global Timestamps. Lecture Notes in Computer Science Wireless Sensor Networks, 183-198. doi:10.1007/978-3-642-00224-3_12

[13] S. Benkabou, K. Benabdeslem, B. Canitia. (2017). Unsupervised outlier detection for time series by entropy and dynamic time warping. Knowledge and Information Systems, 54(2), 463-486. doi:10.1007/s10115-017-1067-8

[14] S. Hochreiter, J. Schmidhuber. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780. doi:10.1162/neco.1997.9.8.1735

7.3 Beiträge aus Tagungsbänden

[15] S. Siripanadorn, W. Hattagam, N. Teaumroong. (2010). Anomaly detection using selforganizing map and wavelets in wireless sensor networks. In Proceedings of the 10th WSEAS International Conference on Applied Computer Science, ACS’10, pages 291–297, Stevens Point, Wisconsin, USA. World Scientific and Engineering Academy and Society (WSEAS).

[16] D. Janakiram, V. A. Reddy, A. V. U. P. Kumar. (2006). Outlier detection in wireless sensor networks using bayesian belief networks. In 2006 1stI nternational Conference on Communication Systems Software Middleware, pages 1–6.

[17] M. A. Rassam, A. Zainal, M. A. Maarof. (2012). One-Class Principal Component Classifier for anomaly detection in wireless sensor network. 2012 Fourth International Conference on Computational Aspects of Social Networks (CASoN). doi:10.1109/cason.2012.6412414

7.4 Schriftenreihen

[18] A. Rascher, S. Grošanić, F. Busch. (2014). Umfelddatenerfassung in Streckenbeeinflussungsanlagen, Testfeld „Eching Ost“ des Bundes, Abschlussbericht 9. Testphase, Herausgegeben vom Bundesministerium für Verkehr, Bau und Stadtentwicklung