FGSV-Nr. FGSV 002/127
Ort online-Konferenz
Datum 13.04.2021
Titel Anwendungsmöglichkeiten visueller Objekterkennung zur Verkehrsstärken- und Verkehrsstromerfassung
Autoren M. Sc. Maximilian Hartl, Dipl.-Ing. Eric Pestel, Leander Geiger
Kategorien HEUREKA
Einleitung

Mit der Technologie von neuronalen Netzen und Machine Learning ist eine automatisierte Detektion von Objekten aus Bild- und Videomaterial möglich geworden. Die Objekterkennung kann z. B. genutzt werden, um Verkehrsteilnehmer nach Klassen (z. B. Pkw, Lkw, Fußgänger, Radfahrer) aus einem Videostream zu erfassen. Der Vorteil gegenüber gängigen Verkehrserhebungsmethoden ist der geringe Mitteleinsatz und die gute Skalierbarkeit. Mit dem Open Source Projekt „Open Data Cam“ kann jeder zum „urban data miner“ werden. Die Software bedient sich dem neuronalen Netzwerk „Darknet“ und dem Echtzeitobjektdetektor „You Only Look Once“. Da diese Erfassungsmethode jedoch relativ neu ist, gibt es noch keine verlässlichen Angaben über die Erfassungsqualität und Zuverlässigkeit. Dieser Beitrag soll helfen, die Anwendungsmöglichkeiten für die Erhebungsmethodik zu quantifizieren. Die Untersuchung zeigt, dass die ODC bei Querschnitten, an denen vornehmlich die Objektklassen Pkw oder Fußgänger auftreten, Übereinstimmungen von über 99% erzielt werden können.

PDF
Volltext

Der Beitrag ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1 Einleitung

Mit der Technologie von neuronalen Netzen und Machine Learning ist eine automatisierte Detektion von Objekten aus Bild- und Videomaterial möglich geworden. In der Wissenschaft gibt es bereits zahlreiche Anwendungsfelder dieser Technologien [1–6]. Sie reichen von der Gesichtserkennung [7–9] bis zur Spracherkennung [10–13] oder der verbesserten Suche in Kartendiensten [14]. Auch in der Verkehrserhebung eröffnen diese Methoden neue Möglichkeiten. Die Objekterkennung kann z. B. genutzt werden, um Verkehrsteilnehmer nach Klassen (z. B. Pkw, Lkw, Fußgänger, Radfahrer) zu erfassen. Der Vorteil gegenüber anderen gängigen Verkehrserhebungsmethoden (Befragungen, manuelle Erfassung, Kennzeichenerfassung (ANPR), Floating Car Data, Floating Phone Data) ist der geringe Mitteleinsatz und die gute Skalierbarkeit (geringer Mehraufwand bei einer zunehmenden Anzahl von eingesetzten Messgeräten) durch die verbreitete Verfügbarkeit von Videomaterial.

Im Bereich der Verkehrserfassung wird diese Technologie bereits eingesetzt [15–17] und genutzt, um beispielsweise an Flughäfen die Wartezeiten zu prognostizieren [18], an privat bewirtschafteten Straßenabschnitten die Fahrzeuge zu erfassen [19, 20] oder um Reisende mit Informationen zu versorgen [21]. Die beschriebenen Anwendungen sind jedoch mit einem hohen Professionalisierungsgrad und hohen Investitionskosten verbunden. Oft fehlen die notwendigen Ressourcen oder das benötigte Know-how, solche Erfassungen durchzuführen und dauerhaft zu unterhalten. Eine Umsetzung muss für jedes Projekt abgewogen werden. Zudem ist nicht für jeden Einsatzzweck der hohe Mittelaufwand gerechtfertigt, wodurch jedoch bei vielen möglichen Anwendungen der Aufwand vermieden wird.

Es gibt zahlreiche Aufgaben bei denen eine einfache Kontrollzählung, Flottenzusammensetzung, Abschätzung von Verkehrsströmen oder Abbiegeanteilen völlig ausreichen. Auf eine detailliertere und dauerhafte Lösung kann im Anschluss nach einer zufriedenstellenden Erstabschätzung zurückgegriffen werden.

Das Open Data Cam (ODC) Projekt [22] gibt jedem die Chance, als „urban data miner“ aktiv zu werden und so Verkehrszählungen für unterschiedliche Fahrzeug- bzw. Objektklassen direkt vor der Haustür durchführen zu können. Durch den minimalen Kostenaufwand von wenigen hundert Euro und der automatisierten Softwareinstallation ist die Anwendung innerhalb von wenigen Stunden einsatzbereit. Mit dieser neuen Technologie initiierte moovel [23] im Jahr 2018 das Projekt, um Verkehr für jeden greifbar zu machen. Die aktive Community hilft, das Projekt am Leben zu erhalten und die Weiterentwicklung fortzuführen. Zudem ist jeder Interessierte eingeladen, neue Ideen einzubringen und mitzuwirken. Die ODC ermöglicht neben der reinen Erfassung von Verkehrsmengen die Verfolgung von Objekten in einem Bild, wodurch Geschwindigkeitsprofile, Abbiegeanteile und Fahrstreifenwechsel abgeleitet werden können.

Da diese Erfassungsmethode jedoch noch relativ neu ist, gibt es noch keine verlässlichen Angaben über die Erfassungsqualität. Deswegen soll dieser Beitrag helfen, die Anwendungsmöglichkeiten für die Erhebungsmethodik zu quantifizieren.

Die Erfassungsrate wird in Bezug zu einer Vergleichserhebung gestellt und anhand von verschiedenen Untersuchungsgebieten und Aufgabenfeldern beurteilt. Der vollständige Versuchsaufbau wird von Geiger [24] beschrieben.

2 Open Data Cam

Eine ODC-Einheit besteht aus einem Jetson Entwicklerboard TX2 [25] von Nividia, einer USB- Webcam, optionalem Wetterschutz aus z. B. Polypropylen und ggf. einem 11,1V Li-Po 3C Akku für die externe Stromversorgung. In Bild 1 wird die ODC und die Steuerungsoberfläche abgebildet.

Für einen Gesamtpreis der Hardware von weniger als 450€ (24.06.2019) kann eine Einheit erworben werden und liegt damit bei lediglich 5% der Anschaffungskosten gegenüber einem ANPR-System [26]. Zudem gibt es zwei positive Entwicklungen zu beobachten. Zum einen fallen die Preise für Hardware älterer Modelle (TX2) und auf der anderen Seite werden neue Boards mit mehr Leistung entwickelt (TX3). Daraus ergibt sich eine Steigerung der Leistungsfähigkeit und der wirtschaftlichen Einsatzmöglichkeiten.

Bild 1: Open Data Cam und Webinterface

Die Software basiert auf dem neuronalen Netzwerkframework „Darknet“ [27] und dem darauf aufbauenden Echtzeitobjektdetektor „You Only Look Once“ (YOLO) [28, 29]. Im ODC Container übergibt YOLO über einen Websocket die Metadaten an eine node.js Serverinstanz. Die erkannten Objektrahmen und Positionen werden im JSON-Format übergeben [30]. Von einem implementierten und optimierten Tracker werden die übergebenen Objekte erfasst und verfolgt.

Die Einrichtung der aktuellsten ODC erfolgt automatisiert mittels Docker und vorgefertigten Installationsskripten auf einem Jetson Board mit Jetpack ab der Version 4.2 (Ubuntu 18.04) aufwärts. Die notwendige Software ist Open Source. Der Quellcode aller Komponenten kann auf GitHub [22] eingesehen werden. Die Hauptbestandteile sind in den Programmiersprachen C/C++, JavaScript und Python geschrieben.

Gesteuert wird die ODC über ein Webinterface, welches mit Smartphone oder Laptop über ein lokales WLAN erreicht wird. Im Webinterface können das aktuelle Videobild der Kamera eingesehen, die im aktuellen Bildausschnitt erkannten Objektrahmen angezeigt, Zählinien eingezeichnet, Zähler abgelesen und die erhobenen Daten aus der Datenbank heruntergeladen werden.

Wie der Name YOLO [28, 31] schon impliziert handelt es sich um einen „Single Shot Detector“ (SSD). Dieser führt in einem Schritt die Lokalisierung und Klassifizierung von Objekten in einem Foto durch. Wie von [31] beschrieben, ermöglicht das Verarbeiten des gesamten Fotos eine Detektion unter Berücksichtigung des globalen Fotokontextes. Dies können beispielsweise der Hintergrund, ähnliche Objekte oder die Eigenschaft sein, dass bestimmte Klassen (z. B. Pkw, Lkw, Fußgänger, Radfahrer) häufig zusammen auftreten. Der in [31] vorgestellte YOLO (Version 3) Detektor erreicht im Vergleich zu ähnlichen Objektdetektoren einen guten Mittelwert der durchschnittlichen Präzision (mean Average Precision – mAP). Es benötigt dabei durchschnittlich nur ein Drittel der Rechenzeit. Diese hohe Performance ermöglicht es, innerhalb von 20 bis 100 Millisekunden, alle Objekte eines Fotos oder Videoframes zu analysieren.

Bild 2: Veranschaulichung Intersection-over-Union nach [32] und Beispielanwendung

YOLO stellt nur die Erkennung der Objekte im Frame selbst zur Verfügung, aber keine Verfolgung der einzelnen Fahrzeuge über mehrere Frames. Nach [31, 33] wird dies in der ODC mittels Intersection-over-Union (IoU) [34, 35] und einem Distanzvektor realisiert. Dieser ist notwendig, da z. B. durch Schatten oder überdeckte Objekte auf wenigen Frames nicht mehr erkannt werden und der Tracker diese sonst nicht über den gesamten Bildbereich identifizieren kann. Die Funktionsweise ist in Bild 2 schematisiert und um ein Beispiel ergänzt. Die farbigen Linien stehen für die Zeit-Weg-Trajektorie eines erkannten Objektes (z. B. Pkw, Lkw).

Die erfassten Objekte werden an der Zähllinie protokolliert, die beispielhaft in Bild 4 dargestellt ist. Die erfassten Daten können aus der ODC als kommagetrennte Datenwerte (CSV) oder im JSON-Format mit Zeitstempel, Zähllinie, Objektklasse und Identifikationsnummer abgerufen werden.

Die von der ODC erfassten Fahrzeugpfade sind ebenfalls als JSON-Objekte mit Zeitstempel, Richtung, Objektklasse, Koordinaten, Abmessungen und Identifikationsnummer abrufbar.

3 Erhebuungsaufbau

Für die Quantifizierung der Erfassungsqualität kommt die ODC an drei Querschnitten im Großraum Stuttgart zum Einsatz. Dabei wird für jeden Standort ein anderer Erhebungsfokus gewählt. Die Standorte sind in Bild 3 verortet und um die Kameraperspektive ergänzt.

Standort Katzenbachstraße (Erfassung von Fahrzeugen) liegt auf der Brücke Katzenbachstraße über der A831 mit Blickrichtung Kreuz Stuttgart. Dieser Standort wird gewählt, um die Erkennung von Verkehrsteilnehmern auf Autobahnen bzw. Bundesstraßen zu untersuchen. Fahrzeuge weisen in diesem Bildausschnitt wenige Fahrsteifenwechsel auf. Die zulässige Höchstgeschwindigkeit beträgt 100km/h. Die klassifizierte Darstellung von Pkw, Lkw > 12,5t und Motorrädern steht im Vordergrund.

Standort Marienplatz (Erfassung von Fußgängern) befindet sich im Talkessel von Stuttgart. Der Marienplatz wird zur Erfassung von Fußgängern gewählt. Um andere Verkehrsteilnehmer auszuschließen, wird ein Abgang zur Stadtbahn erfasst bei dem ausschließlich die Fußgängerströme kanalisiert werden. Erhoben wird von einem Übergang mit Blick auf den unterirdischen Zugang der Stadtbahn.

Standort Paulinenbrücke (Erfassung von Mischverkehren) liegt auf der Paulinenbrücke Richtung Tübinger Straße / Marienplatz. Dieser Standort wird gewählt, um eine Erkennung von Verkehrsteilnehmern im Stadtverkehr zu untersuchen. Dieser Bildausschnitt zeichnet sich durch einen relativ hohen Anteil an Fahrradfahrern aus, da die Tübinger Straße abgehend vom Marienplatz bis zur Einmündung in die Eberhardstraße als Fahrradstraße ausgeschildert ist. Die zulässige Höchstgeschwindigkeit beträgt im Bildausschnitt 30km/h.

Bild 3: Übersichtskarte der Erhebungsstandorte

Der Erhebungszeitraum für die Rohdatenerfassung umfasst mindestens 3 Stunden pro Standort. Durch den hohen Aufwand der manuellen Vergleichsmessung werden Abschnitte von ca. 30 Minuten für den Vergleich herausgegriffen und mit der ODC verglichen. Dieser Zeitraum scheint ausreichend zur Beurteilung der Erfassungsqualität, da sich bei längeren Intervallen kein Informationsgewinn ergeben würde. Zudem zeigten sich in Vorstudien ähnliche Erfassungsmuster über die Zeitabschnitte. Die Auswahl des Zeitabschnittes erfolgt zufällig.

Vergleichsmessung

Für die manuelle Vergleichsmessung (mVglM) kommt ein eigens dafür entwickeltes Tool zum Einsatz, das die differenzierte Erfassung nach Objektklasse und Fahrstreifen erlaubt. In Bild 4 ist die grafische Benutzeroberfläche (GUI) zu sehen. Ergänzend wird beispielhaft ein Erfassungsquerschnitt abgebildet. Damit ein Objekt aus der ODC eindeutig der manuellen Erfassung zugeordnet werden kann, ist eine zeitliche Synchronisation erforderlich. Das Erfassungstool nutzt dafür den Videostream aus der ODC. Die Erfassung erfolgt durch Klicken auf das entsprechende Icon, wodurch dem erfassten Objekt ein Fahrstreifen, eine Objektklasse und ein Zeitstempel zugeordnet werden. Um die zeitliche Differenz gering zu halten, wird die Abspielgeschwindigkeit um 25% bis 50% verlangsamt. Ergänzend kann in Sequenzen mit einer hohen Objektdichte das Videobild pausiert werden und um wenige Sekunden nach hinten oder vorne gesprungen werden, um den Vorgang zu wiederholen.

Bild 4: GUI des Erfassungstools für einen Erhebungsquerschnitt mit Zähllinie

Da die exakte Position der Zähllinien aus der ODC nicht in die manuelle Erfassung übernommen werden kann, wird versucht, die manuelle Erfassung an die Position der Zähllinie anzupassen. Dabei hilft die bildliche Orientierung an Fixpunkten. Eine vollständige Übereinstimmung kann dennoch nicht erzielt werden. Daher erfolgt über den Abgleich der beiden Zeitstempel eine Übereinstimmungsprüfung. Nach eigenen Erfahrungen mit ca. 10 Stunden Videoauswertung liegt die zeitliche Differenz zwischen der Erfassung mit der ODC und der manuellen Erfassung bei unter 500 Millisekunden. Als geeigneter Puffer wird für den zeitlichen Abgleich der beiden Zeitstempel 1.000 Millisekunden als angemessen befunden. Das erlaubt eine hohe Treffergenauigkeit und kompensiert die menschliche Reaktionszeit bei der Erfassung. Als Bezugszeit für die Auswertung wird die manuelle Erfassung dem Videostream aus der ODC zugeordnet. Die erfassten Objekte werden in Zeitintervallen von einer Minute Länge aggregiert dargestellt. Für die Erhebungsquerschnitte werden die Objektklassen Pkw, Lkw > 12,5t, Motorrad, Bus und Fußgänger unterschieden.

Kameraperspektive

Die Perspektive und äußere Einflüsse sind für die Detektionsrate der ODC mitentscheidend. Zum einen spielen Witterungsbedingungen wie Sonne, Regen, Schnee und Dunkelheit eine Rolle – noch wichtiger für die Erfassung ist jedoch der Blickwinkel auf den Erhebungsquerschnitt. Das neuronale Netzwerk ist auf einen bestimmten Datensatz von YOLO trainiert. Die Erfassungsquote ist damit indirekt abhängig von den Trainingsdaten. Der Abgleich der Perspektiven und Objektklassen aus dem trainierten Netz mit der Perspektive und den zu erfassenden Objekten am Auswertungsstandort ist entscheidend.

Mit entsprechenden alternativen Trainingsdaten könnte die ODC für beliebige Perspektiven und Objektklassen vertiefend trainiert werden. Jedoch ist der Aufwand für die Bereitstellung von Trainingsdaten und das Trainieren von neuronalen Netzen nicht zu unterschätzen. Um beispielsweise Trainingsdaten bereit zu stellen, ist eine ausreichend große Menge an Bildmaterial erforderlich. Des Weiteren müssen die Bilder in ausreichender Varianz vorliegen und mit den Objekten gelabelt sein. So empfiehlt [36, 37] für das Trainieren mindestens 1.000 klassifizierte Bilder pro Objektklasse, wobei in einem Bild mehrere Objektklassen vorhanden sein dürfen. Wird ein bereits vortrainiertes Modell als Grundlage weiter trainiert, empfiehlt [37–39] mindestens 100 klassifizierte Bilder für das Verfeinern einer vorhandenen Oberklasse oder Erweitern um eine neue Unterklasse. Diese Tatsache ist bei der Bestimmung der Erfassungsqualität zu berücksichtigen und spiegelt sich im nachfolgenden Kapitel wider.

4 Analyse und Bewertung der Erfassungsqualität

Die Erfassungsqualität ergibt sich aus der Differenz der ODC zur mVglM. Die mVglM wird nach dem Vier-Augen-Prinzip mehrfach auf Übereinstimmung überprüft. Es wird daher von einer Erfassungsquote nahe 100% ausgegangen.

Die Auswertung erfolgt auf zwei unterschiedliche Arten. Zum einen wird die Gesamtanzahl über die Zeit betrachtet, zum anderen wird die erfasste Anzahl pro Objektklasse und zeitlicher Auswerteeinheit analysiert und für jeden Standort differenziert dargestellt. Ausgehend von den beiden Auswertungen wird als Gütemaß die prozentuale Übereinstimmung abgeleitet.

Zählmenge

Die Zählmenge beschreibt die Anzahl der erfassten Objekte. Die Anzahl der Objektklassen richtet sich nach dem Querschnitt. Für die Standorte sind in Bild 5 die Zähldaten dargestellt. Ergänzt wird die Grafik um eine Differenzdarstellung mit der mVglM als Bezugsgröße. Auffallend ist die hohe Übereinstimmung am Querschnitt Katzenbachstraße und Marienplatz. Die absolute Abweichung beträgt im ersten Fall maximal 2 Objekte pro Zeitintervall bei einer Zählmenge von ca. 750 Objekten über den Erhebungszeitraum. Über den gesamten Erhebungszeitraum ergibt sich daraus ein durchschnittlicher Fehler von unter 2‰. Es ist keine systematische Über- oder Unterschätzung festzustellen, wodurch sich die Abweichungen über den Erhebungszeitraum nahezu ausgleichen. Eine ausreichende Erfassungsqualität ist damit für diese Perspektive und Objektdetektion gegeben.

Bei der Fußgängererfassung am Marienplatz zeigt sich ein ähnliches Bild. Hier wird die Erfassung auf die Zählung von Fußgängern begrenzt. Es findet keine systematische Über- oder Unterschätzung der ODC gegenüber der mVglM statt. Die Abweichung liegt hier bei ca. 3%. Es gibt lediglich einen Ausbruch der Erfassungsgenauigkeit zum Zeitpunkt 10:35 Uhr. Hier trifft eine Schulklasse mit ca. 30 Schülern ein. Einzelne Kinder waren zeitweise durch Mitschüler verdeckt. Durch die hohe Dichte der Personenansammlung zeigten sich kleinere Schwächen bei der Erfassung. Die ODC konnte innerhalb der wenigen Sekunden, die die Personen im Bild waren, nicht alle Personen erkennen. Ohne die Schulklasse würde die Abweichung auf ca. 2% sinken.

Daraus lässt sich schließen, dass die ODC sehr gut für die Erfassung von Fahrzeugen geeignet ist, während bei der Erfassung von Fußgängerverkehren mit einer etwas schlechteren Erfassungsquote zu rechnen ist. Das trifft insbesondere dann zu, wenn sich die Personen in Pulks durch den Erhebungsquerschnitt bewegen. Es sind aber weder systematische Über- noch Unterschätzungen festzustellen.

Bild 5: Zählmenge im Zeitintervall von einer Minute für erfasste Querschnitte mit Differenzdarstellung

Am Standort Paulinenbrücke wird eine deutliche Abweichung ersichtlich. Die ODC überschätzt durchschnittlich die erfassten Objekte um ca. 10% über den gesamten Erhebungszeitraum. Die mangelnde Überdeckung ist jedoch nur zu einem geringen Anteil durch eine fehlerhafte Objekterkennung zu erklären. Gegenüber dem Standort Katzenbachstraße und Marienplatz ist vielmehr eine systematische Überschätzung der gezählten Objekte festzustellen. Die Überschätzung begründet sich durch die Art der Zählung. Bei der manuellen Zählung werden die detektierten Objekte auf das Verkehrsmittel bzw. den Fußgänger reduziert. Die ODC zählt dagegen alle erkannten Objekte (Verkehrsmittel und Verkehrsteilnehmer) einzeln. So passiert es häufig, dass beispielsweise Fahrradfahrer doppelt gezählt werden, da die Person zusätzlich zum Verkehrsmittel erfasst wird. Am Querschnitt Katzenbachstraße und Marienplatz ist die Abweichung niedrig, da die Anzahl dieser Objekte gering ist. Im Fall der Katzenbachstraße werden nur die Objekte Pkw, Lkw > 12,5t, Bus und Motorräder erfasst. Eine doppelte Erfassung ist hier fast ausgeschlossen. Personen in Pkw, Lkw oder Bussen werden nicht detektiert. Am Standort Marienplatz ist die Erfassung auf Fußgänger limitiert. In Bild 6 sind auf der linken Seite zwei typische Szenen dargestellt, die die unterschiedliche Art der Erfassung zeigen und zu Abweichungen führen.

Bild 6: Links: Typische Unterschiede bei der Erfassung von Objekten zwischen ODC und mVglM, Rechts: Ähnlichkeit deutscher Lkw und amerikanische Subway

Natürlich ist es möglich, die manuelle Erfassungsmethodik an die Erfassung der ODC anzugleichen und Objekte doppelt zu zählen. Daraus leitet sich jedoch eine Schiefe gegenüber den gängigen Praktiken der Verkehrserhebung [41] ab.

Zur Untersuchung wird beispielhaft für den Querschnitt Paulinenbrücke die Methodik angeglichen. Daraus ergibt sich zwar eine höhere Übereinstimmung bei der Erfassung der Personen von 70 mit mVglM zu 72 mit der ODC, jedoch wird dadurch die Erfassung von Fahrrädern mit der ODC nicht gesteigert. Es ist damit entscheidend in welchem Fokus die Erhebung steht und welche Art von Auswertung im Nachgang erfolgen soll.

Einfluss der Objektklassen

Mit dem Wissen der Zählarten leitet sich die Darstellung der Flottenzusammensetzungen ab. In Bild 7 sind die erfassten Objektklassen für die Standorte differenziert aufgelistet. Innerhalb jeder Objektklasse wir die Zählung mit der mVglM (links), der ODC (mittig) und deren Differenz (rechts) dargestellt.

Für die ersten beiden Querschnitte zeigt sich wieder ein harmonisches Bild durch die geringe Abweichung der erfassten Objektklassen. In der Katzenbachstraße wird vornehmlich Pkw-Verkehr erfasst. Der größte Unterschied ist in der Klasse der Lkw zu beobachten, wodurch Pkw mit der ODC überschätzt und Lkw unterschätzt werden. Würde die Differenz ausgeglichen werden, würde sich der Fehler auf wenige Objekte relativieren. Die Diskrepanz begründet sich aus der bereits geschilderten Perspektive von der Katzenbachstraße auf den Erfassungsquerschnitt der B14. Zusätzlich ist das Modell der ODC hauptsächlich mit dem Coco Dataset [42] von Microsoft trainiert worden. Die darin enthaltenen klassifizierten Fotos stammen aus der Onlinefotodatenbank Flickr [43], welche zu großen Teilen aus einer Höhe von wenigen Zentimetern bis zwei Metern aufgenommen wurden. Das erschwert die Erfassung von einer Brücke, da der Blickwinkel eine ungewöhnliche Perspektive gegenüber den Trainingsdaten darstellt. Ergänzend kommt hinzu, dass die Trainingsdaten für die Klasse der Lkw überwiegend auf Basis von amerikanischen Trucks gebildet werden. Das Aussehen der Trucks gegenüber europäischen Lkw unterscheidet sich vornehmlich durch den Aufbau des Zugfahrzeugs. Andererseits ähnelt der Auflieger der Zugmaschine aus Bild 6 (rechts) beispielsweise einem silbernen Zug aus der New Yorker Subway. Dadurch wird der Lkw mit der ODC als „Train“ gelabelt. Jeder Objekterfassung wird eine Trefferwahrscheinlichkeit zugewiesen, die letztendlich darüber entscheidet, mit was ein Objekt klassifiziert wird. Da die ODC nur bedingt europäische Lkw erkennt, ist für die ODC ein Zug wahrscheinlicher und kennzeichnet es entsprechend. Da ein Zug an diesem Querschnitt jedoch ausgeschlossen ist, wird diese Objektklasse nicht gelistet. Dies erklärt aber den Erfassungsunterschied zur mVglM.

Bild 7: Erkannte Objektklassen für erfasste Querschnitte

In der Erfassung von unterschiedlichen Verkehrsteilnehmern liegt gleichzeitig die Stärke und die Schwäche der ODC. Es ist möglich, mit dieser Methode mehrere Verkehrsteilnehmer und unterschiedliche Verkehrsmittel zeitgleich zu erfassen. Die parallele Erfassung führt aber zu einer Schiefe, da eben nicht ausschließlich das Verkehrsmittel erkannt wird.

Es ist also notwendig, entweder die Zählart der ODC anzupassen oder im Nachgang an die Erhebung über eine Datenbereinigung auf die entsprechenden Werte zu schließen. Das ist jedoch nur bedingt möglich, wenn sich die Erfassung auf die gemischte Detektion von Fußgängern und Fahrrädern fokussieren soll. Hier lässt sich nicht ohne weiteres der richtige Anteil herausfinden.

Die Unterschiede treten deutlich am Querschnitt der Paulinenbrücke hervor. Die Klassen von Pkw, Lkw und Motorrad liegen in einer ähnlichen Größenordnung. Während mit der mVglM nur 3 Personen erfasst werden, weist die ODC hier 72 Personen über den Erhebungszeitraum aus. Im Gegensatz dazu werden mit der mVglM 67 Fahrradfahrer erkannt und lediglich 2 mit der ODC. Mit der gewählten Kameraperspektive verdeckt die Person das Fahrrad, auf dem sie fährt. Nur in seltenen Fällen erkennt die ODC eine Person auf einem Fahrrad und ordnet sie beiden Objektklassen zu. Würde der Erfassung mit der ODC geglaubt werden, würde sich in der Paulinenbrücke eine Situation mit einem hohen Fußgängeranteil ohne viel Fahrradfahrer ableiten lassen. Jedoch ist genau das Gegenteil der Fall. In Summe stimmt die erfasste Menge der Fußgänger und Fahrradfahrer nahezu überein. Ist dieser Zusammenhang bekannt, kann über eine Datenbereinigung ansatzweise auf die tatsächliche Zusammensetzung geschlossen werden. Eine solche Datenbereinigung sollte jedoch nur angewendet werden, wenn es mit einer Vergleichsmessung belegt werden kann. Besser wäre es beispielsweise, über einen Perspektivwechsel eine höhere Erfassungsquote zu erzielen. Es ist jedoch festzustellen, dass sich Brücken generell für den Erhebungsaufbau eignen.

Es empfiehlt sich daher, die Eignung der ODC für den jeweiligen Einsatzzweck zu prüfen. An Querschnitten mit einer geringen Anzahl an Objektklassen, die bereits gut mit der ODC erkannt werden, eignet sich diese Technik für die schnelle unkomplizierte Erfassung von Verkehrsströmen und Verkehrszählungen. Über die Möglichkeit, die ODC mit eigenen klassifizierten Bildern für die jeweilige Situation zu trainieren, bietet es dem Anwender die Chance, die Fehlerquote zu minimieren und das Erfassungssystem besser auf das Aufgabenfeld abzustimmen.

5 Fazit

Die ODC bietet mit ihrem niedrigen Mitteleinsatz, der schnellen Einrichtung und der flexiblen Anpassung dank Open Source eine zeitgemäße Möglichkeit, Verkehrszählungen durchzuführen. Mit ihr werden Verkehrszählungen auch in kleineren Projekten realisierbar. Die ODC kann entweder vor Ort als eigenständige Einheit an Querschnitten angebracht werden oder aus einer bestehenden Infrastruktur Videostreams auswerten. Das erlaubt sowohl den lokalen, punktuellen Einsatz als auch die Skalierung auf eine flächendeckende Erfassung mit zentraler Auswertung mehrerer eingehender Bildquellen. Somit kann die ODC auch für Echtzeitauswertungen genutzt werden, um es beispielsweise mit einem Verkehrsmonitoring zu koppeln.

Durch die Abstraktion der Bildinformation auf Ebene von Metadaten werden lediglich die Informationen über Zeit, Objektklasse und Erkennungswahrscheinlichkeit ausgegeben. Das eigentliche Video- bzw. Bildmaterial wird nicht gespeichert, sondern befindet sich nur zum Zeitpunkt der Verarbeitung für wenige Millisekunden im flüchtigen (volatilen) Speicher (RAM). Dadurch vereinfacht sich die Frage nach dem Datenschutz deutlich, da die gewonnenen Informationen keinen Personenbezug herstellen. Der Zugriff über eine geschützte WLAN-Verbindung mit WPA2 Standard erfüllt die heutigen Sicherheitsanforderungen.

Besonders geeignet ist die ODC mit einer Erfassungsquote von 99% an Querschnitten, die vornehmlich die Objektklassen Pkw oder Fußgänger zählen sollen. Allgemein kann durch die Diskrepanz bei der unterschiedlichen Bildung von Objektklassen eine Abweichung gegenüber klassischen Erhebungsmethoden entstehen. Dies kann entweder durch eine Anpassung der Zählart oder mittels einer Datenaufbereitung behoben werden. Beides ist jedoch mit Schwierigkeiten behaftet, wodurch nur in Sonderfällen auf die tatsächliche Anzahl an Verkehrsteilnehmern über viele Verkehrsmittel geschlossen werden kann. Es zeigt sich zudem, dass die ODC auf einen Perspektivwechsel gegenüber den Trainingsdaten mit einer schlechteren Erfassungsquote reagiert. Dies kann zu Abweichungen von bis zu 20% führen. Zukünftig gilt es die Erfassungsquoten mit Dauerzählungen zu vergleichen und auf Langzeiteffekte zu untersuchen.

Bei jeglicher Art der Objekterfassung mit der ODC ist darauf zu achten, dass die Objektklasse ausreichend in den Trainingsdaten vorhanden ist und mit ausreichender Genauigkeit klassifiziert werden kann. Alternativ gibt es über das eigenständige Trainieren mit ausreichend klassifiziertem Bildmaterial die Möglichkeit, die ODC an die Bedürfnisse der Verkehrserhebung anzupassen. Das gilt es in der Zukunft vertieft zu untersuchen. Hierfür bedarf es weiterer Auswertungen, die das Labeln von Bildern und das anschließende Trainieren ähnlich komfortabel gestalten, wie das Einrichten der ODC.

Die hohe Skalierbarkeit auf eine flächendeckende Erfassung mit einem geringen Mitteleinsatz und Installationsaufwand erlaubt es der ODC, auch für größere Projekte zum Einsatz zu kommen. Werden die Eigenschaften der ODC bei der Auswahl von Standort und Einsatzweck berücksichtigt, eignet sich die ODC seht gut für die verkehrliche Erfassung von Verkehrsteilnehmern.

6 Literaturverzeichnis

[1] AlphaGo | DeepMind, https://deepmind.com/research/alphago/ [Zugriff am: 01.07.2019].

[2] keras-team/autokeras, https://github.com/keras-team/autokeras?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more [Zugriff am: 01.07.2019].

[3] facebookresearch/Detectron, https://github.com/facebookresearch/Detectron?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more [Zugriff am: 01.07.2019].

[4] fastai/fastai, https://github.com/fastai/fastai?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more [Zugriff am: 01.07.2019].

[5] NVIDIA/vid2vid, https://github.com/NVIDIA/vid2vid?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more [Zugriff am: 01.07.2019].

[6] google/dopamine, https://github.com/google/dopamine?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more [Zugriff am: 01.07.2019].

[7] Kirsch, C.: Neuronale Netze und andere Verfahren zur Gesichtserkennung in der Heimautomatisierung Ausgabe 2017.

[8] Pentland, A.; Choudhury, T.: Face recognition for smart environments. In: Computer 33 (2000), Heft 2, S. 50-55.

[9] Dikich, E.W.: Verfahren zur automatischen Gesichtserkennung. Logos Verlag Berlin, Berlin, 2003.

[10] Amazon Alexa, https://developer.amazon.com/de/alexa [Zugriff am: 01.07.2019].

[11] Siri, https://www.apple.com/de/siri/ [Zugriff am: 01.07.2019].

[12] Google Assistant – dein persönlicher Helfer, 2019, https://assistant.google.com/ [Zugriff am: 01.07.2019].

[13] Pirani, G.: Advanced Algorithms and Architectures for Speech Understanding, Research Reports Esprit Serv. 1, Springer Berlin / Heidelberg, Berlin, Heidelberg, 2013.

[14] Brassai, S.T.; Iantovics, B.; Enăchescu, C.: Artificial Intelligence in the Path Planning Optimization of Mobile Agent Navigation. In: Procedia Economics and Finance 3 (2012), S. 243-250.

[15] openalpr/openalpr, https://github.com/openalpr/openalpr [Zugriff am: 01.07.2019].

[16] Elovici, Y.; Shabtai, A.; Moskovitch, R. et al.: Applying Machine Learning Techniques for Detection of Malicious Code in Network Traffic. In: Hertzberg, J. (Hrsg.): Advances in artificial intelligence – Proceedings, Lecture Notes in Computer Science4667 : Lecture notes in artificial intelligence. Springer, Berlin, 2007, S. 44-50.

[17] Arcos-García, Á.; Álvarez-García, J.A.; Soria-Morillo, L.M.: Evaluation of deep neural networks for traffic sign detection systems. In: Neurocomputing 316 (2018), S. 332-344.

[18] Home | Xovis, https://www.xovis.com/home/ [Zugriff am: 28.06.2019].

[19] TrafficVision, 2019, http://www.trafficvision.com/ [Zugriff am: 01.07.2019].

[20] Biswas, S.P.; Roy, P.; Patra, N. et al.: Intelligent Traffic Monitoring System. In: Bhateja, V.; Mandal, J.K.; Raju, K.S. et al. (Hrsg.): Proceedings of the Second International Conference on Computer and Communication Technologies – IC3T 2015, Advances in Intelligent Systems and Computingvolume 379-381. Springer, New Delhi, 2016, S. 535-545.

[21] Kollegin Roboter hilft Reisenden weiter | Deutsche Bahn AG, https://www.deutschebahn.com/de/Digitalisierung/technologie/digitaler_alltag/Kollegin-Roboter-hilft-Reisenden-weiter-4056962 [Zugriff am: 03.07.2019].

[22] GitHub Repository OpenDataCam - Dokumentation und Quellcode – DIY solution to monitor urban landscape, https://github.com/opendatacam/opendatacam [Zugriff am: 24.06.2019].

[23] Open Data Cam - moovel lab, 2019, https://opendatacam.moovellab.com/ [Zugriff am: 28.06.2019].

[24] Geiger, L.: Anwendungsmöglichkeiten visueller Objekterkennung zur Verkehrsstärken- und Verkehrsstromerfassung – Possible applications of visual object detection in the field of traffic flow monitoring, Bachelorarbeit, Stuttgart Ausgabe 2019.

[25] nvidea: Jetsonboard, 2015, https://developer.nvidia.com/embedded/develop/hardware [Zugriff am: 28.06.2019].

[26] interne Korrespondenz: Durchschnittlicher Preis beim Kauf von 8 Einheiten, Stuttgart Ausgabe 2019.

[27] Redmon, J.: Darknet: Open Source Neural Networks in C, https://pjreddie.com/darknet/ [Zugriff am: 01.07.2019].

[28] Redmon, J.: YOLO: Real-Time Object Detection, https://pjreddie.com/darknet/yolo/ [Zugriff am: 01.07.2019].

[29] Redmon, J.; Divvala, S.; Girshick, R. et al.: You Only Look Once – Unified, Real-Time Object Detection.

[30] JSON, 2019, https://www.json.org/ [Zugriff am: 28.06.2019].

[31] Redmon, J.; Farhadi, A.: YOLOv3: An Incremental Improvement Ausgabe April 2018.

[32] Eiselein, V.; Bochinski, E.; Sikora, T.: Assessing post-detection filters for a generic pedestrian detector in a tracking-by-detection scheme. In: : IEEE International Conference on Advanced Video and Signal Based Surveillance, S. 1-6.

[33] Thibault Durant: Tracking Things in Object Detection Videos – How to track persistently multiple moving things from frame-by-frame object detections inputs, 2018 [Zugriff am: 24.06.2019].

[34] GitHub Repository node-moving-things-tracker - Dokumentation und Quellcode zum Node.js Objekttracker, https://github.com/opendatacam/node-moving-things-tracker [Zugriff am: 24.06.19].

[35] Thibault Durant, Thomas Derleth, Marco Biedermann, Joey Lee, Florian Porada, MESO Digital Interiors: GitHub Repository OpenDataCam - (First Release Version 1.0.0) - Dokumentation und Quellcode – DIY solution to monitor urban landscape, 2018, https://github.com/opendatacam/opendatacam/tree/v1.0.0 [Zugriff am: 24.06.2019]. 

[36] Deng, J.; Dong, W.; Socher, R. et al.: ImageNet: A large-scale hierarchical image database. In: : IEEE Conference on Computer Vision and Pattern Recognition, 2009 – CVPR 2009 ; 20 - 25 June 2009, Miami [Beach], FL, USA. Institute of Electrical and Electronics Engineers; IEEE Computer Society; IEEE Conference on Computer Vision and Pattern Recognition; CVPR; IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, Miami, FL, 2009, pp. 248-255.

[37] How many images do you need to train a neural network?, 2017, https://petewarden.com/2017/12/14/how-many-images-do-you-need-to-train-a-neural-network/ [Zu- griff am: 03.07.19].

[38] How to Retrain an Image Classifier for New Categories | TensorFlow Hub | TensorFlow, https://www.tensorflow.org/hub/tutorials/image_retraining [Zugriff am: 03.07.19].

[39] Zhou, Y.; Nejati, H.; Do, T.-T. et al.: Image-based vehicle analysis using deep neural network: A systematic study. In: : 2016 IEEE International Conference on Digital Signal Processing (DSP) – 16-18 October, 2016, Beijing, China : proceedings. IEEE International Conference on Digital Signal Processing; Institute of Electrical and Electronics Engineers; DSP. IEEE, Beijing, China, 2016, pp. 276-280.

[40] File:Van buren curve - by Payton Chung.jpg - Wikimedia Commons, 2019, https://commons.wikimedia.org/wiki/File:Van_buren_curve_-_by_Payton_Chung.jpg [Zugriff am: 05.07.2019].

[41] Forschungsgesellschaft für Straßen- und Verkehrswesen: Empfehlungen für Verkehrserhebungen – EVE. Forschungsgesellschaft für Straßen- und Verkehrswesen, Köln, Ausg. 2012 Ausgabe 2012.

[42] Lin, T.-Y.; Maire, M.; Belongie, S. et al.: Microsoft COCO: Common Objects in Context, http://arxiv.org/pdf/1405.0312v3 Ausgabe Mai 2014.

[43] Flickr, https://www.flickr.com/ [Zugriff am: 03.07.19].