FGSV-Nr. FGSV 002/122
Ort Bergisch Gladbach
Datum 15.05.2018
Titel Automatisierte Extraktion von Objekten aus mobilen Laserscanning und OKSTRA® konforme Speicherung
Autoren Dr.-Ing. Dirk Ebersbach
Kategorien OKSTRA
Einleitung

Mobile Messsysteme (MLS) werden heute in vielen Bereichen zur Erfassung und Bewertung der Straßeninfrastruktur eingesetzt. Die Technik zur Erfassung hat sich in den letzten Jahren deutlich weiterentwickelt. Die Auswertung der aufgenommenen Daten erfolgt derzeit manuell. Neue Auswertemöglichkeiten (künstliche Intelligenz) scheinen geeignet um den manuellen Prozess zu automatisieren. Im Rahmen dieses Projektes wird untersucht inwiefern diese Methoden geeignet sind um aus MLS-Systemen Objekte automatisiert zu extrahieren und OKSTRA®-konform abzuspeichern.

PDF
Volltext

Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1          Einleitung

Laserscanmessungen dienen heute der Erstellung von Grundplänen für den Um- und Ausbau von Straßen. Im Einsatz sind terrestrische Laserscanner (TLS), mobile Laserscanner (MLS) und luftgestützte Laserscanner (ALS). Der Vorteil dieser Arbeitsmethode ist u.a., dass die Störung des fließenden Verkehrs geringgehalten wird, das verhindert Staus und kostenintensive Absperrungen von Fahrbahnteilen.

Bei den Laserscanmessungen entstehen sehr große Punktmengen (mehrere Milliarden Punkte je nach Messabschnitt) und damit sehr große Datenmengen. Diese Datenmengen erfordern neue Techniken bei der Auswertung.

Zurzeit können Softwaresysteme diese Laserscandaten einlesen und insgesamt oder Teile davon als Punktwolke am Bildschirm darstellen. In der Darstellung kann man Objekte, die vom Laserscanner während der Aufnahme abgetastet wurden, schemenhaft als Bild erkennen. Von ausgewählten angeklickten Punkten kennt man die exakten Koordinaten und kann so per Handarbeit vom Bildschirm Objekte wie z. B. Schilder erfassen, wobei über den Fusspunkt die Lagekoordinaten ermittelt und zusammen mit visuellen Erkenntnissen (z. B. die Art des Schildes) in einer Maske eingetragen werden können, um das Objekt in einer Bestandsdatenbank abzulegen. Ebenso lassen sich auf diese Weise z. B. Durchfahrtshöhen von Bauwerken ermitteln.

Während solche Punktwolken durch Messfahrzeuge mit einem Laserscanner schnell und einfach zu erstellen sind, ist die manuelle Auswertung heute noch sehr aufwändig, insbesondere wenn mit diesem Verfahren z. B. eine Bestandserfassung von größeren Straßennetzen erfolgen soll.

 

2          Technischer Hintergrund

2.1        Mobile Mapping System

Jedes kinematische Messsystem besteht aus mehreren Komponenten. Die Hauptkompenenten sind:

1)    Positionierungs- und Orientierungssystem

Das Positionierungs- und Orientierungssystem (POS) ist das Herzstück jeder mobilen Messdatenplattform. Eine reine Positionierung über GPS ist nicht ausreichend, da zum einen Raumwinkel benötigt werden und zum anderen teilweise GPS-Abschattungen vorhanden sind. Aus diesem Grund werden neben dem GPS noch eine hochgenaue Winkel und Beschleunigungsmessung (Inertial Measurement Unit – IMU) sowie eine hochgenaue Wegstreckenmessung (Odometer) eingesetzt. Im Ergebnis können so mehrere Sensoren miteinander kombiniert werden. Mit Hilfe der IMU kann durch doppelte Integration der Beschleunigung in Zusammenhang mit den erfassten Richtungswinkeln die Lage bei GPS-Ausfall fortgeschrieben werden. Alle diese Beobachtungen werden in einer Ausgleichsrechnung (Kalmann-Filter) im Post-Processing zu einer gefahrenen Linie (Trajektorie) verarbeitet. In Abhängigkeit der Genauigkeit der eingesetzten Sensoren und der vorhandenen GPS-Bedingungen sind verschiedene Genauigkeiten erreichbar. Hier ist zwischen der relativen und der absoluten Lagegenauigkeit zu unterscheiden.

Zur Verbesserung der absoluten Lagegenauigkeit können noch externe Referenzpunkte eingesetzt werden.

2)    Laserscanner

Das Laserscanning ist seit mehreren Jahren aus dem Bereich der Vermessung nicht mehr wegzudenken. Um diese Technologie im Rahmen einer kinematischen Erfassung einsetzen zu können müssen die Scanner weitere Eigenschaften besitzen.

Zu nennen sind hier:Physischer Schutz bei Erschütterungen,

  • Schutz gegen Wasser und Staub,
  • Synchronisierung mit dem POS.

Es existieren zwei verschiedene Grundprinzipien bei der Entfernungsmessung mit Hilfe von Laserscannern:

  • Time of Flight (TOF) und
  • Phase Shift.

Mit Hilfe der TOF-Methode können Objekte in großen Entfernungen erfasst werden, jedoch ist die Genauigkeit und die Frequenz der Messung begrenzt. Bei der Phase Shift Methode können sehr gute Genauigkeiten (Submillimeter Bereich) und eine hohe Anzahl von Messungen je Sekunde erreicht werden, jedoch ist dann hier der Erfassungsbereich eingeschränkt. In Abhängigkeit der Messaufgabe muss hier eine Optimierung erfolgen.

3)    Bild/Videoerfassung

Zur Dokumentation des Straßenumfeldes sind Video oder Bilderfassungen möglich. Mit Hilfe eines Videostroms können qualitativ hochwertige Bilder erzeugt werden. Eine photogrammetrische Auswertung ist jedoch aus Videodaten durch die automatische Blendensteuerung nur bedingt möglich. Für eine präzise Erfassung von Objekten aus Bilddaten hat sich deshalb in den letzten Jahren der Einsatz von hochauflösenden Messbildkameras durchgesetzt. Aus diesen Bildern können dann hochpräzise Bestandsobjekte vermessen werden.

4)    Kalibrierung

Bei kinematischen Messsystemen handelt es sich immer um Multi-Sensorsysteme. Die einzelnen Sensoren in sich müssen kalibriert werden (POS, Laserscanner, Kameras). Die in der Literatur vorhandenen Modelle dazu werden vorgestellt.

5)    Datenformate

Im Ergebnis einer Befahrung entstehen verschiedenste Sensordaten (Bilddaten, Laserscannerpunktwolken etc.). Hier existieren verschiede Standards

Im Ergebnis entstehen Bilder und Punktwolken (siehe Bild 1).

Bild 1: 3D-Punktwolke eines kinematischen Messsystems

 

2.2        Objekterkennung in der Analyse von Straßenszenen

Methoden der Muster- bzw. Objekterkennung werden für verschiedene Zielvorgaben entwickelt. Die beiden Begriffe Muster- und Objekterkennung können dabei im Rahmen dieses Berichts weitgehend synonym verwendet werden.

Die Komplexität der Erkennungsaufgabe nimmt mit der Art und Stärke der Variation in den Eingangsdaten zu. Je mehr einzelne Objekte in einer Punktwolke oder einem Kamerabild vorhanden sind, und je stärker die einzelnen Objekte in ihrer Erscheinungsform variieren können, entscheidet, ob eine bestimmte Methode ausreichend „mächtig“ ist, eine zuverlässige Erkennung durchzuführen. Die Stärke des Rauschens in den Eingangsdaten sowie weiterer Störeinflüsse können die Mustererkennung zusätzlich erschweren.

Prinzipiell lassen sich folgende Aufgabenstellungen unterscheiden, deren Lösung zunehmend komplexe Methoden erfordert.

Objekterkennung (Object Recognition): Ergebnis der Erkennung ist eine Aussage darüber, ob bzw. wie stark die Eingangsdaten Ähnlichkeit zu zuvor bereits „gesehenen“ Objekten aufweisen. Am besten funktioniert die Klassifizierung, wenn als Eingabe ein einzelnes, mehr oder weniger isoliertes Objekt zur Verfügung steht. Im Kontext von Straßenszenen könnte dies z. B. ein Vorfahrtsschild sein. Typische Lösungen basieren auf dem Matching geeigneter Merkmale in den Bildern, oder der Registrierung von Punktwolken. Typische Merkmale sind Farben, Kanten oder geometrische Formen. Häufig werden komplexere Deskriptoren wie z. B. SIFT (Scale-Invariant Feature Transform) oder HOG (Histogram of Gradients) eingesetzt.

Objektlokalisierung (Object Detection): Bestimmung der Position eines Objekts in Bild oder Punktwolke (z. B. als Bounding Box). Meist als Erweiterung zur Objekterkennung, welche selbst keine Aussage zur Position eines Objekts beinhaltet. Die Eingangsdaten enthalten dabei im Allgemeinen mehrere verschiedene Objekte, die sich auch gegenseitig überschneiden können.

Objektklassenerkennung (Object Class Recognition): Klassifizierung von Objekten, die ein abstrakteres Konzept repräsentieren und deshalb in ihrer Erscheinung stärker variieren. Ein typisches Beispiel ist die Klasse „Auto“, worunter Sportwagen ebenso fallen wie Geländewagen, Cabriolets oder Kleinstwagen. Bei den Straßenbestandsobjekten sind dies z. B. verschiedene Deckel (Schacht, Hydrant, etc.), Beleuchtungsanlagen, Bäume, Lichtsignalanlagen (wenn man die Gesamtanlage incl. Masten betrachtet). Methoden zur Objektklassenerkennung basieren in der Regel auf einem Lernprozess. Aus einem Trainingsdatensatz wird dabei eine geeignete Auswahl an Merkmalen bestimmt, anhand derer Instanzen der Objektklasse zuverlässig erkannt werden können.

Lokalisierung von Objektklassen (Object Class Detection): Ähnlich wie der Objektlokalisierung geht es um die Bestimmung der Position in Daten, welche mehrere Objekte enthalten.

Erkennung auf Instanzebene (Instance-Level Detection): Unterscheidung mehrerer Instanzen desselben Typs, die sich überschneiden.

Segmentierung: Aufteilung eines Datensatzes in Bereiche (oft als Regions of Interest (ROI) bezeichnet), welche in sich maximal ähnlich sind. Der einfachste Fall ist die Trennung zweier Regionen, etwa des Vorder- und Hintergrunds eines Bildes. Ähnlichkeitskriterien können z. B. wieder Farbe, Form oder Textur sein; bei Bildsequenzen oder Stereobildern auch sekundäre Informationen wie Tiefe oder Bewegung.

Semantische Segmentierung (Semantic Segmentation, Semantic Labeling): Zuordnung jedes Pixels bzw. Punktes zu einem bestimmten Objekttyp oder einer Objektklasse. Sich überschneidende Objekte desselben Typs werden dabei nicht unterschieden.

Semantische Segmentierung auf Instanzebene (Instance-Level Semantic Segmentation): Zusätzliche Unterscheidung sich überlappender Instanzen desselben Objekttyps bzw. von Instanzen einer Objektklasse bei der Segmentierung.

Im Rahmen dieses Forschungsprojekts ist eine Klassifikation und Lokalisierung einfacher Objekte, z. B. bestimmter Verkehrsschilder, sowie von Objektklassen erforderlich. Außerdem ist die Erkennung einzelner Instanzen nötig, wenn sich Objekte desselben Typs überschneiden. Abschließend sind eine georeferenzierte Positionierung der Objekte und die OKSTRA®-konforme Dokumentation der Ergebnisse zu gewährleisten.

3          Umsetzung

Um die Genauigkeit der semantischen Segmentierung von RGB-Bildern zu erhöhen, bietet es sich an, die Information aus der Punktwolke derart in ein rasterartiges Format zu bringen, dass zu jedem RGB-Kamerabild ein zugehöriges Tiefenbild (Tiefenkarte) entsteht. Zusätzlich zu den Intensitäten der drei Farbkanäle (in der Regel zunächst Integer-Werte) steht als weiterer Datenkanal pro Pixel dann ein Entfernungs- bzw. Tiefenwert (zunächst als Fließkommazahl) zur Verfügung.

Die Positionen der Kameras in der Punktwolke bei der Aufnahme der einzelnen RGB-Bilder können aus der berechneten Trajektorie des Messwagens anhand der Kalibrationsdaten des Messfahrzeuges bestimmt werden.

Eine einfache Methode zur Generierung von Tiefenbildern wäre, für jede Kameraposition eine Lochkamera in der Punktwolke zu positionieren und alle Punkte in einer bestimmten Umgebung auf eine virtuelle Bildebene zu projizieren. Der Abstand zur Bildebene ist dann die Tiefeninformation. Es ist jedoch ersichtlich, dass bei dieser Vorgehensweise viele „Lücken“ entstehen, bzw. die Auflösung des Tiefenbildes abstandsabhängig und inhomogen ausfällt. Grundsätzlich stellt sich außerdem die Frage, wie damit umgegangen werden soll, dass in der Punktwolke zunächst alle Objekte „durchsichtig“ erscheinen.

Eine ebenfalls vorstellbare Vorgehensweise, welche die Generierung „dichter“ Tiefenkarten erlaubt, wäre die Vermaschung der Punktwolke mit anschließendem Raytracing für jeden Pixel der virtuellen Bildebene. Jeder Pixel enthält den Entfernungs- bzw. Tiefenwert des Schnittpunktes des verfolgten Strahls mit der nächsten Oberfläche der vermaschten Punktwolke. Es ergeben sich jedoch auch hier gewisse Schwierigkeiten. In Bereichen mit starkem Rauschen oder mit geringer Punktdichte ist es kaum möglich, ohne a-priori-Wissen eine geeignete Oberfläche zu bestimmen. Werden die Parameter so gewählt, dass große Lücken, wie z. B. auf der Windschutzscheibe eines Autos, geschlossen werden, gehen an anderer Stelle durch Glättung lokale Informationen verloren. Für die Versuche mit der Vermaschung wurden die Algorithmen der Bibliothek MeshLab verwendet (CIGNONI et al. 2008).

Als Alternative (oder Ergänzung) zu Tiefenbildern sind auch Disparitätsbilder vorstellbar. Wenn ein stereokalibriertes Kamerasetup vorhanden ist, kann aus zwei zueinander gehörigen Bildern die Disparitätsinformation berechnet werden. Über die Optimierung einer Energiegleichung wird ein (möglichst) dichtes Disparitätsbild erzeugt (z. B. mittels Semi-global Matching, vgl. Hirschmüller 2005). Abhängig vom Kamerasetup ist z. B. die Disparität für Objekte, die sich nahe an der Kamera befinden, größer als für solche, welche weiter entfernt sind. Die Disparität liefert damit einen Anhaltspunkt für die Entfernung bzw. Tiefe von Objekten, ist jedoch in der Regel mit relativ starkem Rauschen behaftet und weist Lücken auf, die z. B. aufgrund von Verdeckungen entstehen.

Das trainierte neuronale Netz wurde nun auf Bilder angewendet, die mit dem IRIS5 aufgenommen wurden und für die noch keine manuell annotierten Daten verfügbar sind.

Es wäre zu erwarten, dass die Unterschiede bei der Datenaufnahme (Höhe und Ausrichtung der Kamera, Kameracharakteristik) die Objekterkennung deutlich erschweren. Erste Versuche bestätigten diese Vermutung. Deutliche Verbesserung brachte jedoch bereits die Verwendung der Data Augmentation für die Farbwerte beim Training des Netzes.

Das Bild 2 zeigt die Aufnahme einer Straßenszene durch IRIS5. Die erhöhte Kameraposition ist deutlich an der Perspektive sichtbar.

Bild 2: Beispielbild vom Messfahrzeug IRIS5 der Lehmann + Partner GmbH (Quelle: Lehmann + Partner GmbH)

Die semantische Segmentierung dieses Bildes, mit dem Originalbild überlagert, ist im Bild 3 zu sehen.

Bild 3: Überlagerung von semantischer Segmentierung und Originalbild mit farblicher Kodierung der erkannten Objekte, z. B. gelb für Verkehrsschilder, rot für Pkw, hellgrün für Vegetation und hellblau für Gebäude. Erkennungsleistung des neuronalen Netzes nach 303.000 Trainingsiterationen mit Cityscapes-Trainingsdaten bei Anwendung auf Daten des IRIS5 der Lehmann + Partner GmbH (Quelle: Lehmann + Partner GmbH, Fraunhofer IPM)

Interessant ist, dass, obwohl das Netz mit Cityscapes-Daten trainiert wurde, die Erkennungsleistung für dieses Bild des IRIS5 nur wenig negativ beeinflusst wird. Allerdings wurde das Netz für diese Auswertung länger trainiert (303.000 vs. 200.000 Iterationen).

Die Auswertung anderer Bilder zeigt jedoch auch, dass die Erkennung auf den IRIS5-Daten noch nicht optimal arbeitet (Bild 4), wobei Unstimmigkeiten gerade im Nahbereich auch bei der Auswertung von Cityscapes-Daten auftreten.

Bild 4: Überlagerung von semantischer Segmentierung und Originalbild mit farblicher Kodierung der Klassen, z. B. rot für Pkw, grün für Vegetation, blau für Straße. Erkennungsleistung des neuronalen Netzes nach 303.000 Trainingsiterationen mit Cityscapes-Trainingsdaten bei Anwendung auf Daten des IRIS5 der Lehmann + Partner GmbH (Quelle: Lehmann + Partner GmbH, Fraunhofer IPM)

Der starke Schattenwurf auf der Häuserwand sowie die Position der Kamera fast senkrecht über dem Randstein stellen das Netz hier vor zusätzliche Herausforderungen. Ebenso scheint das hohe Aufkommen an Vegetation die Interpretation der weiter entfernten Bereiche zu erschweren.

Die Berechnung der Genauigkeit, mit der Objekte bei der semantischen Segmentierung erkannt wurden, bezieht sich auf die Anzahl der korrekt klassifizierten Pixel. Genauigkeitsberechnungen wurden anhand der Ergebnisse auf Testbildern berechnet, also auf Daten, welche das Netzwerk zuvor (das heißt während des Trainings) noch nicht „gesehen“ hat.

Als Formel zur Berechnung der Genauigkeit des Ergebnisses verwenden wir die sogenannte „Intersection over Union“-Metrik (vgl. z. B. Everingham et al. 2014):

true positive
-----------------------------------------------------------
true positive + false positive + false negative

Ein Nachteil dieser Berechnungsweise ist allerdings, dass Objekte „bevorzugt“ werden, die (im Schnitt) eine große Fläche im Bild einnehmen.

Es ergibt sich außerdem durch Pixel am Randbereich von Objekten immer eine Unsicherheit, da bei solchen Pixeln oft nicht klar ist, ob sie noch zum Objekt oder bereits zu einem anderen Objekt oder zum Hintergrund gehören. Wenn Objekte (teil-) transparent sind, tritt dieses Problem nochmals verstärkt in Erscheinung. So ist z. B. nicht klar, ab welcher Größe andere Objekte innerhalb einer Öffnung zwischen den Ästen eines Baumes separat identifiziert werden sollten. Das Bild 5 zeigt dieses Problem exemplarisch.

Eine Herausforderung für die Erkennung von Objekten aus Bilddaten stellen auch Bereiche dar, die reflektierend sind. Ein in einem Schaufenster reflektierter Baum wird vom neuronalen Netz oft als solcher klassifiziert werden, obwohl die Fläche als Teil eines Gebäudes erkannt werden sollte. Dasselbe gilt in abgeschwächtem Maß für Objekte, welche auf spiegelnden Autos oder nassen Flächen reflektiert werden. Anzumerken ist jedoch, dass solche reflektierenden Oberflächen für optische Messungen im Allgemeinen problematisch sind und deshalb z. B. auch in der Punktwolke wahrscheinlich nicht, oder nur unzuverlässig, erfasst sind.

Bild 5: Die Genauigkeit der semantischen Segmentierung hängt z. B. in Randbereichen von Bäumen stark von der Art und Weise der manuellen Annotierung der Trainingsdaten ab: in den grünen Bereichen stimmen das Klassifikationsergebnis des neuronalen Netzes und die manuelle Annotierung überein, rote Bereiche markieren Unstimmigkeiten (Quelle: CORDTS et al. 2016, Auswertung durch Fraunhofer IPM)

Die Berechnung der Genauigkeit der Ergebnisse hängt deshalb auch signifikant davon ab, auf welche Weise – und mit welcher Sorgfalt – die manuelle Auswertung der Trainings- und Testdaten durchgeführt wurde. Eine weitere Auffälligkeit ist, dass die Erkennungsgenauigkeit für Klassen, die besonders häufig vorkommen, bzw. in einer besonders hohen Zahl an Pixeln sichtbar sind, überdurchschnittlich hoch ist.

Auffällig ist ebenfalls, dass Klassen, die häufig vorkommen, besser – oder zumindest schneller – gelernt werden. Dieser Effekt könnte jedoch abnehmen, wenn das Training des Netzes noch über die 400.000 Iterationen hinaus verlängert wird, auf die es aus Zeitgründen bisher beschränkt wurde.

Einen ersten Eindruck davon, welche Genauigkeiten bisher erreicht werden können, vermittelt das Bild 6 für die Auswertung mit dem fein gelabelten Teil des Cityscapes-Datensatz nach bis zu 450.000 Trainingsiterationen. Diese Anzahl an Iterationen war nach ca. 4 Tagen erreicht; durch noch längeres Training kann die Genauigkeit voraussichtlich nochmals gesteigert werden.

Bild 6: Erkennungsgenauigkeit auf Cityscapes-Testdaten nach Training auf fein gelabelten Daten mit Data Augmentation und ADAM-Solver nach knapp 450.000 Trainingsiterationen (Quelle: Fraunhofer IPM)

Mit der Nutzung der Disparity-Bilder als weiterem Eingangskanal ergibt sich eine signifikante Erhöhung der Erkennungsgenauigkeit, wie im Bild 7 zu sehen ist.

Bild 7: Verbesserung der Erkennungsgenauigkeit mit Nutzung der Disparity-Information als weiterem Eingangskanal auf fein gelabelten Cityscapes-Daten nach knapp 300.000 Trainingsiterationen (Quelle: Fraunhofer IPM)

Die Verbesserung betrifft hier insbesondere die beiden für die Analyse von Straßenbestandsobjekten sehr interessanten Objekte Mast und Verkehrszeichen. Dieser Verbesserungseffekt gegenüber der ausschließlichen Nutzung der RGB-Kanäle ist auch bei der geplanten Nutzung von Tiefenbildern zu erwarten.

Um die Erkennungsgenauigkeit weiter zu verbessern, gibt es neben der Nutzung der Tiefenbilder verschiedene weitere Ideen, die je nach Bedarf evaluiert werden können, z. B.:

  • Nutzung weiterer Informationen aus der Punktwolke als zusätzliche Eingangskanäle für das neuronale Netz (z. B. Intensität oder Höhenwert),
  • Berechnung von Disparity-Bildern aus den Bildern der beiden Frontkameras, alternativ oder zusätzlich zu den Tiefenkarten,
  • Einbeziehung der aktuellen Orientierung (Heading) des Messfahrzeuges zur Vorhersage der wahrscheinlichen Position von Objekten im Bild,
  • Gewichtung der Ausgabe des Netzes durch a-priori-Wissen vor der endgültigen Klassifizierung, z. B. über die Wahrscheinlichkeit des Vorkommens von bestimmten Objekten in bestimmten Bildbereichen (s.u.).

 

4          Weiteres Vorgehen

Es wurde eine 50 km lange Testrecke im Raum Köln/Bergisch Gladbach mit zwei kinematischen Messsystemen (IRIS und MESUV) erfasst.

Bild 8: Teststrecke 50 km

Es erfolgt eine manuelle Auswertung aller Objekte. Dies erfolgt auf Basis der Bild- und Laserscannerdaten. Dazu werden trainierte Auswerter eingesetzt. Es werden alle vorher definierten Attribute erfasst. Die Ergebnisse werden direkt in einer Postresql-Datenbank gespeichert. Im Ergebnis der Befahrung und Auswertung liegen folgende Datensätze vor:

  • Attribuierter Datensatz aus der manuellen Auswertung,
  • Attribuierter Datensatz aus der automatischen.

Diese Datensätze können nun direkt miteinander verglichen werden. Folgende Kriterien können ausgewertet werden:

  • Objekt erkannt ja/nein,
  • Anzahl der „False positive“ erkannten Objekte,
  • Objekte inklusive aller erforderlichen Attribute erkannt,
  • Objekt erkannt aber Attribute nicht erkannt.

 

Literaturverzeichnis

Deumlich, F.; Staiger, R. (2002): Instrumentenkunde der Vermessung. Herbert Wichmann Verlag, Heidelberg

El-Sheimy, N.; Schwarz, K. P. (1999): Navigating Urban Areas by VISAT – A Mobile Mapping; System Integrating GPS/INS/Digital Cameras for GIS Application, Navigation, Vol. 45, No. 4,pp. 275-286

Harris, C. G.; Pike, J. M. (1988): 3D Positional Integration from Image Sequences, Proceedings third Alvey Vision; Conference (AVC87), pp. 233-236,1987; reproduced in Image and Vision Computing, vol 6, no 2, pp. 87-90

Kern, F. (2002): Automatisierte Modellierung von Bauwerksgeometrien aus 3D-Laserscanner-Daten. PhD thesis, Technische Univerität Braunschweig. Geodätische Schriftenreihe der Technischen Universität Braunschweig Nr.19

Kraus, K. (2004). Photogrammetrie Band 1: Geometrische Informationen aus Photografien und Laserscanneraufnahmen. Walter de Gruyter, Berlin – New York

El-Sheimy, N.; Schwarz K. P.; Grave l, M. (1995): Mobile 3-D Positioning Using GPS/INS/Video Cameras, The Mobile Mapping Symposium, Columbus, OH,USA, pp. 236-249, May 24-26

Luhmann, T. (2002): Photogrammetrie und Laserscanning, Anwendung für As-Built-Dokumentation und Facility Management. Herbert Wichmann Verlag, Heidelberg

Riegl (2005): Internetseite. http://www.riegl.com/products/terrestrial-scanning/produktdetail/product/ scanner/4/; general informations about terrestrial laserscanners (letzter Zugriff: Juli 2016)

Schwarz, K. P.; Cannon, M. E.; Wong, R.V.C. (1989): A Comparison of GPS Kinematic Models for the Determination of Position and Velocity along a Trajectory, Manuscripta Geodaetica, 1989, 14(2), pp. 345-353

Ulrich, A.; Stucknika, N.; Riegl, J. (2005): High-resolution laser scanner with waveforme digitisation for subsequent full waveforme analysis. From Conference Volume 5791 Gary W. Kamerman; Laser Radar Technology and Applications X; Orlando, Florida, USA | March 28, 2005

Scheller, S.; Westfeld, P.; Ebersbac h, D. (2007): Calibration of a mobile mapping camera system with photogrammetric methods. 5th International Symposium on Mobile Mapping Technology (MMT 2007), Padua, Italy

Daniel Huber (2011): The ASTM E57 File Format for 3D Imaging Data Exchange; Proceedings of the SPIE Vol. 7864A, Electronics Imaging Science and Technology Conference (IS&T), 3D Imaging Metrology, January, 2011

Adam, A.; Ioannidis, C.: Automatic road sign detecion and classification based on support vector machines and HOG descriptos. ISPRS annals of the photogrammetry, remote sensing and spatial information sciences, 2014, 2. Jg., Nr. 5, S. 1

Bremer, M.; Wichmann, V.; Rutzinger, M.: Eigenvalue and graph-based object extraction from mobile laser scanning point clouds. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2013, 5. Jg., S. W2

Cordt s, Marius, et al.: The cityscapes dataset for semantic urban scene understanding. arXiv preprint arXiv:1604.01685, 2016

De La Escaler a, Arturo, et al.: Road traffic sign detection and classification. Industrial Electronics, IEEE Transactions on, 1997, 44. Jg., Nr. 6, S. 848-859

Filipe, Silvio; Alexandre, Luis A.: A comparative evaluation of 3d keypoint detectors in a rgb-d object dataset. In: Computer Vision Theory and Applications (VISAPP), 2014 International Conference on. IEEE, 2014. S. 476-483

Giering, Michael; Venugopalan, Vivek; Reddy, Kishore: Multi-modal sensor registration for vehicle perception via deep neural networks. In: High Performance Extreme Computing Conference (HPEC), 2015 IEEE. IEEE, 2015. S. 1-6

Girshick; Ros s, et al.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. S. 580-587

Gross, Hermann; Thoennessen, Ulrich: Extraction of lines from laser point clouds. In: Symposium of ISPRS Commission III: Photogrammetric Computer Vision PCV06. International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences. 2006. S. 86-91

Guo, Yulan, et al.: 3D object recognition in cluttered scenes with local surface features: a survey. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2014, 36. Jg., Nr. 11, S. 2270-2287.

Gupta, Saurabh, et al.: Learning rich features from RGB-D images for object detection and segmentation. In: Computer Vision–ECCV 2014. Springer International Publishing, 2014. S. 345-360

Hariharan, Bharath, et al.: Simultaneous detection and segmentation. In: Computer vision-ECCV 2014. Springer International Publishing, 2014. S. 297-312

He, Kaiming, et al.: Delving deep into rectifiers: Surpassing human-level performance on image net classification. In: Proceedings of the IEEE International Conference on Computer Vision. 2015. S. 1026-1034

Houben, Sebastian; et al.: Detection of traffic signs in real-world images: The German Traffic Sign Detection Benchmark. In: Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013. S. 1-8.

Krizhevsky, Alex; Sutskeve r, Illay; Hinto n, Geoffrey E.: Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems. 2012. S. 1097-1105

Lin, G.; Shen, C.; Van Den Henge l, A.; Reid, I.: Efficient piecewise training of deep structured models for semantic segmentation. In CVPR, 2016, to appear

Long, Jonathan; Shelhamer, Evan; Darrel l, Trevor: Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. S. 3431-3440.

Moutarde, Fabien, et al.: Robust on-vehicle real-time visual detection of American and European speed limit signs, with a modular Traffic Signs Recognition system. In: Intelligent Vehicles Symposium, 2007 IEEE. IEEE, 2007. S. 1122-1126

Pu, Shi, et al.: Recognizing basic structures from mobile laser scanning data for road inventory studies. ISPRS Journal of Photogrammetry and Remote Sensing, 2011, 66. Jg., Nr. 6, S. S28-S39

Ronneberger, Olaf; Fische r, Philipp; B r o x, Thomas. U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. Springer International Publishing, 2015. S. 234-241

Russakovsky, Olga, et al.: Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115. Jg., Nr. 3, S. 211-252

Sermanet, Pierre; Lecun, Yann: Traffic sign recognition with multi-scale convolutional networks. In: Neural Networks (IJCNN), The 2011 International Joint Conference on. IEEE, 2011. S. 2809-2813

Stallkamp, Johannes, et al.: Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition. Neural networks, 2012, 32. Jg., S. 323-332

Steder, Bastian, et al.: Point feature extraction on 3D range scans taking into account object boundaries. In: Robotics and automation (icra), 2011 ieee international conference on IEEE, 2011. S. 2601-2608

Weinmann, Martin, et al.: Semantic point cloud interpretation based on optimal neighborhoods, relevant features and efficient classifiers. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 105. Jg., S. 286-304

Yu, F.; Koltun, V. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016, to appear.

Zeiler, Matthew D.; FERGUS, Rob. Visualizing and understanding convolutional networks. In: Computer vision-ECCV 2014. Springer International Publishing, 2014. S. 818-833

Zhou, Liang; Vosselma n, George: Mapping curbstones in airborne and mobile laser scanning data. International Journal of Applied Earth Observation and Geoinformation, 2012, 18. Jg., S. 293-304

 

Literaturverweise, soweit nicht in der Literaturrecherche im 1. Zwischenbericht referenziert:

Cignoni, Paolo; Corsini, Massimiliano; Ranzuglia, Guido; Meshlab: an open-source 3d mesh processing system. Ercim news, 2008, 73. Jg., Nr. 45-46, S. 6

Cybenko, George: Approximation by superpositions of a sigmoidal function. Mathematics of control, signals and systems, 1989, 2. Jg., Nr. 4, S. 303-314.

Everingham, Mark, et al. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 2015, 111. Jg., Nr. 1, S. 98-136.

Hirschmüller, Heiko: Accurate and efficient stereo processing by semi-global matching and mutual information. In: 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR‘05). IEEE, 2005. S. 807-814.

Kingma, Diederik; Ba, Jimmy. Adamm: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

Klette, Schluns, Koschan; Computer Vision: Three-Dimensional Data from Images; Springer-Verlag, 1998

Sung, A.: DDA Octree Traversal Algorithm for Ray Tracing, Eurographics‘91, North Holland-Elsevier, ISBN 0444 89096 3, p. 73-85