FGSV-Nr. FGSV 002/140
Ort Stuttgart
Datum 13.03.2024
Titel Vollständigkeit von OpenStreetMap-POI-Daten für die Nutzung in der Verkehrsplanung
Autoren Dr.-Ing. Martin Kagerbauer, Dipl.-Ing. Michael Heilig, Christian Klinkhardt, Tim Wörle, Fabian Kühnel, Sven Lautenbach, Tobias Kuhnimhof
Kategorien HEUREKA
Einleitung

Zur Beschreibung der Attraktivität von Gebieten im Rahmen der Zielwahlmodellierung werden oftmals Informationen über Points-of-Interest (POI) aus OpenStreetMap (OSM) genutzt. Wir haben die Vollständigkeit der OSM-POI-Datenbank für 129 Untersuchungsgebiete mithilfe von Vollerhebungen geprüft. Die Vollständigkeit der OSM-Datenbank unterscheidet sich zwischen einzelnen Kategorien erheblich. OSM ist in den Kategorien Gastronomie und Einzelhandel in weiten Teilen vollständig und nach stichprobenartiger Prüfung im Anwendungsfall für die Modellierung nutzbar. In den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung fehlen in OSM zumeist eine Vielzahl an POI. Strukturelle Einflüsse räumlicher oder intrinsischer Indikatoren konnten nicht nachgewiesen werden.

PDF
Volltext

Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

1 Einleitung

Verkehrsnachfragemodelle sind wesentliche Instrumente zur Abschätzung der Auswirkungen von verkehrspolitischen und infrastrukturellen Maßnahmen, da sie durch die Prognose verschiedener Szenarien quantitative Entscheidungshilfen liefern. Die Modelle müssen möglichst genaue Prognosen liefern, da ihre Ergebnisse die Grundlage für weitreichende und meist kostenintensive Entscheidungen legen. Dazu bilden sie das Verkehrsverhalten der Menschen auf der Grundlage mehrerer Entscheidungen ab: Welche Aktivitäten werden wo durchgeführt, welche Aktivitätsorte miteinander verbunden, welche Verkehrsmittel für einen Weg gewählt und welche Routen genutzt.

Im Rahmen der Zielwahl kommen jene Orte in Frage, an denen eine Aktivität ausgeführt werden kann: z. B. Supermärkte für den Lebensmitteleinkauf, Sportanlagen für die Freizeitgestaltung oder Bahnhöfe, um Bekannte oder Verwandte abzuholen oder abzusetzen. Folglich trägt die Raumstruktur eines Gebiets wesentlich zu seiner Attraktivität für eine bestimmte Aktivität bei. Die Attraktivität eines Gebiets bildet wiederum die Grundlage für die Modellierung der Zielwahl. Für eine realistische Modellierung sind daher aktuelle und detaillierte Informationen zu Angeboten vor Ort (z.B. Einzelhandelseinrichtungen, medizinische Versorgung) unerlässlich. Darüber hinaus sind nicht nur für die Modellierung der Zielwahl in Verkehrsnachfragemodellen, sondern auch für Erreichbarkeitsanalysen, für Konkurrenzanalysen und für die Abschätzung des Verkehrsaufkommens aktuelle und detaillierte Informationen über das örtliche Angebot erforderlich.

Amtliche Statistiken enthalten zumeist keine ausreichend detaillierten und aktuellen Informationen zum lokalen Angebot. Im individuellen Anwendungsfall stammen die Aktivitätsorte daher entweder aus Erhebungen mit erheblichem manuellem Aufwand, von kommerziellen Anbietern mit teilweise unklarer Datenaufbereitung oder von Open-Data- Plattformen. Open-Data-Plattformen bieten mehrere Vorteile. Die Informationen liegen in der Regel gut dokumentiert vor, was den technischen Aufwand für die Nutzung erheblich reduziert. Methoden, Rahmenwerke und Verfahren sind im Fall eines einheitlichen Datenformats leicht auf andere Regionen übertragbar. Die Bereitstellung in fest definierten Ausgabeformaten ermöglicht die automatisierte Verarbeitung der Informationen. Dadurch können bei einer Aktualisierung der Daten auch die darauf basierenden Auswertungen zügig und mit begrenztem Aufwand aktualisiert werden. Letztlich sind Open-Data-Plattformen öffentlich einsehbar und die darauf aufbauenden Arbeiten somit transparenter.

Eine der größten Open-Data-Plattformen mit georeferenzierten Informationen ist OpenStreetMap (OSM). In OSM sammeln freiwillig Mitwirkende unter anderem Informationen zu Wegenetzen, Gebäuden und Aktivitätsorten (Points-of-Interest, POI). Damit ist OSM eine Plattform für sogenannte “volunteered geographic information” (VGI). Haklay weist darauf hin, dass "Freiwillige [...] aus eigenem Antrieb Informationen sammeln, ohne eine Koordinierung von oben, die eine systematische Erfassung gewährleisten würde" [1]. Dabei stellt sich die Frage, ob sich die Datenqualität lokal unterscheidet, was darauf aufbauende Analysen wie zum Beispiel die Modellierung der Zielwahl verzerren würde. Um OSM-Daten bedenkenlos in der Zielwahl einsetzen zu können, ist die Vollständigkeit der POI-Datenbank flächendeckend zu prüfen.

Da unabhängige, flächendeckende POI-Daten aus anderen offenen Datenbanken fehlen, wird die Vollständigkeit der Datenbank bislang vor allem über intrinsische Analysen (z. B. Auswertungen der historischen Sättigungsrate oder der Anzahl der Mitwirkenden in einem bestimmten Gebiet) bewertet. Eine Verifizierung dieser intrinsischen Indikatoren mit real erhobenen POI-Informationen steht noch aus.

Zur Schließung der Wissenslücke haben wir an 129 Standorten Vollerhebungen der in der Realität vorhanden POI durchgeführt, um 1) die Vollständigkeit der POI-Daten aus OSM für unterschiedliche Kategorien zu prüfen, 2) Einflüsse räumlicher Strukturen auf Abweichungen zu bewerten und 3) die Erklärungskraft intrinsischer Indikatoren zu evaluieren.

Dazu wird zunächst eine Literaturanalyse zum aktuellen Wissensstand über Qualität und Anforderungen an POI-Daten durchgeführt. Das darauffolgende Kapitel beschreibt Datenquellen und -verarbeitung sowie die Berechnung von Bewertungsindikatoren. Es folgen Kapitel zur Methodik und zu den Ergebnissen der Analyse. Den Abschluss bilden eine Zusammenfassung der Arbeit und ein Ausblick.

2 Literatur

Einschlägige nationale Empfehlungen für die Erstellung von Verkehrsnachfragemodellen legen die Anforderungen für Eingabedaten und Modellschritte fest. Qualitätskriterien für POI spielen dort bislang eine geringe Rolle. Die meisten dieser Empfehlungen - beispielsweise die schweizerischen und britischen Empfehlungen für Datenquellen von Verkehrsnachfragemodellen - nennen lediglich Beispiele für die Verwendung von POI. Sie konzentrieren sich vorrangig auf Netzdaten und damit verbundene Informationen zur Verkehrsinfrastruktur wie Fahrpläne oder Bahnhöfe [2],[3]. In Deutschland sind die Empfehlungen zum Einsatz von Verkehrsnachfragemodellen für den Personenverkehr (EVNM-PV) [4] und die Empfehlungen für Inputdaten zur Raumstruktur und zum Verkehrsangebot für Verkehrsnachfragemodelle (EIV) [5] die maßgeblichen Richtlinien in diesem Bereich.

Die EVNM-PV führen OSM POI als mögliche Datenquelle für Aktivitätsorte der Wegezwecke Einkaufen und private Erledigung auf. Dabei weisen sie darauf hin, dass eine manuelle Aufbereitung aufgrund unzureichender Typisierung oder fehlender Angaben erforderlich sein kann. Die EVNM-PV empfehlen stichprobenartige und bei Bedarf visuelle Überprüfungen mit Hilfe von Dichtekarten vorzunehmen, um eine ausreichende Datenqualität zu gewährleisten [4].

Die EIV betonen die variierende Qualität und Vollständigkeit von VGI-Daten wie OSM, welche mit dem Bekanntheitsgrad des Datenanbieters und der Selektivität der Mitwirkenden zusammenhängt. Die EIV weisen auf mögliche Qualitätsunterschiede zwischen städtischen und ländlichen Gebieten hin. Auch die EIV empfehlen die Durchführung von stichprobenartigen Prüfungen [5]. Dezidierte Aussagen zu einzelnen POI-Kategorien werden in den Empfehlungen nicht getroffen.

Zusätzlich zu den länderspezifischen Empfehlungen ist die Nutzung, Qualität und Anwendung von POI-Daten aus VGI-Quellen Gegenstand zahlreicher wissenschaftlicher Untersuchungen. Die jeweiligen Analysen unterscheiden einzelne Dimensionen der Datenqualität nach Anwendungsfall [6]. Während Vollständigkeit und korrekte Klassifizierung der POI für die Abschätzung der Verkehrsnachfrage von großer Bedeutung sind, spielt für die Navigation auch die topologische Korrektheit der Relationen eine wichtige Rolle. Yeow et al. Verglichen verschiedene Maße und Validierungsmethoden zur Bewertung der Qualität von POI-Daten [7]. Sie betrachteten sowohl intrinsische als auch extrinsische Ansätze und stellten fest, dass die Positionsgenauigkeit, die am häufigsten untersuchte Dimension der Datenqualität ist. Die einbezogenen Studien untersuchten thematische Genauigkeit und Vollständigkeit nur in geringem Maße. Die Vollständigkeit wurde dabei meist durch den Vergleich mit Referenzdaten oder seltener über die Eintragungshäufigkeit bewertet. Im Anwendungsbeispiel Singapur ergibt sich eine geringe POI-Vollständigkeit, was auf "Übertragungs- und Auslassungsfehler" schließen lasse. Hochmair et al. stellten Quellen öffentlich verfügbarer POI-Daten von Mapping- und Social-Media-Plattformen einander gegenüber, ohne reale Erhebungen einzubeziehen [8]. Die Daten von Mapping-Plattformen wiesen eine höhere räumliche Genauigkeit auf als Social-Media-Daten. Die Autoren schlagen eine genauere Betrachtung der POI-Eintragsmuster und eine vertiefte Untersuchung ausgewählter Testgebiete vor. Touya et al. führten eine Vollständigkeits- und Genauigkeitsanalyse auf der Grundlage eines Referenzdatensatzes und von Flickr-Fotos durch und hoben die Verwendung mehrerer Indikatoren hervor, da alle geprüften Indikatoren bei Anwendung auf verschiedene POI- Kategorien Stärken und Schwächen aufzeigten [9].

Zur Nutzung der POI-Daten ist zusätzlich zum aggregierten Vergleich der Vollständigkeit der Einfluss der räumlichen Struktur, der Demographie und der im Untersuchungsgebiet aktiven Mapping-Community auf die Datenqualität von Interesse. Yang et al. analysierten Positionsgenauigkeit und Vollständigkeit chinesischer POI-Daten und untersuchten Einflussfaktoren durch Anwendung einer geografisch gewichteten Regression [10]. Dabei stellte sich heraus, dass die Verteilung der Mitwirkenden am wichtigsten ist, während Bevölkerungsdichte und Pro-Kopf-BIP nur einen geringen Einfluss haben. Zudem berichten mehrere Studien von einer tendenziell höheren Datenqualität in dichter besiedelten Gebieten [1],[10],[11]. Eine erste Analyse von 49 der dieser Arbeit zugrundeliegenden 129 Standorte ergab, dass Flächennutzung, räumliche Lage und historische Entwicklung der Einträge die Vollständigkeit der OSM-Datenbank beeinflussen [12].

Die Qualitätsbewertung offener POI-Datenbanken ist demnach ein häufig diskutiertes Thema im Bereich der Geoinformation. Die jeweiligen Ansätze befassen sich jedoch weniger mit der Vollständigkeit der POI-Informationen und wenn, dann konzentrieren sie sich auf intrinsische Bewertungen oder den Vergleich verschiedener VGI-Quellen. Ein Vergleich der Vollständigkeit mit realen Daten findet sich nur in wenigen Fällen und in geografisch sowie auf bestimmte POI-Kategorien begrenzten Untersuchungen.

Die Bewertung der OSM POI-Datenbank anhand einer groß angelegten Vollerhebung verschiedener Standorte und Aktivitätsgruppen kann vertiefte Erkenntnisse über die Nutzbarkeit von VGI-Daten in der Verkehrsplanung liefern. Basierend auf Erhebungen unterschiedlicher Gebiete in Deutschland soll daher die Vollständigkeit von verschiedenen POI-Kategorien in OSM bestimmt, und räumliche Einflussfaktoren analysiert werden. Zudem evaluieren wir, inwiefern bislang genutzte intrinsische Bewertungsmethoden zur Beschreibung der Vollständigkeit der POI-Informationen in der OSM-Datenbank geeignet sind.

3 Methodik und Datengrundlage

3.1 Vorgehensweise der Untersuchung

Ziel dieser Untersuchung ist es, die Vollständigkeit der in OSM kartierten POI-Daten ausgewählter Kategorien zu prüfen und Einflussfaktoren zu identifizieren. Wir vergleichen dazu die OSM-POI mit den POI von 129 Vollerhebungen jeweils 37 ha großer Gebiete (siehe Abbildung 1). In dieser Untersuchung konzentrieren wir uns auf Aktivitätsorte für die beiden Wegzwecke Einkaufen und private Erledigung, ergänzt um gastronomische Einrichtungen. Diese Orte (z.B. Supermärkte, Warenhäuser und ärztliche Praxen) sind zumeist gut sichtbar, sodass das Risiko fehlender POI in der Vollerhebung sinkt. Anhand von Tag-Filtern beziehen wir für diese Wegzwecke relevante POI aus OSM für den Zeitpunkt der Vollerhebung, vergleichbar zum Vorgehen aus Klinkhardt et al. [13].

Abbildung 1: Übersicht der Erhebungsgebiete

Die Analysen differenzieren die POI nach den Kategorien Dienstleistung          mit Kundenverkehr, Einzelhandel, Gastronomie, und Medizinische Versorgung. Für diese Kategorien vergleichen wir im Anschluss sowohl die Gesamtsumme als auch die gebietsspezifische Anzahl an POI in der Realität und OSM. Zusätzlich zur absoluten und relativen Abweichung zwischen den beiden Quellen bewerten wir die Güte der POI- Daten über den Scalable Quality Value  (SQV).  Die  EVNM-PV

empfiehlt die Verwendung  des Gütemaßes SQV zum Vergleich von Einzelwerten in der Validierung von Verkehrsnachfragemodellen [4]. Dieses Gütemaß kann die Differenz zwischen einem gemessenen und modellierten Wert über einen Skalierungsfaktor f in unterschiedlichen Größenbereichen bewerten [14]. Der Wertebereich von SQV liegt zwischen 0 (keine Übereinstimmung) und 1 (volle Übereinstimmung). Im Anschluss an die deskriptiven Analysen führen wir eine modellbasierte Analyse durch mit dem Ziel, Zusammenhänge zwischen der Abweichung der OSM-POI und externen Faktoren sowie intrinsischen Indikatoren zu untersuchen.

3.2 Datengrundlage

3.2.1 Reale POI-Daten von Vor-Ort-Erhebungen

Zur extrinsischen Validierung der OSM-Daten haben wir POI in 129 Erhebungsgebieten in 71 urbanen und ländlichen Gemeinden in Deutschland manuell lokalisiert (siehe Abbildung 1). Die Datenerhebung wurde im Rahmen des Projekts „Cities in Charge“ zwischen Oktober 2019 und April 2023 einmal pro Erhebungsgebiet durchgeführt. Da in diesem Projekt Ladeinfrastruktur für Elektrofahrzeuge geplant und aufgebaut wird, befinden sich die Erhebungsgebiete in der Nähe der errichteten Ladeinfrastruktur und umfassen verschiedene Typen von Stadtvierteln vom Stadtzentrum bis zum Stadtrand. Um die Anzahl der Beobachtungen zu maximieren, wurden für die Datenerhebung vorwiegend Regionen mit mehreren Ladestationen im Projekt ausgewählt. Wir katalogisierten jeden von außen sichtbaren POI in einem zensusrasterbasierten, nahezu kreisförmigen Gebiet mit einer Größe von 37 ha rund um die Ladeinfrastruktur (Durchmesser ~ 700m). Wir teilten die POI anhand eines Erfassungsrasters in Kategorien ein. Konnte ein POI mehreren Erhebungskategorien zugeordnet werden, haben wir diesen POI in jeder zuordenbaren Kategorie katalogisiert.

3.2.2 Aufbereitung von POI-Daten aus OSM

Der entsprechende Stand der OSM-Datenbank zum Zeitpunkt der Erhebung wurde durch Abfrage der OSM-History-Database (OSHDB) mit Hilfe der ohsome API1) [15] extrahiert. Das Ergebnis der Abfragen ist die Gesamtzahl der Elemente in den Erhebungsgebieten zum Zeitpunkt der jeweiligen Ortsbesichtigung. Tabelle 1 zeigt die für die Aufbereitung genutzten Tag-Listen differenziert nach Kategorien.

1) https://api.ohsome.org

Tabelle 1:    Genutzte Tag-Listen

Teilweise können POI mit mehreren Tags auch mehreren Kategorien zugeordnet werden. Dies ist in einigen Fällen gewünscht (z.B. in ärztlichen Praxen mit einem Haus- und einem Facharzt), in anderen Fällen ist es kontraproduktiv (z.B. bei einer Fachärztin mit zwei Funktionen). Exemplarische Prüfungen zeigen jedoch, dass es nur wenige überschätzte Fälle gibt.

3.2.3 Räumliche und intrinsische Indikatoren

Diese Arbeit untersucht den Zusammenhang zwischen räumlichen sowie intrinsischen Indikatoren und der Vollständigkeit der OSM-Datenbank. Die Ausweisung der Indikatoren erfolgt nicht nur für die Fläche der Erhebungsgebiete. Die Ausweisung intrinsischer Indikatoren beispielsweise bedarf einer Mindestanzahl an POI, welche in einigen Erhebungsgebieten nicht erreicht wird. Für andere Indikatoren – wie zum Beispiel die Raumtypen – stehen nur Informationen nur auf höher aggregierten Ebenen zur Verfügung. Aus diesen Gründen haben wir die Indikatoren – soweit möglich – jeweils sowohl für die Erhebungsgebiete als auch für deren Umgebung ausgewertet. Dabei haben wir Puffer von 0,5 km, 1,0 km und 2,5 km sowie die Gemeindeebene genutzt.

Amtliche Daten

Die Daten des Zensus 2011 bilden eine räumliche Grundlage mit Informationen zu Bevölkerung, Wohnungen und Gebäude in den Untersuchungsgebieten [16]. Zu diesem Zweck aggregierten wir die 1 ha-Informationen für alle Zensusraster innerhalb der Untersuchungsgebiete. Aufgrund der Korrelation zwischen der Anzahl an Bevölkerung, Wohnungen und Gebäude nutzen wir im Weiteren lediglich die Bevölkerung. Darüber hinaus zeichnet die Regionale Statistische Raumtypologie für die Mobilitäts- und Verkehrsforschung (RegioStaR, [17]) die Raumstruktur der Gemeinden der Erhebungsgebiete nach.

Anzahl der OSM-Mitwirkenden

Einen intrinsischen Indikator stellt die Anzahl der im jeweiligen Gebiet seit dem Start von OSM aktiv gewesenen Mitwirkenden dar. Dazu wurden zwei Varianten berechnet: die Anzahl aller im Gebiet tätigen Mitwirkenden und die Anzahl der Mitwirkenden, die sich mit POI beschäftigten. Die Hypothese ist, dass eine höhere Anzahl von OSM-Mitwirkenden mit einer höheren POI-Vollständigkeit verbunden ist.

Intrinsischer Sättigungsindikator

Unter der Annahme, dass die POI eines Wegezwecks in einem Gebiet über die Zeit gegen die Anzahl der real existierenden POI konvergiert, wurden intrinsische Sättigungsindikatoren für die Umgebung der Erhebungsgebiete berechnet und in die Analyse einbezogen. Hierfür wird die Anzahl der in OSM vorhanden POI im monatlichen Zeitverlauf seit 2007 betrachtet. Anhand dieser Datenpunkte wird eine Funktion des beschränkten Wachstums geschätzt, die den Verlauf bestmöglich wiedergibt. Die Sättigung ergibt sich aus dem Verhältnis der aktuell in OSM vorhanden POI und der entsprechend der Wachstumsfunktion zu erwartenden maximalen Anzahl. Für das genaue Berechnungsverfahren verweisen wir auf Klinkhardt et al. und Brückner et al. [12],[18]. Da die Berechnung dieses Indikators eine Mindestanzahl an Einträgen in OSM bedarf, wurde der Indikator – soweit möglich – für die 0,5 km, 1,0 km und 2,5 km-Puffer ausgewiesen. Der Wertebereich des Indikators startet bei 0 (wenig Konvergenz). Ein Wert von 1 entspricht starker Konvergenz.

4 Analyse der Vollständigkeit und Einflüsse der Indikatoren

Nach der Berechnung der oben genannten Merkmale haben wir die OSM POI mit den erhobenen POI für die Kategorien Dienstleistung mit Kundenverkehr, Einzelhandel, Gastronomie und Medizinische Versorgung verglichen, den Einfluss externer Einflussgrößen bewertet und die Eignung der intrinsischen Indikatoren evaluiert.

4.1 Vollständigkeit nach Kategorie

In einem ersten Schritt haben wir die Summe aller POI jeder Kategorie über alle Erhebungsgebiete verglichen (Abbildung 2). Die Summen der beiden Quellen unterscheiden sich teilweise deutlich. In der Erhebung sind in den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung deutlich mehr POI erfasst als in der OSM- Datenbank. Dies deutet darauf hin, dass die OSM-Datenbank in diesen beiden Kategorien nicht vollständig ist.

Abbildung 2: Vergleich der POI aus OSM mit den POI der Erhebungen für ausgewählte Kategorien

In den Kategorien Einzelhandel und Gastronomie ist der Unterschied in der Gesamtzahl gering. Speziell die Summe der gastronomischen Einrichtungen unterscheidet sich nur geringfügig. Dies legt die Vermutung nahe, dass OSM in diesen beiden Kategorien vollständiger ist.

Die Gesamtsumme aller POI bietet lediglich einen ersten Überblick über die Qualität der OSM-Datenbank in den einzelnen Kategorien. Die tatsächliche Vollständigkeit kann von Gebiet zu Gebiet schwanken. Abbildung 3 zeigt daher die kumulierte Verteilung der SQV- Werte in den Erhebungsgebieten für die vier Kategorien.

Die SQV-Werte der beiden Kategorien Gastronomie und Einzelhandel sind im Vergleich zu den anderen Kategorien in nur wenigen Gebieten klein. Etwa 60 % der Gebiete überschreiten in den beiden Kategorien einen SQV-Wert von 0,7. In mehr als 20 % der Gebiete liegen SQV- Werte größer 0,9 vor. Die Verteilung der Gütemaße in den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung zeigt hingegen, dass mehr als 80 % der Gebiete SQV-Werte von 0,7 nicht erreichen. Der SQV-Wert für einen Großteil der Gebiete liegt zwischen 0,3 und 0,7. Dies spricht dafür, dass OSM in den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung größtenteils unvollständig ist und die Informationen zu gastronomischen und Einzelhandelseinrichtungen vollständiger sind.

SQV-Werte weichen symmetrisch um den erhobenen Wert ab. Daher kann basierend auf Abbildung 3 noch keine Aussage darüber getroffen werden, ob in den jeweiligen Gebieten OSM mehr oder weniger POI ausweist, als in der Realität vorhanden sind. Es ist denkbar, dass OSM in einem Gebiet deutlich mehr POI einer Kategorie enthält, als in der Realität vorhanden sind, in einem anderen Gebiet jedoch deutlich weniger, was sich in Summe auch in Abbildung 2 ausgleicht. Um solche Effekte zu untersuchen, zeigt Abbildung 4 die Anzahl POI der Erhebung und aus OSM für die einzelnen Untersuchungsgebiete in den Kategorien Einzelhandel und Gastronomie.

Abbildung 3: Kumulierte Verteilung des Gütemaßes SQV

In beiden Kategorien gibt es sowohl Gebiete, für die OSM mehr POI ausweist, als in der Erhebung enthalten sind, als auch Gebiete, für die OSM weniger POI ausweist, als in der Erhebung enthalten sind. Die meisten Untersuchungsgebiete liegen im Bereich der Winkelhalbierenden, die die genaue Übereinstimmung zwischen der Anzahl erhobener POI und OSM-POI darstellt (SQV =1). Der blaue Bereich im Umfeld der Winkelhalbierenden stellt einen SQV-Wert von 0,75 dar. Einzelne Gebiete liegen außerhalb dieses Wertebereiches, was darauf hindeutet, dass die OSM-Datenbank dort weit von der Realität abweicht.

Abbildung 4: POI-Vergleich für einzelne Gebiete in den Kategorien Einzelhandel und Gastronomie

Es gibt Gebiete, für die OSM vier Einzelhandel-POI ausweist, obwohl in der Realität 16 vorhanden sind. In solchen Fällen stellt sich die Frage, ob die Einrichtungen in OSM nicht erfasst sind oder ob die Taglist aus Tabelle 1 erweitert werden muss bzw. auf etwaige Fehler der Mitwirkenden (z. B. Rechtschreibfehler) eingehen sollte. Grundsätzlich erscheinen die beiden Kategorien für die Nutzung der OSM-Datenbank im Bereich der Zielwahl dennoch geeignet. Gebiete mit vielen POI in OSM haben auch in der Regel viele Einträge in der Realität. Gebiete mit wenigen POI in OSM haben auch in der Realität typischerweise wenige POI. Folglich bleibt das Größenverhältnis zwischen den Gebieten sowohl in Bezug auf die Anzahl der POI als auch in Bezug auf die daraus resultierende Attraktivität erhalten.

4.2 Zusammenhang zwischen der Vollständigkeit und räumlichen sowie intrinsischen Indikatoren

Für die beiden Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung stellt sich die Frage, ob räumliche oder intrinsische Einflüsse geeignet sind, die Fehler in der Vollständigkeit der OSM-Datenbank zu korrigieren. Unter der Hypothese, dass die OSM- Datenbank in urbanen Gebieten vollständiger ist als in ländlichen Regionen, zeigt Abbildung 5 den Vergleich der POI-Anzahl nach RegioStaRGem5-Klassifizierung.

Abbildung 5: POI-Vergleich für einzelne Gebiete in den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung

Zunächst zeigt sich, dass die in OSM hinterlegte POI-Anzahl nur in Ausnahmefällen mit der in der Realität vorkommenden Anzahl POI übereinstimmt. Dabei enthält OSM zumeist weniger POI als in der Realität vorhanden sind. Gerade wenn in der Realität mehr als 15 POI einer Kategorie vorhanden sind, weicht die Angabe in OSM stark ab. Die enorme Abweichung zwischen erhobenen und OSM POI zeigt sich zudem in allen Gemeindekategorien. Basierend auf Abbildung 5 erscheint eine Abschätzung von Korrekturfaktoren alleinig basierend auf dem Gemeindetyp schwer möglich. Eine rein auf den OSM-Daten basierende Zielwahl ist zudem fehleranfällig. Die Gebiete, in denen in der Realität viele POI vorhanden sind, unterscheiden sich hinsichtlich der POI-Anzahl in OSM nur geringfügig von Gebieten, in denen nur wenige POI liegen. Dies nivelliert das Attraktivitätslevel zwischen den Gebieten und beeinflusst die darauf aufbauende Zielwahl.

Neben den deskriptiven Auswertungen wurden die Abweichungen und die Einflussfaktoren auf die Güte der Übereinstimmung (SQV) zusätzlich mittels linearer Regressionen analysiert. Dabei haben wir entsprechend Gleichung (1) für jede Kategorie den Zusammenhang zwischen erhobenen POI (abhängige Variable) und den in OSM vorhanden POI (unabhängige Variable) bestimmt.

Formel in der PDF

Tabelle 2 zeigt die Ergebnisse der Regression für die vier Kategorien nach Gleichung (1). Dabei sind die in Abbildung 2 dargestellten Unterschiede zwischen den Kategorien wiederzuerkennen: Für die Kategorien Gastronomie und Einzelhandel ergeben sich hohe adjusted R²-Werte und somit eine hohe Genauigkeit der Vorhersage der realen POI-Anzahl durch die OSM POI-Anzahl. Die X1-Werte stellen die absolute Differenz zwischen der Anzahl OSM-POI und erhobenen POI dar. In der Kategorie Gastronomie liegt keine signifikante Abweichung vor, was für eine Übereinstimmung zwischen OSM und Realität spricht. X2-Werte nahe 1 bedeuten, dass je OSM POI auch ein POI in Realität zu finden ist. Während die X2- Werte der Kategorien Einzelhandel und Gastronomie nur geringfügig von 1 abweichen, ist die Differenz in den anderen beiden Kategorien mit 1,55 bzw. 1,64 groß. Dies deutet wiederum auf die Probleme der Vollständigkeit der OSM-Datenbank in den Kategorien hin.

Tabelle 2: Zusammenhang zwischen in Realität vorhanden POI und OSM POI anhand linearer Regression (p< 0.001 ***; p< 0.01 ‘**’; p< 0.05 ‘*’)

Abschließend untersuchen wir, in welchem Umfang Eigenschaften der Erhebungsgebiete Einfluss auf die Güte der Übereinstimmung haben und ob intrinsische Indikatoren zur Vorhersage der Abweichung geeignet sind. Dazu haben wir die Einflussgrößen als unabhängige Variable entsprechend Gleichung (2) untersucht. Das Gütemaß (SQV) bildet in dieser Analyse die abhängige Variable, da es nicht durch große relative Abweichungen bei niedrigen absoluten Werten beeinflusst wird. Zudem treten höhere absolute Abweichungen meist im Zusammenhang mit einer hohen POI-Dichte auf. Hohe POI-Dichten wiederum korrelieren mit den zu  untersuchenden Einflussfaktoren und könnten  somit einen vermeintlichen Einfluss der Einflussfaktoren zeigen. Die Verwendung des SQV umgeht diesen Effekt.

Die auf Gleichung (2) basierende Analyse untersucht die Hypothese, dass in städtischen Regionen eine höhere Güte vorliegt als in ländlichen Gebieten. Die RegioStaRGem5-Klassizierung und die Bevölkerungszahl dienen dabei der Beschreibung der Urbanität der Gebiete. Darüber hinaus wird der Zusammenhang zwischen intrinsischen Indikatoren (Sättigung und OSM-Mitwirkende) und der Vollständigkeit ebenfalls auf Basis von Gleichung (2) geprüft.

Formel in der PDF

Damit auch nicht lineare Effekte der Variablen sichtbar werden, haben wir die Variablen Bevölkerungszahl und OSM-Mitwirkende in Quantile aufgeteilt und als ordinale Kennwerte betrachtet. Weitere Tests zeigen, dass die beobachteten Tendenzen der Indikatoren auch bei linearer Integration der Variablen in die Regression erhalten bleiben.

Tabelle 3 zeigt die Ergebnisse der linearen Regression nach Gleichung (2). Die niedrigen adjusted R²-Werte aller Modelle (Maximum bei 0,159) zeigen, dass die auf den untersuchten Einflussfaktoren basierenden Modelle nur geringe Anteile der Varianz der SQV-Werte erklären. X1-Werte in der Nähe von 1 implizieren, dass für die jeweilige Kategorien generell eine hohe Vollständigkeit vorliegt, die sich durch die hinzugezogenen Indikatoren lediglich geringfügig verbessert. Erwartungsgemäß zeigen die Kategorien Einzelhandel und Gastronomie zumeist höhere X1-Werte als die Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung.

Keiner der untersuchten Indikatoren beeinflusst die SQV-Werte in allen Kategorien signifikant. Insbesondere zwischen den einzelnen RegioStaR-Typen gibt es für keine der Kategorien signifikanten Unterschiede im Gütemaß, was sich mit der deskriptiven Auswertung deckt. Dies widerspricht allerdings der Literatur, die zumeist auf die Unterschiede zwischen urbanen und ländlichen Räumen bei der Qualität der OSM-Datenbank verweist. Die Anzahl der Bevölkerung im Erhebungsgebiet zeigt für die Kategorien Dienstleistung mit Kundenverkehr, Einzelhandel und Medizinische Versorgung vereinzelt signifikante Einflüsse. Insbesondere in der Medizinischen Versorgung scheint die Bevölkerungsdichte des Gebietes mit dem Gütemaß in Zusammenhang zu stehen. Ein linearer Zusammenhang zwischen einer steigenden Bevölkerungsanzahl und der Entwicklung des Gütemaßes ist aber nicht nachweisbar. Im Vergleich zu schwach besiedelten Gebieten ist das Gütemaß in dichter besiedelten Gebieten in der Kategorie Medizinische Versorgung geringer. Da die Vollständigkeit der Kategorie Medizinische Versorgung in OSM generell jedoch nicht hoch ist, ist es nicht auszuschließen, dass der beobachtete Zusammenhang zwischen der Bevölkerungsanzahl und dem Gütemaßes auf die Stichprobenziehung zurückzuführen ist. Der Sättigungsfaktor und die zwei Dimensionen der Anzahl Mitwirkender zeigen nur in je einem Fall signifikante Zusammenhänge mit dem Gütemaß. Weitere räumliche Sekundärdaten wie die Bevölkerungsdichte wurden bereits in einer vorhergehenden Arbeit untersucht [12].

Tabelle 3:  Koeffizienten und Modellgenauigkeiten der linearen Regression nach Gleichung (2)

Zusammenfassend betrachtet, zeigen weder die räumlichen noch die intrinsischen Indikatoren klare Zusammenhänge mit dem Gütemaß. Eine weitere Auswertung des Zusammenhangs zwischen den Indikatoren und der absoluten Abweichung zwischen OSM und Realität zeigte ebenfalls keine deutlichen Effekte. Daraus folgern wir, dass keine strukturellen Verzerrungen vorliegen und empfehlen die weitestgehend vollständigen Kategorien Einzelhandel und Gastronomie nach stichprobenartiger Prüfung im jeweiligen Untersuchungsgebiet in der Verkehrsplanung zu nutzen. Die Nutzung von POI der Kategorie Dienstleistung mit Kundenverkehr sollte weiter untersucht werden und dabei das Nachfragepotential der einzelnen Einrichtungen berücksichtigen. Im Bereich der Medizinischen Versorgung könnten andere Datenquellen bei vertretbarem Aufwand bessere Qualität und Vollständigkeit bieten.

5 Zusammenfassung

OSM kann für die Modellierung der Zielwahl in Verkehrsnachfragemodellen dringend benötigte Grundlagedaten liefern. Die (fehlende) Vollständigkeit der OSM-Datenbank beeinflusst das Ergebnis dabei aber teilweise maßgebend. Wenn in OSM mehr oder weniger POI eingetragen sind, verändert sich die Attraktivität eines Gebiets und damit das Ergebnis der Zielwahl. Eine vollständige Datengrundlage ermöglicht die realitätsnahe Abschätzung der Attraktivität. Zur Messung der Vollständigkeit der OSM POI-Datenbank haben wir in 129 Erhebungsgebieten POI katalogisiert und mit den OSM-Informationen in den Kategorien Dienstleistung mit Kundenverkehr, Einzelhandel, Gastronomie und Medizinische Versorgung verglichen.

Es zeigte sich, dass OSM-Informationen in den Kategorien Einzelhandel und Gastronomie meist vollständiger sind als in den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung. Strukturelle Unterschiede zwischen den Untersuchungsgebieten konnten wir weder für räumliche noch für intrinsische Indikatoren beobachten. Insbesondere das in der Literatur oftmals angenommene Stadt-Land-Gefälle in Bezug auf die Vollständigkeit ist anhand dieser Stichprobe nicht nachweisebar. Die Auswahl der Untersuchungsgebiete könnte diesbezüglich Einfluss auf die Ergebnisse nehmen. Es kann jedoch nicht vollständig ausgeschlossen werden, dass die Lage der Untersuchungsgebiete rund um Ladeinfrastrukturstandorte das Ergebnis beeinflusst. Zukünftige Untersuchungen sollten daher das mögliche Stadt-Land-Gefälle mit andere gelegenen Erhebungsgebieten überprüfen. Die Kombination von Indikatoren sowie weiterführende Einflussgrößen sollten dabei integriert werden.

Der in dieser Arbeit vorgestellte Vergleich der POI-Informationen zwischen der Realität und der OSM-Datenbank erfolgte aggregiert je Erhebungsgebiet. Daher spiegelt die ausgewertete Vollständigkeit der Datenbank nicht gleichzeitig die Aktualität oder Positionsgenauigkeit der Informationen wider. Es kann sowohl der Fall eintreten, dass die in OSM enthaltenen POI mittlerweile in der Realität nicht mehr existieren, als auch der Fall, dass neue POI eröffneten, die die Mitwirkenden noch nicht eingetragen haben. Die Durchführung der Erhebung während und nach der Corona-Pandemie lässt vermuten, dass in der hier analysierten Stichprobe beide Fälle auftreten. Diese beiden Fälle wirken einander jedoch entgegen, sodass die Summe je Erhebungsgebiet wieder korrekt sein kann. Für die Zielwahlmodellierung ist es lediglich wichtig, dass die Summe der POI je Verkehrszelle (hier vereinfacht das Erhebungsgebiet) übereinstimmt.

Unbeachtet bleibt in dieser Analyse bislang die Größe der POI. In der Zielwahlmodellierung hat ein großer Supermarkt eine höhere Bedeutung als ein kleines Gemüsegeschäft. In der hier angewendeten Methodik sind die beiden Einkaufsmöglichkeiten jedoch gleichwertig. Dementsprechend kann die reine Betrachtung der Anzahl der POI bei mangelhafter Aktualität der Daten teilweise dennoch zu größeren oder aber auch zu geringeren Abweichungen in der Zielwahl führen. Klinkhardt et al. erläutern ein Vorgehen, wie die verkehrliche Bedeutung von POI anhand der Fläche in OSM abgeschätzt werden kann [13]. Dieses Vorgehen in Kombination mit einer Vollerhebung der Flächen der POI würde die Integration verkehrlichen Bedeutung in die Vollständigkeitsanalyse ermöglichen.

Insgesamt deuten unsere Ergebnisse darauf hin, dass sich OSM-Daten in den Kategorien Einzelhandel und Gastronomie im Gegensatz zu den Kategorien Dienstleistung mit Kundenverkehr und Medizinische Versorgung für makroskopische Verkehrsnachfragemodelle eignen. In der Entwicklung von mikroskopischen Modellen oder bei Erreichbarkeitsanalysen fällt eine verminderte Datenqualität stärker ins Gewicht und sollte daher im jeweiligen Untersuchungsraum explizit geprüft werden. Auf eine stichprobenartige Prüfung der Aktualität der Daten und Größe der POI kann in allen Anwendungen nicht verzichtet werden.

Acknowledgments

Die Erhebung wurde im Projekt „Cities in Charge“ (FKZ: 01MZ18005C) durchgeführt und durch das Bundesministerium für Wirtschaft und Klimaschutz gefördert. Die Arbeit von Sven Lautenbach erfolgt mit Förderung durch die Klaus-Tschira-Stiftung.

6 Literaturverzeichnis

  1. Haklay, M. (2010). How good is volunteered geographical information? A comparative study of OpenStreetMap and Ordnance Survey datasets. Environment and planning B: Planning and design, 37(4), S.682-703.
  2. Rieser, N., Tasnády, B., de Vries, B., Rothenfluh, M., Fischer, R., Friedrich, M., Pestel, E. (2018). Qualitätssicherung von Verkehrsnachfragemodellen: Forschungsprojekt SVI 2015/001, Bundesamt für Straßen.
  3. Department for (2020). TAG UNIT M1-2. Data Sources and Surveys: Transport Analysis Guidance (TAG).
  4. Forschungsgesellschaft für Straßen- und Verkehrswesen (Hrsg.). (2022). Empfehlungen zum Einsatz von Verkehrsnachfragemodellen für den Personenverkehr. FGSV 168/2. FGSV-Verlag, Köln.
  5. Forschungsgesellschaft für Straßen- und Verkehrswesen (Hrsg.). (2021). Empfehlungen für Inputdaten zur Raumstruktur und zum Verkehrsangebot für Verkehrsnachfragemodelle. FGSV 168/3. FGSV-Verlag, Köln.
  6. Jonietz, D., Zipf, A. (2016). Defining fitness-for-use for crowdsourced points of interest (POI). ISPRS International Journal of Geo-Information, 5(9), 149.
  7. Yeow, W., Low, R., Tan, Y. X., Cheah, L. (2021). Point-of-Interest (POI) data validation methods: an urban case study. ISPRS International Journal of Geo-Information, 10(11), 735.
  8. Hochmair, H. H., Juhász, L., & Cvetojevic, S. (2018). Data quality of points of interest in selected mapping and social media Progress in Location Based Services 2018, S. 293-313. Springer International Publishing, Cham.
  9. Touya, G., Antoniou, V., Olteanu-Raimond, A. M., Van Damme, M. D. (2017). Assessing crowdsourced POI quality: Combining methods based on reference data, history, and spatial relations. ISPRS International Journal of Geo-Information, 6(3), 80.
  10. Yang, S., Shen, J., Konečný, M., Wang, Y., Štampach, R. (2018). Study on the Spatial Heterogeneity of the POI Quality in Proceedings of the 7th International Conference on Cartography and GIS, Sozopol, 18.-23. Juni 2018, S. 286-295, Bulgarian Cartographic Association, Sofia.
  11. Herfort, B., Lautenbach, S., Porto de Albuquerque, J., Anderson, J., Zipf, A. (2021). The evolution of humanitarian mapping within the OpenStreetMap community. Scientific reports, 11(1), 3037.
  12. Klinkhardt, C., Kühnel, F., Heilig, M., Lautenbach, S., Wörle, T., Vortisch, P., Kuhnimhof, (2023). Quality Assessment of OpenStreetMap’s Points of Interest with Large-Scale Real Data. Transportation Research Record, 00(0), 03611981231169280.
  13. Klinkhardt, C., Woerle, T., Briem, L., Heilig, M., Kagerbauer, M., Vortisch, P. (2021). Using openstreetmap as a data source for attractiveness in travel demand models. Transportation Research Record, 2675(8), S. 294-303.
  14. Friedrich, M., Pestel, E., Schiller, C., Simon, R. (2019). Scalable GEH: A Quality Measure for Comparing Observed and Modeled Single Values in a Travel Demand Model Validation. Transportation Research Record, 2673(4), S. 722-732.
  15. Raifer, M., Troilo, R., Kowatsch, F., Auer, M., Loos, L., Marx, S., ..., Zipf, A. (2019). OSHDB: a framework for spatio-temporal analysis of OpenStreetMap history data. Open Geospatial Data, Software and Standards, 4(1), S. 1-12.
  16. Statistisches Bundesamt (destatis) (2018). Bevölkerung je Hektar: Ergebnisse des Zensus am 09. Mai 2011 in Gitterzellen. Statistisches Bundesamt. Wiesbaden.
  17. Bundesministerium für Digitales und Verkehr (BMDV) (2023). Regionalstatistische Raumtypologie. Referenzdatei 2021.
  18. Brückner, J., Schott, M., Zipf, A., Lautenbach, S. (2021). Assessing shop completeness in OpenStreetMap for two federal states in Germany. AGILE: GIScience Series, 2, 20.