FGSV-Nr. FGSV 002/110
Ort Köln
Datum 20.05.2015
Titel OKSTRA und Linked Data - Technologie für Straßeninformationssysteme der Zukunft
Autoren Dipl.-Phys. Bernd Weidner
Kategorien OKSTRA
Einleitung

Die heutzutage im Straßen- und Verkehrswesen eingesetzten Informationssysteme gestatten durch ihren Bezug auf nationale und internationale Standards (u.a. OKSTRA und OGC) bereits eine Entkopplung von interner Datenhaltung und externer Darstellung für den Gebrauch in Fachanwendungen. Durch die Nutzung einheitlicher Schemata und Kodierungen können Daten aus mehreren solchen Informationssystemen gemeinsam weiter verarbeitet werden. Allerdings müssen hierzu diese Informationssysteme einzeln abgefragt werden und danach müssen die Ergebnisse miteinander verknüpft werden (Fusion), bevor eine Weiterverarbeitung möglich ist.

Dieser Fusionierungsschritt ließe sich deutlich vereinfachen, wenn die Daten verschiedener Informationssysteme dauerhafte Bezüge aufeinander aufweisen würden. Die Umsetzung dieser Idee mit Hilfe der existierenden Technologien des Internet ist unter dem Begriff Linked Data mittlerweile auch in der Praxis angekommen, wie verschiedene europäische Projekte erkennen lassen (u.a. in NL und GB sowie im Rahmen einer Arbeitsgruppe bei INSPIRE).

PDF
Volltext

Der Fachvortrag zur Veranstaltung ist im Volltext verfügbar. Das PDF enthält alle Bilder und Formeln.

Motivation für Linked Data

Die Informationen des World Wide Web bestehen heutzutage aus statischen oder dynamisch generierten Seiten, die untereinander durch Hyperlinks vernetzt sind. Diese Seiten sind zum Gebrauch durch Menschen gedacht. Sie enthalten Texte, Grafiken, Fotos, audiovisuelle Beiträge usw. Diese Art der Datenstrukturierung ist für automatische IT-Prozesse (z.B. die genannte Fusion) nicht geeignet. Hinter Linked Data steckt nun die Idee, strukturierte Daten (z.B. in XML) analog zum Vorgehen bei Webseiten im Internet zu verlinken („Netz aus Daten“)

Die Grundprinzipien von Linked Data

Die Grundprinzipien von Linked Data wurden von Tim Berners-Lee (dem „Erfinder“ des World Wide Web) wie folgt zusammengefasst:

  1. Verwende zur Bezeichnung von Objekten URIs, also die bekannten Internetadressen.
  2. Verwende HTTP-URIs, so dass sich die Bezeichnungen nachschlagen lassen.
  3. Stelle zweckdienliche Informationen bereit, wenn jemand einen URI nachschlägt (mittels der Standards RDF und SPARQL).
  4. Zu diesen Informationen gehören insbesondere Links auf andere URIs, über die weitere Objekte entdeckt werden können.

Im Folgenden werden die technischen Begriffe aus diesem „Kochrezept“ näher erläutert. Weblinks verweisen auf die Wikipedia.

URI bedeutet Uniform Resource Identifier, das sind die Bezeichner, die im Internet verwendet werden. für Das Konzept ist ursprünglich nur als Adressen für Server, Webseiten, E-Mailadressen usw. gedacht gewesen, ist jedoch so allgemein, dass auch beliebige Dinge der realen Welt damit global eindeutig bezeichnet werden können. http-URIs sind die mit http:// beginnenden URIs für Domänen. Eine Domäne ist ein Teilbereich des Internet, der über ein Antragsverfahren einer Person oder Institution zugeteilt wird. Dieser Domäneninhaber hat die komplette Kontrolle über die weitere Namensgebung in seiner Domäne und kann so seine Ressourcen oder auch beliebige Dinge in seiner Obhut eindeutig bezeichnen. Das Domain-Name-System DNS garantiert die weltweite Eindeutigkeit der Domänennamen. Das DNS ist ein weltweit auf tausenden von Servern verteilter hierarchischer Verzeichnisdienst, der den Namensraum des Internets verwaltet und das Adressieren von Ressourcen darin ermöglicht.

Für die Verwendung der http-URIs zum Nachschlagen von Information existiert die erprobte Webserver-Technologie, für eine Datenvernetzung nach den Linked Data-Prinzipien ist demzufolge keine neuartige Technik zu entwickeln.

Resource Description Framework

Das RDF ist ein Standard, um Aussagen über Dinge formal auszudrücken. Es bedient sich eines einfachen, aber wirkungsvollen, generischen Datenmodells. Jede Aussage wird als Tripel formuliert, z.B.

  • A3 – Strassenklasse – Autobahn
  • A3 – Verwaltungsbezirk – Hessen
  • Hessen – Gebietskörperschaft – Bundesland
  • Hessen – Landeshauptstadt – Wiesbaden
  • Baum – Dimension – Höhe
  • Baum – Höhe – 13 m

Man beachte, dass das zweite Element des Tripels nur sehr bedingt als Relation angesehen werden kann, wie die letzten beiden Beispiele zeigen.

Für die Kodierung dieser Tripel gibt es zunächst einen XML-Dialekt. Da XML für die Interpretation und Erstellung unmittelbar durch den Menschen nicht sehr geeignet ist, gibt es zusätzlich eine Turtle genannte Syntax. Schließlich existiert noch eine in JSON, die besonders für direkte Verarbeitung in Browsern geeignet ist.

In der RDF-Praxis werden die Bestandteile der Triple durch http-URIs kodiert, die A3 könnte z.B. http://strassen.okstra.de/Bundesfernstrassen/A3 heißen. Damit ist zunächst das reale Objekt benannt. Um Information zu diesem Objekt (Webseite oder Daten) zu erhalten, muss die URI so uminterpretiert werden, dass ein Webserver strukturierte Daten für IT-Anwendungen oder lesbare Inhalte für Menschen ausliefern kann (sog. Dereferenzierung). Gesteuert werden kann dies über den Dokumententyp (mime-type), der in einer Webanfrage angegeben werden kann und dem Webserver mitteilt, in welchem Format das Resultat erwartet wird. Der mime-type text/html liefert z.B. die Webseite, application/rdf-xml liefert die Datenstruktur in RDF-XML. In unserem Beispiel oben würde eine Anfrage an die obige A3-URI an einen theoretischen Straßen-Webserver die beiden ersten Aussagen oben kodiert als RDF-XML liefern:

<?xml version="1.0" encoding"UTF-8"?>
<rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#
               xmlns:okstra=“http://strassen.okstra.de/ontologie/“>

<rdf:Description
        rdf:about="http://strassen.okstra.de/Bundesfernstrassen/A3
">
       <okstra:Strassenklasse>okstra:Autobahn</okstra:Strassenklasse>
       <okstra:Verwaltungsbezirk>http://sws.geonames.org/2905330/
>
       </okstra:Verwaltungsbezirk>

</rdf:Description>
</rdf:RDF>

Dabei verweist der Verwaltungsbezirk auf den Hessen-Eintrag im Katalog geographischer Objekte Geonames, hier erkennt man anschaulich das Prinzip von Linked Data.

Die RDF-Tripel können natürlich nicht nur Links auf weitere RDF-Ressourcen enthalten, sondern auch „klassische“ auf Webseiten, Bilder oder Datenbankobjekte.

Ontologien

Für umrissene Anwendungsbereiche gibt es vielfach eingeführte Begriffssysteme. So definiert der OKSTRA mit seinen Objektarten, deren Attributen und Relationen und seinen Schlüsseltabellen ein umfangreiches und komplexes Begriffssystem. Abstrahiert man von der technischen Form der Modellierung und konzentriert sich nur auf die fachlichen Zusammenhänge, nennt man so ein Begriffsystem auch Ontologie. Nach entsprechender Kodierung können die Bezeichnungen für die Begriffe in RDF genutzt werden.

Es gibt in der Linked-Data-Welt viele eingeführte und verbreitet genutzte Ontologien, z.B. die für bibliographische Metadaten nach dem Dublin Core Standard oder die aus dem Friend-of-a-Friend-Projekt FOAF, oder, um noch ein besonders umfangreiches und prominentes Beispiel zu nennen, die auf der Wikipedia basierende Ontologie der dbpedia. Vorhandene Ontologien sollen, wenn irgend möglich, wiederverwendet werden, um für Objekte weltweit einheitlich strukturierte Informationen bereitzustellen.

Um eine Ontologie zu formal zu spezifizieren, benötigt man ein RDF-Schema. Hierfür gibt es mehrere Schemasprachen:

  • RDFS – Basics: Typbildung (Klassen, Eigenschaften), Vererbung, Wertebereiche
  • SKOS (Simple Knowledge Organization System) – Aufbau von Vokabularen. Ein Vokabular ist ein Begriffssystem aus Ober- und Unterbegriffen, Synonymen, verwandten Begriffe etc. (Thesaurus). Einfache Beispiele aus dem OKSTRA-Umfeld sind Schlüsseltabellen und Fachbedeutungslisten.
  • OWL (Ontology Web Language) – Regelbildung für Klassen etc. Grundidee: Mittels RDF beschriebene Objektinstanzen können zu beliebiger Zeit und an beliebiger Stelle in Klassifikationssysteme eingeordnet werden, die nicht vorher bekannt sein müssen und anwendungsspezifisch sein können.

Zugriff auf Linked Data

Sofern man den Namen eines Objekts als http-URI kennt, also die Domäne und die Bezeichnung innerhalb davon, genügt ein entsprechender Internet-Request, um die RDF-Beschreibung des Objektes zu erhalten. Über die darin enthaltenen Links kann man dann zu allen interessierenden weiteren Informationen zum Objekt navigieren.

Zur gezielten Suche gibt es die Abfragesprache SPARQL (W3C-Standard). Diese Sprache ist speziell auf die Tripel-Struktur von RDF abgestimmt. Speziell für die Suche in verlinkten Geodaten gibt es die Erweiterung GeoSPARQL (OGC-Standard).

Um schnell auf die RDF-Tripel zugreifen zu können, gibt es spezielle Datenbanksoftware, sogenannte Triplestores, da die Speicherung der Tripel in relationalen Datenbanken nicht sehr effizient ist Triplestores sind mittlerweile von vielen Herstellern erhältlich.

Mögliche Anwendungen

Hier sind zunächst Verknüpfungen von dezentral gehaltenen und gepflegten Daten denkbar, z.B. die bundesweite Integration der Straßendaten der Länder (“BISStra by Links”). Man hätte dann die Möglichkeit, z.B. die A3, die durch NW, RP, HE und BY führt, als Ganzes zu sehen, etwa um alle Tankstellen oder Webcams daran zu finden.

Eine weiterführende Integration von Straßendaten mit Daten aus anderen Quellen, z.B. andere Infrastrukturdaten, Ortsverzeichnisse, Points-Of-Interest ist ebenfalls denkbar. Das funktioniert natürlich nur, wenn diese Daten ebenfalls mit RDF verlinkungsfähig beschrieben vorliegen.

Schließlich ließe sich auch die Integration der üblicherweise zahlreichen Fachinformationssysteme einer Straßenbauverwaltung vereinfachen.

Die spannendsten Anwendungsfälle sind jedoch die, die sich durch automatisiertes logisches Schließen (Inferenz) lösen lassen. Ein Beispiel:

  • Straßenbauverwaltung Zuständig Autobahn
  • Hessen StraßenbauverwaltungHessen mobil
  • A3 Straßenklasse Autobahn
  • A3 Lage Hessen

Aus diesen Tripeln könnte geschlossen werden, dass Hessen mobil in Hessen für die A3 zuständig ist. Es wäre dann nicht mehr notwendig, diese Tatsache explizit zu erfassen und zu speichern. Eine Software, die Inferenz kann, ist Apache Jena.

Linked Data und der OKSTRA

Der OKSTRA würde zunächst als konzeptionelles Datenmodell die Grundlage für eine OKSTRA-Ontologie dienen. Ein RDF-Schema könnte, wie die anderen Darstellungsformen (GML-Applikationsschema, OKLABI-Schema), eventuell automatisch abgeleitet werden.

Mit Hilfe eines solchen Schemas können OKSTRA-kodierte Daten dann automatisiert in Tripel überführt werden.

Caveats

Linked Data ist eine vielversprechende Technologie, es sind aber für eine erfolgreiche Anwendung manche Dinge zu klären, z.B.:

  • Organisation von Authentifizierung und Autorisierung wo erforderlich. Das ist nicht trivial, da ja die Authentifizierungsinformation an die im Linked-Data-Netz vorhandenen Ressourcen übermittelt werden muss. Siehe z.B. http://events.linkeddata.org/ldow2012/papers/ldow2012-paper-05.pdf%20%20 http://www.hitech.bfh.ch/fileadmin/data/2014_2/pdfs/Authentication.pdf
  • Es sind stabile URIs für die zu verlinkenden Objekte notwendig. Damit die URIs leicht und ohne Rückfragen für Links verwendet werden können, benötigt man Regeln zu ihrer Bildung und Verwertung in Servern. Entsprechende Handreichungen sind erforderlich
  • Der Umgang mit Fortführungen und historischen Ständen ist zu klären
  • Es sind Metaregeln notwendig, die die Transformation des OKSTRA-Schemas in eine Ontologie spezifizieren.
  • RDF Triplestores müssten bei den Straßen- und Verkehrsverwaltungen eingerichtet werden. Damit das leicht geht, müsste die Software hierfür zentral ausgewählt bzw. entwickelt werden.

Diese und andere Aspekte von Linked Data sollen demnächst in einem Forschungsprojekt näher untersucht werden.

Linked Data im Web

http://maritime.testproject.eu/CISE/

http://www.pilod.nl

http://lod-cloud.net

http://dataliberate.com/2013/05/putting-linked-data-on-the-map

http://inspire-forum.jrc.ec.europa.eu/pg/groups/29902/linked-data-and-inspire/

http://www.geonames.org

http://dbpedia.org