Aufgabe

GEO 372 | HS 2015
Ü6: Unsicherheit in Geodaten und GIS
Einführung
Sie haben nun in den letzten Übungen bereits einige Grundlagen für Ihre Projektarbeit erstellt. Dabei haben Sie wahrscheinlich gesehen, dass jede Menge
Fehler und Unsicherheiten auftreten können. Dies beginnt bei der Erhebung
von Geodaten im Feld oder ab Fernerkundungssystemen, betrifft aber auch
spätere Schritte wie zum Beispiel die Operationalisierung einzelner Faktoren
in Ihren Projekten (zum Beispiel die Operationalisierung von Konzepten wie
«Abgeschiedenheit» oder «einfache Erschliessung vom Stromnetz»). Auch bei
den eigentlichen Operationen und Berechnungen im GIS können Unsicherheiten eingeführt werden.
In der aktuellen Übung sollen in Vorbereitung der Evaluation von Unsicherheiten und der Interpretation Ihrer späteren Modellresultate verschiedene
Aspekte der Abschätzung von Unsicherheiten praktisch untersucht werden. Es
werden dabei einige in der Vorlesung behandelte Methoden von einfachen
Fehlermodellen für Quellenfehler herausgegriffen. Dabei soll auch gezeigt
werden, dass die Ermittlung quantitativer Masse für Fehler und Unsicherheiten keine Hexerei ist und damit Bestandteil jeder gewissenhaften GISProjektarbeit sein sollte!
Zielsetzungen
– Üben grundlegender Konzepte von Fehlermodellen für Quellenfehler anhand von Daten Ihres Projekts, insbesondere
– Epsilonbänder für Unsicherheiten der Lage von Liniendaten
– Abweichungen der Höhe in DGM (und daraus ME, RMSE)
– Flächenfehler bei der Rasterisierung von Polygonen
– Erkennen der Bedeutung von Unsicherheiten für die Interpretation von
Modellresultaten
– Veständnis, dass die quantitative Analyse von Unsicherheiten nicht sehr
komplex ist, aber weitaus aussagekräftiger als rein qualitative Aussagen wie
„relativ gute Übereinstimmung“ oder „relativ grosse Abweichungen“.
Hintergrund
Vergleiche Vorlesung „Einfache Fehlermodelle für Geodaten“.
Sie sollen mindestens 2 der 4 gestellten Aufgaben lösen. Es darf sich dabei aber
nicht nur um die Aufgaben 1 und 2 handeln.
Aus praktischen Gründen empfehlen wir, für jede Aufgabe ein neues ArcMapProjekt anzulegen.
Aufgaben
1) ε-Band für Lageunsicherheiten der OSM-Siedlungsflächenkarte
Ziel
Analysieren Sie, wie sich die Umrisse der Siedlungsflächen in OpenStreetMap
(OSM) zu jenen aus dem Datensatz Vector200 verhalten (Übung 2). Definieren
Sie dazu eine Genauigkeitslimite (ε) und ermitteln die Gesamtlänge der ausserhalb des ε-Bands der OSM liegenden Umrisslinien des Vector200 Datensatzes.
Vorgehen
Schätzen
Sie
zuerst
die
mittlere
Lagegenauigkeit
der
Siedlungsflächenkonturen in OSM. Diese Abschätzung kann zum Beispiel
durch Messung der Linienabstände zwischen OSM und dem Landsat-Bild
erfolgen. Dies ergibt das ε für das ε-Band in der OSM Karte.
Nun sind Sie bereit für die eigentliche Analyse. Das prinzipielle Vorgehen ist
wie folgt: Als Erstes müssen Sie die OpenStreetMap-Daten mittels [Data
Management Tools > Projections and Transformations > Project] von
WGS1984 nach Schweizer Landeskoordinaten umprojizieren. Wenn Sie das
tun, achten Sie wie gehabt darauf nur die zweite Transformation („CH1903_
To_WGS_1984_2“) zu benutzen (diese ist exakter)!
Darauf konvertieren Sie die OSM-Siedlungflächenkarte in ein Linien-Shapefile
und erstellen ein Epsilonband (Puffer mit dem entsprechenden ε als
Distanzwert [Analysis Tools > Proximity > Buffer]) um die Umrisslinien. Danach
bereiten Sie den Vector200 Datensatz für die Analyse vor. Auch dieser
Datensatz muss in Linien konvertiert werden.
Exkurs: Laden einer Toolbox
ArcToolbox bietet die Möglichkeit eigene
Tools zu erstellen. Dies kann mit dem sogenannten ModelBuilder mehr oder weniger
mittels Ziehen-und-Ablegen geschehen oder
direkt in einer Programmiersprache wie
Python (oder Javascript).
Die Übungsleitung hat eine kleine Toolbox
für diesen Kurs erstellt. Sie können diese
folgendermassen in ArcToolbox laden:
Rechtsklick im ArcToolbox-Fenster > Add
Toolbox (Abbildung 1). Navigieren Sie zum
Ordner der die Toolbox enthält (in unserem
Fall
S:\course\geo372\tools,
markieren Sie die betreffende Toolbox und
klicken Sie „Open“. Damit steht die Toolbox
in ArcToolbox zur Verfügung.
Wenn Sie ein Tool in der Toolbox rechtsAbbildung 1: Neue
klicken, können Sie mittels „Edit“ dessen Aufbau (im Fall
Toolbox hinzufügen
eines Modells aus ModelBuilder) bzw. dessen
Programmcode (im Fall eines Tools in, zum Beispiel,
Python) anschauen oder verändern.
Haben Sie alle Datensätze aufbereitet, berechnen Sie die Längen der Linien in
Ihren Vergleichsdatensätzen. Dann verschneiden Sie die Umrisslinien der
Vergleichsdatensätze mit Ihrem ε-Band derart, dass danach die Linienstücke
innerhalb Ihres ε-Bands übrigbleiben. Sie kennen dann die totale Länge der
Linienstücke sowie die Länge der Linienstücke innerhalb Ihres ε-Bands (und
damit auch jene der Linienstücke ausserhalb). Diese Längen bzw. Ihre Verhältnisse sind eines der möglichen Masse für die Abweichung zwischen
verschiedenen Datensätzen.
Tipps
Für geometrische Berechnungen (zum Beispiel der Länge von Linien oder der
Fläche von Polygonen) kann die Funktion „Calculate Geometry“ verwendet
werden. Diese können Sie mit einem Rechtsklick auf ein (neues) Attribut in der
Attributtabelle aufrufen. Um zusammenfassende Aussagen über so ein
geometrisches (oder ein anderes numerisches) Attribut zu erhalten, rufen Sie
mittels Rechtsklick auf das jeweilige Attribute den Befehl „Statistics“ auf.
2) Overlay mit Epsilonbändern
Ziel
Um zu erfahren, wie viel Platz in einem Polygon-Overlay mit ε-Bändern (fuzzy
intersection) durch diese Bänder belegt wird, können wir die ε-Bänder der
OSM-Karte mit den ε-Bändern des Vector200 Datensatz verschneiden.
Das Resultat der Analyse ist dann der Anteil der Fläche, die durch die beiden
ε-Bänder belegt wird, an der Gesamtfläche des Untersuchungsgebiets (in
unserem Fall Bezirk_Affoltern_aA.shp). Diese Zahl repräsentiert den
Flächenanteil, der in einem oder beiden ε-Bänder liegt – für den also was unsicher ist?
Vorgehen
Schätzen Sie zuerst das ε für die OSM-Karte (siehe Aufgabe 1) und Vector200
ab. Danach funktioniert vieles analog zum Vorgehen für die Aufgabe 1.
Nachdem Sie beide Puffer generiert haben, verschneiden Sie diese miteinander – wobei nun eine Overlay-Operation interessiert, bei der alle Geometrien
im Resultat erhalten bleiben (das heisst, bei der nichts abgeschnitten wird).
Am Schluss wird der Anteil der überlagerten Pufferflächen an der Gesamtfläche des Untersuchungsgebiets ermittelt (siehe Tipps zu Aufgabe 1).
Bedenken Sie dabei, dass die Puffer auch über das Untersuchungsgebiet
hinausragen können.
3) Abweichungen und RMSE für interpolierte Winddaten
Ziel
Sie leiten verschiedene Masse für die Quantifizierung von Abweichungen zwischen Werten eines Rasters/einer Oberfläche (in unserem Fall die Windgeschwindigkeitsraster aus Übung 3) und Werten von Referenzpunkten ab.
Insbesondere sollen dies Statistiken der Geschwindigkeitsdifferenzen, der
mittlere Fehler (mean error / ME) und RMSE (root mean squared error) sein.
Vorgehen
Laden Sie die Winddaten, die Sie in Übung 3 mittels zweier unterschiedlicher
Methoden interpoliert haben, in ArcMap. Laden Sie zusätzlich den Punktdatensatz, der die ungefähr 20% aller Punkte enthält, welche nicht in die
Interpolation eingegangen sind (Validierungsdaten, siehe Schritt f) in Übung
3). Danach können Sie für die Referenzpunkte mittels [ArcToolbox > 3D Analyst
Tools > Functional Surface > Add Surface Information] oder [Spatial Analyst
Tools > Extraction > Extract Values to Points] die Windwerte aus den beiden
interpolierten Windrastern extrahieren (Was ist der Unterschied zwischen
„Add Surface Information“ und „Extract Values to Points“?) und in einem
neuen Feld speichern.
Berechnen Sie anschliessend mit dem „Field Calculator“ die Differenz zwischen
interpoliertem und gemessenem Windgeschwindigkeitswert; dies ergibt die
positiven und negativen Residuen der Interpolation. Berechnen Sie auf diesen
Differenzen nun deskriptive statistische Masse (zum Beispiel die im
Absolutbetrag minimale bzw. maximale Abweichung) sowie den mittleren
Fehler (Formel 1) und RMSE (Formel 2):
 zˆi  z i
ME  i 1
n
(1)
n
 zˆ  z 
2
n
RMSE 
i 1
i
n
i
(2)
ẑ i : Interpolierter Wert an der Stelle i
n : Anzahl Stichprobenpunkte
zi : Gemessener Wert an der Stelle i
Anmerkung: Manchmal sieht man die Formeln 1 und 2 auch mit dem Nenner (n – 1).
Dieser Unterschied geht auf verschiedene Anschauungsweisen der beiden Werte
zurück und steht mit der angenommenen Anzahl von Freiheitsgraden in Verbindung
(grob gesagt wird bei Verwendung von (n – 1) angenommen, dass wenn alle Grössen
(Eingangswerte und ME oder RMSE) bis auf eine bekannt sind, der letzte (unbekannte)
Wert direkt herleitbar und deshalb eben auch bekannt ist. Dies wiederum lässt sich
auf die Frage zurückführen, ob wir eine Stichprobe oder eine Grundgesamtheit
betrachten.
4) Flächenfehler bei der Rasterisierung von Polygonen
Ziel
Ermitteln Sie, wie gross der Flächenfehler ist, der bei der Rasterisierung von
Polygonen in Abhängigkeit von der Zellgrösse des Rasters und der Grösse und
Formkomplexität des Polygons entsteht. Als Resultate sollen die Differenzflächen (Randflächen) zwischen Originalpolygonen und gerasterten Polygonen
und die Differenzflächen zwischen einer groben Rasterung und einer feinen
Rasterung berechnet werden.
Vorgehen
Als Vertreter von grossen Polygonen mit relativ einfacher Form wird der
Thunersee aus dem Kartenmassstab 1:200‘000 verwendet. Dieses Polygon
wurde von uns bereits generiert und steht zur Verfügung
(vec200_thunersee.shp). Zum Vergleich wählen Sie aus Ihrer
Siedlungskarte (Übung 2) ein relativ kleines und komplexes Polygon aus und
exportieren dieses in ein neues Shapefile.
Konvertieren Sie das See-Polygon mittels [Conversion Tools > To Raster >
Feature to Raster] mit einer relativ groben Auflösung und mit einer relativ
feinen Auflösung in je ein Raster. Günstig ist es, wenn die gröbere Auflösung
ein ganzzahliges Vielfaches der feinen Auflösung ist und Sie sicherstellen, dass
eine als „Snap Raster“ des anderen zu setzen (in den Toolbox Environments
unter ‚Processing Extent’). Dann konvertieren Sie die Raster wieder zurück in
Polygon-Vektordatensätze, damit sie zur Bildung der Differenzflächen im
Vektormodus miteinander verschnitten werden können. Nehmen Sie
verschiedene Auswertungen vor:
1. Vergleichen Sie die Fläche des Originalpolygons mit der Fläche der in
verschiedenen Auflösungen gerasterten und rückkonvertierten Polygone.
2. Analysieren Sie quantitativ die Differenzflächen (Randflächen) zwischen
dem Originalpolygon und den gerasterten und rückkonvertierten
Polygonen.
3. Analysieren Sie quantitativ die Differenzflächen zwischen den mit unterschiedlicher Auflösung gerasterten Polygonen.
Wenden Sie danach dieselbe Prozedur auf das kleinere und komplexer geformte Polygon aus Ihrer Siedlungskarte an. Um das Verfahren etwas
abzukürzen, können Sie hier auf Wunsch nur den Anteil der Differenzflächen
zwischen Originalpolygon und gerastertem, dann rückkonvertiertem Polygon
an der Gesamtfläche des Originalpolygons ermitteln.
Zusatzfrage: Welche Rasterisierungsmethode wird von ArcGIS in [Conversion
Tools > To Raster > Feature to Raster] verwendet, die Methode nach dem
Zentralpunkt- oder jene nach dem Dominanzprinzip?
Mit der Funktion [Conversion Tools > To Raster > Polygon to Raster] der ArcToolbox kann die Rasterisierungsmethode anders als mit „Feature to Raster“
frei gewählt werden. Wenn Sie wollen, können Sie also zusätzlich die Methoden vergleichen.
Tipps
Bei der Rückkonvertierung von Rasterdaten in Vektordaten mittels [Conversion Tools > From Raster > Raster to Polygon] unbedingt die Option „Simplify
Polygons“ ausschalten, damit der Treppeneffekt der Rasterung nicht verloren
geht (wir wollen ja genau diesen Effekt messen). Zur Ermittlung der Differenzflächen gibt es unter den Overlay-Tools – [Analysis Tools > Overlay > ?] –
ein einfaches Tool, das haargenau passt (d.h. alles in einem Schritt erledigt).
Die graphischen Darstellungen Hilfe-Panel zeigen dies schön. Was wiederum
auch heisst, dass es eine gute Idee ist, dieses Hilfe-Panel in der Toolbox immer
gleich einzuschalten.
Daten
Daten in S:\geo372\data\GEO372:
vec200_thunersee.shp
Ihre interpolierten Winddaten (Übung 3)
Ihre Winddaten-Validationspunkte (Übung 3)
Ihre Siedlungsflächenkarte (Übung 2)
Literatur
Burrough P A und McDonnell R A (1998): Principles of Geographical Information Systems. Oxford University Press, New York, USA, 220–240.
Longley P A, Goodchild M F, Maguire D J und Rhind D W (2005): Geographic
Information Systems and Science. John Wiley & Sons, Chichester, Grossbritannien, 127–153.
Fisher P F (1999): Models of uncertainty in spatial data. In: Longley P A,
Goodchild M F, Maguire D J und Rhind D W (Hrsg.) Geographical Information
Systems. John Wiley & Sons, New York, USA, 191–205. http://www.colorado.
edu/geography/leyk/GIS1_F2009/Readings/fisher_1999.pdf
Shi W, Goodchild M F und Fisher P (2002): Spatial data quality. CRC Press, Boca
Rotan, USA.
Zhang J und Goodchild M F (2002): Uncertainty in geographical information.
CRC Press, Boca Rotan, USA.
Ersterstellung: 20.07.2010 | Ralph Straumann
Zuletzt aktualisiert:
27.08.2015 | TR
10.09.2015 | RSP
19.10.2015 | Péter Jeszenszky