Verwaltung, Strukturierung und Analyse grosser Datenlisten

Verwaltung und Analyse digitaler Daten in der Wissenschaft
Verwaltung, Strukturierung und Analyse
grosser Datenlisten
Theorieteil
Inhaltsverzeichnis
1 Wozu Daten verwalten in der Wissenschaft?
3
2 Daten verwalten bedeutet Sammeln und Ordnen mit System
3
3 Verwaltung von Datenlisten mit
3.1 Dateneingabe . . . . . . . .
3.1.1 Datentypen . . . . .
3.1.2 Zellformate . . . . .
3.2 Sortieren und Filtern . . . .
3.2.1 Sortieren . . . . . . .
3.2.2 Filtern . . . . . . . .
3.3 Pivot-Tabellen . . . . . . . .
4
4
4
5
5
5
6
6
einer Tabellenkalkulation
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Hinweise zum Vorgehen
4.1 Schweizerische Nährwertdatenbank: Eine Sammlung der Zusammensetzung von Nahrungsmitteln . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Nahrungsmittelbestandteile im Überblick . . . . . . . . . . . . . .
6
7
7
Begriffe
Datenlisten
Daten Aufbereitung
Attribut
Suchen
Datentyp
Sortieren
Zellformat
Filtern
Strukturierte Daten
Logische Operatoren
UND-Verknüpfung
ODER-Verknüpfung
Pivot-Tabelle
Autoren:
Lukas Fässler, Markus Dahinden
E-Mail:
[email protected]
Datum:
17 October, 2016
Version: 1.1
Hash: aaaa4d4
Trotz sorgfältiger Arbeit schleichen sich manchmal Fehler ein. Die Autoren sind Ihnen
für Anregungen und Hinweise dankbar!
Dieses Material steht unter der Creative-Commons-Lizenz
Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0 International.
Um eine Kopie dieser Lizenz zu sehen, besuchen Sie
http://creativecommons.org/licenses/by-nc-nd/4.0/deed.de
2
1 Wozu Daten verwalten in der Wissenschaft?
Bei der wissenschaftlichen Tätigkeit werden Daten produziert, archiviert und modifiziert
mit dem Ziel, mit Hilfe der Daten eine wissenschaftliche Fragestellung beantworten zu
können. Der Datenfluss verläuft immer einheitlicher in digitaler Form (siehe Abbildung
1). Der professionelle Umgang mit digitalen Daten ist deshalb in der Wissenschaft unumgänglich geworden. Die gewonnenen Daten aus Messungen werden in digitaler Form
gespeichert, analysiert und die dadurch entstandenen Resultate in unterschiedlichster
Form (z. B. als Bericht, Poster, Präsentation, etc.) eingesetzt.
Abbildung 1: Umgang mit digitalen Daten in der Wissenschaft.
2 Daten verwalten bedeutet Sammeln und Ordnen mit
System
Egal ob Sie zur Datenverwaltung eine Tabellenkalkulation oder ein Datenbanksystem
verwenden, stehen Sie vor der Aufgabe, gesammelte Daten in einem konsistent strukturierten Format abzulegen. Die Daten können z.B. Adressen, Daten von Messungen
oder alle Studierenden einer Lehrveranstaltung sein.
Jede einzelne Messung oder jeder Studierende ist ein Objekt mit bestimmten Eigenschaften oder Merkmalen. Die Beschreibung eines solchen Merkmals nennt man in der Fachsprache Attribut. Die Attribute werden meistens als Spaltenüberschriften angegeben.
Jedes Objekt hat die gleichen Attribute, können aber unterschiedliche Attribut-Werte
haben. Diese Werte der Attribute werden in die entsprechenden Felder gespeichert,
wobei alle Werte eines Objekts einen Datensatz bilden.
3
Beispiele von Objekten mit ihren Attributen
• Messdaten: Datum, Probanden-Nr., Alter, Geschlecht, Gewicht, Anzahl
weisse Blutkörperchen/nl Blut.
• Studierende: Matrikelnummer, Vorname, Name, Fachrichtung, Semester.
• Fahrräder: Sattelhöhe(cm), Rahmenfarbe, Reifendruck(bar).
Beispiele von Attribut-Werten der obigen Objekte
• Messdaten: 30.06.16, 05634912, 24, m, 76, 6.8.
• Studierende: 16-991-114, Flavia, Bertarelli, Biologie, 6.
• Fahrräder: 95, blau, 0.5.
3 Verwaltung von Datenlisten mit einer
Tabellenkalkulation
3.1 Dateneingabe
Solange Daten die Form von Text und Zahlen haben, kann eine Tabellenkalkulation auch
typische Aufgaben übernehmen, für die sonst eine Datenbank eingesetzt wird: Daten
eingeben, speichern, bearbeiten und auswerten. Um diese Funktionen nutzen zu können,
müssen die Daten als Liste von Datensätzen vorliegen. Tabelle 1 zeigt ein Beispiel
einer Datenliste mit vier Attributen und fünf Datensätzen.
Probanden-Nr.
Alter
Geschlecht
Anzahl weisse Blutkörperchen/nl Blut
05634912
67
m
3.8
05634913
79
f
11.3
05634914
30
m
4.1
05634915
65
f
6.8
05634916
67
f
5.8
Tabelle 1: Beispiel einer Datenliste mit vier Attributen und fünf Datensätzen.
3.1.1 Datentypen
Tabellenkalkulationen unterscheiden verschiedene Typen von Daten. Die wichtigsten
sind Zahlen und Text. Die Tabellenkalkulation erkennt bei der Eingabe von Daten
automatisch, um welchen Datentyp es sich handelt. Text wird linksbündig und Zahlen
rechtsbündig dargestellt. Nur mit Zahlen können Berechnungen durchgeführt werden.
4
Text ist eine beliebige Zeichenfolge, die auch aus Zahlen bestehen können (damit kann
aber nicht gerechnet werden).
3.1.2 Zellformate
Durch die Einstellung verschiedener Zellformate kann die Darstellung einer Wertes
geändert werden. Dabei gilt zu beachten, dass das gewählte Format den tatsächlichen
Zellenwert nicht beeinflusst. Die wichtigsten Zellformate sind:
• Zahl: es können die Anzahl Dezimalstellen gewählt werden, die angezeigt werden
sollen.
• Text: behandelt den Inhalt einer Zelle als Text. Dies gilt auch für Zahlen.
• Datum und Zeit: zeigt fortlaufende Zahlen für Datum und Uhrzeit an.
So kann Beispielsweise 43000 als Dezimalzahl, Text, Währung oder sogar als Datum
angezeigt werden.
3.2 Sortieren und Filtern
Sind die Daten einmal eingegeben, haben Sie beim Verwalten der Daten Möglichkeiten,
diese unterschiedlich anzuzeigen, wie z.B.
• die Reihenfolge von Datensätzen nach verschiedenen Kriterien zu ändern (sortieren).
• eine Auswahl von Datensätzen anzeigen lassen (filtern).
3.2.1 Sortieren
Tabelle 2 zeigt das Resultat einer Sortierung der Datenliste aus Tabelle 1 nach einem
Kriterium (Anzahl weisse Blutkörperchen/nl Blut, absteigend sortiert).
Probanden-Nr.
Alter
Geschlecht
Anzahl weisse Blutkörperchen/nl Blut
05634913
79
f
11.3
05634915
65
f
6.8
05634916
67
f
5.8
05634914
30
m
4.1
05634912
67
m
3.8
Tabelle 2: Beispiel einer sortierten Datenliste (Anzahl weisse Blutkörperchen/nl Blut
absteigend sortiert).
5
3.2.2 Filtern
Die Datenliste aus Tabelle 1 wird nach zwei Kriterien (weiblich und älter als 65 Jahre)
gefiltert. Tabelle 3 zeigt das Resultat einer UND-verknüpfung und Tabelle 4 das
Resultat einer ODER-Verknüpfung der beiden Kriterien.
Probanden-Nr.
Alter
Geschlecht
Anzahl weisse Blutkörperchen/nl Blut
05634913
79
f
11.3
05634916
67
f
5.8
Tabelle 3: Beispiel einer gefilterten Datenliste mit UND-Verknüpfung (Liste aller Probanden, die weiblich UND älter als 65 sind).
Probanden-Nr.
Alter
Geschlecht
Anzahl weisse Blutkörperchen/nl Blut
05634912
67
m
3.8
05634913
79
f
11.3
05634915
65
f
6.8
05634916
67
f
5.8
Tabelle 4: Beispiel einer gefilterten Datenliste mit ODER-Verknüpfung (Liste aller Probanden, die weiblich ODER älter als 65 sind).
3.3 Pivot-Tabellen
Pivot-Tabellen bieten eine Möglichkeit, mehrdimensionale Datenlisten 2-dimensional
zusammenzufassen. Durch die Pivot-Tabelle kann die Aussagekraft einer Datenliste erhöht werden. Die Datenliste selber bleibt dabei im Hintergrund bestehen und wird nicht
verändert.
Aus der Datenliste in Tabelle 1 wurde eine Pivot-Tabelle erstellt, welche die beiden
Attribute Geschlecht und Alter gegenüberstellt und alle Datensätze zählt. Das
Resultat ist in Tabelle 5 dargestellt.
4 Hinweise zum Vorgehen
Im E.Tutorial® lernen Sie, wie Sie mit Hilfe einer Tabellenkalkulation Datenlisten (aus der
Schweizerischen Nährwertdatenbank) verwalten können. In der Testaufgabe zu diesem
6
Anzahl von
Probanden-Nr.
Geschlecht
Alter
f
30
65
1
67
1
79
1
Gesamtergebnis
3
m
Gesamtergebnis
1
1
1
1
2
1
2
5
Tabelle 5: Beispiel einer Pivot-Tabelle, welche die beiden Attribute ‘Geschlecht‘ und
‘Alter‘ gegenüberstellt und alle Datensätze zählt.
Praxismodul erstellen und analysieren Sie eine Datenverwaltung mit aktuellen Erdbebendaten. Dabei werden Sie auch die Grenzen der Datenverwaltung mit Tabellenkalkulationsprogrammen erfahren.
4.1 Schweizerische Nährwertdatenbank: Eine Sammlung der
Zusammensetzung von Nahrungsmitteln
Auf den meisten verpackten Lebensmitteln ist eine Nährwerttabelle aufgedruckt. Dort
finden Sie neben dem Energie-Brennwert (in kcal und kJ) auch Angaben über den Fettgehalt, die Eiweissmenge und den Kohlenhydratgehalt. Der Anwendungsbereich dieser
aufgedruckten Informationen bleibt aber auf die durchschnittlichen Konsumenten beschränkt und ist zu ungenau für Diät-Patienten und professionelle Anwendungen wie
Ernährungsberatungen und Lebensmittelkontrollen.
Mit finanzieller Unterstützung durch den Bund und der Lebensmittelindustrie wurde deshalb von der ETH eine schweizerische Nährwertdatenbank aufgebaut (http:
//naehrwertdaten.ch). Diese enthält Angaben über 722 national repräsentative
Nahrungsmittel (wie z.B. Bratwurst und Ruchbrot). Pro 100g Nahrungsmittel wurden
36 Inhaltsstoffe erfasst und in einer Access-Datenbank zusammengestellt.
4.1.1 Nahrungsmittelbestandteile im Überblick
Die Eiweisse (Proteine) bestehen aus Aminosäuren. Deren Hauptfunktion besteht im
Aufbau von Körpersubstanz. Sie sind Bausteine des Immunsystems, von Hormonen und
Enzymen. Insgesamt sind 21 Aminosäuren bekannt, die in Form von langen Ketten zu
einer riesigen Zahl verschiedener Proteine kombiniert werden können. Acht dieser Aminosäuren kann der Körper nicht selber herstellen. Sie müssen deshalb über die Nahrung
7
aufgenommen werden (sog. essentielle Aminosäuren).
Als Kohlenhydrate bezeichnet man die verschiedenen Zuckerarten und Stärke. Sie
stellen die wichtigste Energiequelle dar. Nach ihrer Aufspaltung im Verdauungstrakt
werden sie in den Blutkreislauf aufgenommen und von dort zu den Zielorganen (Gehirn,
Muskeln, Leber, etc.) transportiert.
Fette sind wie die Kohlenhydrate Energielieferanten und sind am Aufbau der Zellmembranen beteiligt. Sie sind Träger der fettlöslichen Vitamine A, D, E, K und liefern essentielle
Fettsäuren (Linolsäure).
Vitamine spielen eine wichtige Rolle bei Stoffwechselvorgängen.
Zu den Mineralstoffen zählt man unter anderem Natrium, Kalium, Calcium und Magnesium. Diese Elemente sind beteiligt an der Übertragung von elektrischen Impulsen
(Muskelkontraktion, Nervenzellen, etc.), dienen dem Aufbau und der Erhaltung der Knochensubstanz (Calcium) und/oder sind wichtige Bestandteile von Enzymen.
8