Was sind Forschungsdaten?
Zitation:
Blümm, M., Fritsch, K., Bock, S., Prof. Dr. Arning, U., & Prof. Dr. Förstner, K. U. (2024). 01_LE_Forschungsdaten. FDM@Studium.nrw Blended-Learning-Basiskurs „Forschungsdatenmanagement“ (Version 1.0). https://landesinitiativefdmnrw.github.io/FDMatStudium/thk/texte/01_LE_Forschungsdaten.html
Lernziele
Lernziele
In diesem Themenblock geht es darum, den Begriff „Forschungsdaten“ zu definieren und zu klären, welche Rolle Forschungsdaten im Forschungsprozess spielen.
Was sind Forschungsdaten?
Forschungsdaten sind (digitale) Daten, die im Rahmen wissenschaftlicher Untersuchungen beispielsweise durch Digitalisierung, Quellenforschungen, Experimente oder Messungen gesammelt, generiert oder analysiert werden. Diese Daten spielen eine essenzielle Rolle bei der Erstellung von Erkenntnissen, der Prüfung von Hypothesen und der Stützung von wissenschaftlichen Argumentationen. Forschungsdaten sind nicht nur isolierte Informationen, sondern vielmehr Bausteine, die zur Entwicklung von neuem Wissen und zur Unterstützung von Forschungsarbeiten beitragen.
Forschungsdaten liegen in allen wissenschaftlichen Disziplinen vor, die mit Daten arbeiten, wie den Naturwissenschaften und den Sozial- und Wirtschaftswissenschaften, bis hin zu spezifischen Datentypen wie linguistischen Sprachdaten oder Bildbeschreibungen in den Kunstwissenschaften. Das Verständnis von Forschungsdaten kann je nach Fachbereich, Forschungsprojekt und Kontext variieren. In den Naturwissenschaften können Forschungsdaten Messwerte, Laborergebnisse oder Sensorausgaben umfassen. Sozial- und Wirtschaftswissenschaften verwenden oft Umfragedaten, Textanalysen oder historische Aufzeichnungen. Auch in den Geisteswissenschaften spielen Forschungsdaten eine wichtige Rolle, sei es in Form von literarischen Texten, Kunstwerken, Archivmaterial oder linguistischen Daten. In den Geistes- und Kulturwissenschaften werden solche Daten als Forschungsdaten verstanden, die maschinenlesbar und zum Zwecke der Archivierung, Zitierbarkeit und zur weiteren Verarbeitung aufbewahrt werden können.
Digitale Forschungsdaten präsentieren sich in verschiedenen Formen, darunter Texte, Bilder, Audiodateien, Videoclips und interaktive Visualisierungen. Diese Vielfalt an Formaten und Disziplinen zeigt, dass Forschungsdaten weit über herkömmliche Vorstellungen von Datensammlungen hinausgehen.
In diesem Kurs werden die Begriffe „Daten“ und „Dateien“ häufiger verwendet. Für den fortlaufenden Kurs sind sie wie folgt definiert[1]:
Daten
Daten sind „durch Aufzeichnungen, Beobachtungen, Messungen, statistische Verfahren o. Ä. gewonnene Informationen“
Dateien
Eine Datei ist „unter einem gemeinsamen Namen auf einem Datenträger gespeicherte und zugreifbare Menge von Daten“.
in: DWDS – Digitales Wörterbuch der deutschen Sprache, hrsg. v. d. Berlin-Brandenburgischen Akademie der Wissenschaften, Daten und Datei, abgerufen am 23.10.2023.
Differenzierung von Daten[2]
So verschieden wie die Forschungsgegenstände, Erkenntnisinteressen und Methoden in der Wissenschaft sind, so verschieden sind die Daten und die daraus gewonnenen Information, mit denen Wissenschaftlerinnen und Wissenschaftler arbeiten. Die Vielfalt der Perspektiven, aus denen man Daten je nach Struktur, Bearbeitungszustand oder Verwendungszweck betrachten kann, zeigt, dass die Begriffsbedeutung von 'Daten' kontextabhängig ist und immer wieder aufs Neue eingeordnet wird.
Wovon sprechen Menschen also, wenn sie von Daten sprechen?[3]
Hier zeigen wir Ihnen eine kleine Übersicht über die Unterscheidungs- und Beschreibungsmerkmale von Daten, die sicherlich noch weiter ergänzt werden kann:
Unterscheidung nach klassischen Medientyp, z. B.:
| Medientyp | Icon |
|---|---|
| Text-Daten | |
| Audio-Daten | |
| Bild-Daten | |
| Video-Daten |
Unterscheidung nach Art und Herkunft, z. B.:
| Herkunft | Beschreibung | Icon |
|---|---|---|
| Geo-Daten | numerische Daten Sensor-Daten | |
| Mess-Daten |
Unterscheidung nach physischer Form, z. B.:
| Physische Form |
|---|
| analoge Daten |
| digitale Daten |
| physische Speicherform |
| elektronische Speicherform |
Unterscheidung nach Speicherformat, z. B.:
| Dateiendung | Dateiformat |
|---|---|
| .txt | Textdateien |
| .docx | Microsoft Word-Dokumente |
| Portable Document Format | |
| .csv | Comma-Separated Values |
| .xlsx | Microsoft Excel-Dokumente |
| .jpg | Joint Photographic Experts Group |
| .svg | Scalable Vector Graphics |
| .png | Portable Network Graphics |
| .gif | Graphics Interchange Format |
| .wav | Waveform Audio File Format |
| .mp3 | MPEG-1 Audio Layer 3 |
| .fla | Free Lossless Audio Codec |
| .geojson | Geospatial JavaScript Object Notation |
| .gpx | GPS Exchange Format |
| .shapefile | Geodatenformat für Informationssysteme |
| .csv | Comma-Separated Values |
| .tsv | Tab-Separated Values |
| .js | JavaScript Object |
| .python | Quellcode Python |
| .html/css | Quellcode für Webseiten |
| .sql | Structured Query Language |
| .xml | Extensible Markup Language |
| .mets | Metadata Encoding and Transmission Standard |
Info!
Datei-Formate legen fest, auf welche Art und Weise digitale Daten in Dokumenten organisiert, strukturiert und gespeichert werden.
Unterscheidung nach der Verwendungszusammenhang, z. B.:
| Verwendung | Beschreibung |
|---|---|
| Primärdaten | Daten, die direkt, an erster Stelle, gesammelt werden. |
| Sekundärdaten | Daten, die bereits vorhandenen sind. |
Unterscheidung nach Verarbeitungsstand, z. B.:
| Verarbeitungsstand | Beschreibung |
|---|---|
| Rohdaten | Unbearbeitete, im Originalzustand vorliegende Daten. |
| verarbeitete Daten | Daten, die durch Analyse, Bereinigung oder Transformation aus Rohdaten erstellt werde, wie z. B. eine tabellarische Aufbereitung. |
| aggregierte Daten | Zusammengefasste oder gruppierte Daten zur Vereinfachung oder Übersichtlichkeit. |
Unterscheidung nach Datentyp in der Programmierung, z. B.:
| Integer (Ganzzahlen) | Float (Fließkommazahlen) | String (Zeichenkette) | Boolean (Boolesche Werte) |
|---|---|---|---|
| repräsentiert ganze Zahlen, ohne Dezimalstellen | Darstellung von Dezimalzahlen mit Nachkommastellen | repräsentieren Text oder Zeichenketten | Datentypen, die nur zwei mögliche Werte haben: Wahr (True) oder Falsch (False). |
| Beispiele sind 1, -5 und 100. | Beispielsweise: 3.76549034 | Beispiele sind "Hallo, Verwendung z. B. in Welt!" oder auch bedingten Anweisungen "12345". und logischen Ausdrücken |
Unterscheidung nach Verwendungszweck, z. B.:
| Fach | Geschichte | Medizin | Maschinenbau |
|---|---|---|---|
| Datenbeschreibung | Archivdaten | Patientendaten | Konstruktionsdaten |
| Verwendungszweck | historische Netzwerkforschung und Dokumentation | medizinische Versorgung und Forschung | technische Planung und Entwicklung |
| Forschungsgegenstand | Historische Dokumente, Briefe,Tagebücher | Medizinische Aufzeichnungen, Laborergebnisse | Technische Zeichnungen, Computer-Aided-Design-Modelle (CAD) |
| Medientyp | Text | Text und Zahlen | Grafiken und technische Notation |
| Datei-Format | Digitalisierte Papiervorlagen (TIFF, JPEG2000) | Elektronische Patientenakte (EPA) | AutoCAD-Zeichnungen (DWG) |
| Software Archivverwaltungssoftware (z. B. AtoM), Texterkennungssoftware (OCR) | Software für Patientenakten (z. B. Epic), medizinische Bildverarbeitungssoftware (z. B. OsiriX) | Software für technische Zeichnungen (z. B. AutoCAD), Software für CAD-Modellierung (z. B. SolidWorks) |
Es gibt Primärdaten und Sekundärdaten[4]
Primärdaten
- sind i.d.R. erhobene Rohdaten, die weder bearbeitet, geprüft noch kommentiert bzw. mit Metadaten versehen wurden.
- Sie stellen die Grundlage für die wissenschaftliche Beschäftigung mit einem Gegenstand dar.
Sekundärdaten
- sind Daten, die aus Primärdaten durch Verarbeitungsschritte hervorgehen.
- Es handelt sich um abgeleitete oder prozessierte Daten, die im Rahmen der Primärdatenverarbeitung als Ergebnis z. B. als Publikation anfallen. -- Präsidium der TH Köln, 2021, S. 8.
Die Relevanz von Forschungsdaten
Die steigende Menge und Vielfalt an Forschungsdaten in unterschiedlichen Disziplinen erfordert eine gezielte Herangehensweise, um diese Daten bestmöglich zu organisieren, zu sichern und für aktuelle sowie zukünftige wissenschaftliche Erkenntnisse zu nutzen. Dieses Thema wird in der zweiten Einheit detaillierter eingeführt und ist der Grundstein dieses Kurses.
Leitfragen und Aufgaben
Leitfragen
- Wie kann der Begriff Forschungsdaten definiert werden?
- Welche Arten von Forschungsdaten haben Sie bislang kennengelernt bzw. vielleicht schon selbst genutzt?
Aufgabe
Arbeiten Sie die angegebenen Materialien durch und beantworten Sie für sich die Fragen. Dokumentieren und reflektieren Sie Ihre Ergebnisse in Ihrem Lernportfolio.
Lektüre
Forschungsdaten.org. (2015, 8. Oktober). Forschungsdaten. Zugriff am 18.10.2023, von https://www.forschungsdaten.org/index.php/Forschungsdaten.
Weiterführende Materialen und Quellen
Global Terrorism Database (GTD)
Die vom GTD Advisory Board initiierte Global Terrorism Database (GTD) wird vom National Consortium for the Study of Terrorism and Responses to Terrorism (START)[5] kostenlos zur Verfügung gestellt [6]. Die Datenbank enthält über 200.000 Datensätze zu Anschlägen, die weltweit zwischen 1970 und 2020 in Zeitungsartikeln und anderen Informationsquellen dokumentiert und nach einer kritischen Überprüfung der Quellen als nachweisbare terroristische Handlungen eingestuft wurden. Jeder aufgenommene Datensatz wird durch mindestens 45 Kriterien – wie beispielsweise Datum, Ort, Ziele und eingesetzte Waffen – systematisch klassifiziert.
Ausgenommen hiervon sind alle mutmaßlichen Anschläge, die im Jahr 1993[7] verübt wurden. Nach einem Datenverlust konnten nur 15% des geschätzten Datenbestandes aus dem Jahr 1993 rekonstruiert werden. Um zu verhindern, dass dieser unvollständige Datensatz zu Verzerrungen bei der Analyse und Interpretation der Ergebnisse führt, ist der entsprechende Datensatz nicht mehr in der Datenbank gespeichert, sondern wird in einem separaten Datenblatt zur Verfügung gestellt.
Eine Visualisierung der zwischen 1970 und 2016 in unterschiedlichen Regionen verübten terroristischen Attentate veranschaulicht, welche Folgen der Verlust von Forschungsdaten langfristig haben kann.
Abbildung 1: Übersicht über die zwischen 1970 und 2016 in den unterschiedlichen Regionen verübten terroristischen Attentate. Sina Bock[8]
Auf der GTD-Webseite werden weitere Visualisierungen angeboten, die sich als Grundlage für eine kritische Auseinandersetzung mit der Erhebung, Analyse, Interpretation und Visualisierung von Forschungsdaten eignen. Die 2020 GTD Heat Map[9] zeigt beispielsweise die geographische Verteilung von weltweit verübten Anschlägen im Jahr 2020. Die Intensität der Attentate in diesem Jahr, wird mit Hilfe einer Farbskala visualisiert. Die Einfärbung repräsentiert die Anzahl der Menschen, die bei dem jeweiligen Attentat verletzt oder getötet wurden.
Literatur
Deutsche Forschungsgemeinschaft. (2022). Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. https://doi.org/10.5281/zenodo.6472827
Forschungsdaten.info. (2024, 7. Juni). Was sind Forschungsdaten. Zugriff am 11.06.2024, von https://forschungsdaten.info/themen/informieren-und-planen/was-sind-forschungsdaten/
Putnings, M., Neuroth, H. & Neumann, J. (2021). Praxishandbuch Forschungsdatenmanagement. Berlin, Boston: De Gruyter Saur. https://doi.org/10.1515/9783110657807
Quellen
Präsidium der TH Köln. (2021). Leitlinie zum Umgang mit Forschungsdaten. Zugriff am 20. Oktober 2023, von https://www.th-koeln.de/mam/downloads/deutsch/forschung/leitlinie_zum_umgang_mit_forschungsdaten.pdf
START. National Consortium for the Study of Terrorism and Responses to Terrorism. (2022). Global Terrorism Database, 1970 - 2020 data file
START. (2020). GTD Heatmaps. Abgerufen am 20. Oktober 2023, von https://www.start.umd.edu/gtd/features/GTD_Heatmaps.html
Sauther-Patrascu und Dmitrieva (2021). ↩︎
Quelle: DWDS – Digitales Wörterbuch der deutschen Sprache, hrsg. v. d. Berlin-Brandenburgischen Akademie der Wissenschaften, Daten und Datei, abgerufen am 23.10.2023 ↩︎
aus dem Modul: Was sind Daten? | Universität Wuppertal - Moodle ↩︎
- ↩︎
START (2022). ↩︎
START (2022). ↩︎
(START, 2021, S. 4.) ↩︎
- ↩︎
START (2022). ↩︎
