Skip to content

Was sind Forschungsdaten?

Zitation:

Blümm, M., Fritsch, K., Bock, S., Prof. Dr. Arning, U., & Prof. Dr. Förstner, K. U. (2024). 01_LE_Forschungsdaten. FDM@Studium.nrw Blended-Learning-Basiskurs „Forschungsdatenmanagement“ (Version 1.0). https://landesinitiativefdmnrw.github.io/FDMatStudium/thk/texte/01_LE_Forschungsdaten.html

Lernziele

Lernziele

In diesem Themenblock geht es darum, den Begriff „Forschungsdaten“ zu definieren und zu klären, welche Rolle Forschungsdaten im Forschungsprozess spielen.

Was sind Forschungsdaten?

Forschungsdaten sind (digitale) Daten, die im Rahmen wissenschaftlicher Untersuchungen beispielsweise durch Digitalisierung, Quellenforschungen, Experimente oder Messungen gesammelt, generiert oder analysiert werden. Diese Daten spielen eine essenzielle Rolle bei der Erstellung von Erkenntnissen, der Prüfung von Hypothesen und der Stützung von wissenschaftlichen Argumentationen. Forschungsdaten sind nicht nur isolierte Informationen, sondern vielmehr Bausteine, die zur Entwicklung von neuem Wissen und zur Unterstützung von Forschungsarbeiten beitragen.

Forschungsdaten liegen in allen wissenschaftlichen Disziplinen vor, die mit Daten arbeiten, wie den Naturwissenschaften und den Sozial- und Wirtschaftswissenschaften, bis hin zu spezifischen Datentypen wie linguistischen Sprachdaten oder Bildbeschreibungen in den Kunstwissenschaften. Das Verständnis von Forschungsdaten kann je nach Fachbereich, Forschungsprojekt und Kontext variieren. In den Naturwissenschaften können Forschungsdaten Messwerte, Laborergebnisse oder Sensorausgaben umfassen. Sozial- und Wirtschaftswissenschaften verwenden oft Umfragedaten, Textanalysen oder historische Aufzeichnungen. Auch in den Geisteswissenschaften spielen Forschungsdaten eine wichtige Rolle, sei es in Form von literarischen Texten, Kunstwerken, Archivmaterial oder linguistischen Daten. In den Geistes- und Kulturwissenschaften werden solche Daten als Forschungsdaten verstanden, die maschinenlesbar und zum Zwecke der Archivierung, Zitierbarkeit und zur weiteren Verarbeitung aufbewahrt werden können.

Icon_Datentypen_MessungIcon_ErhebungIcon_Datentypen_SensorIcon_AnalyseIcon_Datentyp_Text

Digitale Forschungsdaten präsentieren sich in verschiedenen Formen, darunter Texte, Bilder, Audiodateien, Videoclips und interaktive Visualisierungen. Diese Vielfalt an Formaten und Disziplinen zeigt, dass Forschungsdaten weit über herkömmliche Vorstellungen von Datensammlungen hinausgehen.

Icon_Datentyp_BildIcon_Datentyp_AVIcon_Datentyp_ObjekteIcon_Datentyp-Audiodateien

In diesem Kurs werden die Begriffe „Daten“ und „Dateien“ häufiger verwendet. Für den fortlaufenden Kurs sind sie wie folgt definiert[1]:

Daten

Icon_Datensatz

Daten sind „durch Aufzeichnungen, Beobachtungen, Messungen, statistische Verfahren o. Ä. gewonnene Informationen“

Dateien

Icon_OrdnerPC

Eine Datei ist „unter einem gemeinsamen Namen auf einem Datenträger gespeicherte und zugreifbare Menge von Daten“.

in: DWDS Digitales Wörterbuch der deutschen Sprache, hrsg. v. d. Berlin-Brandenburgischen Akademie der Wissenschaften, Daten und Datei, abgerufen am 23.10.2023.

Differenzierung von Daten[2]


So verschieden wie die Forschungsgegenstände, Erkenntnisinteressen und Methoden in der Wissenschaft sind, so verschieden sind die Daten und die daraus gewonnenen Information, mit denen Wissenschaftlerinnen und Wissenschaftler arbeiten. Die Vielfalt der Perspektiven, aus denen man Daten je nach Struktur, Bearbeitungszustand oder Verwendungszweck betrachten kann, zeigt, dass die Begriffsbedeutung von 'Daten' kontextabhängig ist und immer wieder aufs Neue eingeordnet wird.

Wovon sprechen Menschen also, wenn sie von Daten sprechen?[3]


Hier zeigen wir Ihnen eine kleine Übersicht über die Unterscheidungs- und Beschreibungsmerkmale von Daten, die sicherlich noch weiter ergänzt werden kann:

Unterscheidung nach klassischen Medientyp, z. B.:

MedientypIcon
Text-DatenIcon_Datentyp_Text
Audio-DatenIcon_Datentyp-Audiodateien
Bild-DatenIcon_Datentyp_Bild
Video-DatenIcon_Datentyp_AV

Unterscheidung nach Art und Herkunft, z. B.:

HerkunftBeschreibungIcon
Geo-Datennumerische Daten Sensor-DatenIcon_Datentypen_Sensor
Mess-DatenIcon_Datentypen_Messung

Unterscheidung nach physischer Form, z. B.:

Physische Form
analoge Daten
digitale Daten
physische Speicherform
elektronische Speicherform

Unterscheidung nach Speicherformat, z. B.:

DateiendungDateiformat
.txtTextdateien
.docxMicrosoft Word-Dokumente
.pdfPortable Document Format
.csvComma-Separated Values
.xlsxMicrosoft Excel-Dokumente
.jpgJoint Photographic Experts Group
.svgScalable Vector Graphics
.pngPortable Network Graphics
.gifGraphics Interchange Format
.wavWaveform Audio File Format
.mp3MPEG-1 Audio Layer 3
.flaFree Lossless Audio Codec
.geojsonGeospatial JavaScript Object Notation
.gpxGPS Exchange Format
.shapefileGeodatenformat für Informationssysteme
.csvComma-Separated Values
.tsvTab-Separated Values
.jsJavaScript Object
.pythonQuellcode Python
.html/cssQuellcode für Webseiten
.sqlStructured Query Language
.xmlExtensible Markup Language
.metsMetadata Encoding and Transmission Standard

Info!

Datei-Formate legen fest, auf welche Art und Weise digitale Daten in Dokumenten organisiert, strukturiert und gespeichert werden.

Unterscheidung nach der Verwendungszusammenhang, z. B.:

VerwendungBeschreibung
PrimärdatenDaten, die direkt, an erster Stelle, gesammelt werden.
SekundärdatenDaten, die bereits vorhandenen sind.

Unterscheidung nach Verarbeitungsstand, z. B.:

VerarbeitungsstandBeschreibung
RohdatenUnbearbeitete, im Originalzustand vorliegende Daten.
verarbeitete DatenDaten, die durch Analyse, Bereinigung oder Transformation aus Rohdaten erstellt werde, wie z. B. eine tabellarische Aufbereitung.
aggregierte DatenZusammengefasste oder gruppierte Daten zur Vereinfachung oder Übersichtlichkeit.

Unterscheidung nach Datentyp in der Programmierung, z. B.:

Integer (Ganzzahlen)Float (Fließkommazahlen)String (Zeichenkette)Boolean (Boolesche Werte)
repräsentiert ganze Zahlen, ohne DezimalstellenDarstellung von Dezimalzahlen mit Nachkommastellenrepräsentieren Text oder ZeichenkettenDatentypen, die nur zwei mögliche Werte haben: Wahr (True) oder Falsch (False).
Beispiele sind 1, -5 und 100.Beispielsweise: 3.76549034Beispiele sind "Hallo, Verwendung z. B. in Welt!" oder auch bedingten Anweisungen "12345". und logischen Ausdrücken

Unterscheidung nach Verwendungszweck, z. B.:

FachGeschichteMedizinMaschinenbau
DatenbeschreibungArchivdatenPatientendatenKonstruktionsdaten
Verwendungszweckhistorische Netzwerkforschung und Dokumentationmedizinische Versorgung und Forschungtechnische Planung und Entwicklung
ForschungsgegenstandHistorische Dokumente, Briefe,TagebücherMedizinische Aufzeichnungen, LaborergebnisseTechnische Zeichnungen, Computer-Aided-Design-Modelle (CAD)
MedientypTextText und ZahlenGrafiken und technische Notation
Datei-FormatDigitalisierte Papiervorlagen (TIFF, JPEG2000)Elektronische Patientenakte (EPA)AutoCAD-Zeichnungen (DWG)
Software Archivverwaltungssoftware (z. B. AtoM), Texterkennungssoftware (OCR)Software für Patientenakten (z. B. Epic), medizinische Bildverarbeitungssoftware (z. B. OsiriX)Software für technische Zeichnungen (z. B. AutoCAD), Software für CAD-Modellierung (z. B. SolidWorks)

Es gibt Primärdaten und Sekundärdaten[4]

Primärdaten

Icon_Primaerdaten

  • sind i.d.R. erhobene Rohdaten, die weder bearbeitet, geprüft noch kommentiert bzw. mit Metadaten versehen wurden.
  • Sie stellen die Grundlage für die wissenschaftliche Beschäftigung mit einem Gegenstand dar.

Sekundärdaten

Icon_Sekundaerdaten

  • sind Daten, die aus Primärdaten durch Verarbeitungsschritte hervorgehen.
  • Es handelt sich um abgeleitete oder prozessierte Daten, die im Rahmen der Primärdatenverarbeitung als Ergebnis z. B. als Publikation anfallen. -- Präsidium der TH Köln, 2021, S. 8.

Die Relevanz von Forschungsdaten

Die steigende Menge und Vielfalt an Forschungsdaten in unterschiedlichen Disziplinen erfordert eine gezielte Herangehensweise, um diese Daten bestmöglich zu organisieren, zu sichern und für aktuelle sowie zukünftige wissenschaftliche Erkenntnisse zu nutzen. Dieses Thema wird in der zweiten Einheit detaillierter eingeführt und ist der Grundstein dieses Kurses.

Leitfragen und Aufgaben

Leitfragen

Icon_Fragezeichen

  1. Wie kann der Begriff Forschungsdaten definiert werden?
  2. Welche Arten von Forschungsdaten haben Sie bislang kennengelernt bzw. vielleicht schon selbst genutzt?

Aufgabe

Icon_Aufgabe

Arbeiten Sie die angegebenen Materialien durch und beantworten Sie für sich die Fragen. Dokumentieren und reflektieren Sie Ihre Ergebnisse in Ihrem Lernportfolio.

Lektüre

Icon_Buch

Forschungsdaten.org. (2015, 8. Oktober). Forschungsdaten. Zugriff am 18.10.2023, von https://www.forschungsdaten.org/index.php/Forschungsdaten.

Weiterführende Materialen und Quellen

Icon_Findability

Global Terrorism Database (GTD)

Die vom GTD Advisory Board initiierte Global Terrorism Database (GTD) wird vom National Consortium for the Study of Terrorism and Responses to Terrorism (START)[5] kostenlos zur Verfügung gestellt [6]. Die Datenbank enthält über 200.000 Datensätze zu Anschlägen, die weltweit zwischen 1970 und 2020 in Zeitungsartikeln und anderen Informationsquellen dokumentiert und nach einer kritischen Überprüfung der Quellen als nachweisbare terroristische Handlungen eingestuft wurden. Jeder aufgenommene Datensatz wird durch mindestens 45 Kriterien wie beispielsweise Datum, Ort, Ziele und eingesetzte Waffen systematisch klassifiziert.

Ausgenommen hiervon sind alle mutmaßlichen Anschläge, die im Jahr 1993[7] verübt wurden. Nach einem Datenverlust konnten nur 15% des geschätzten Datenbestandes aus dem Jahr 1993 rekonstruiert werden. Um zu verhindern, dass dieser unvollständige Datensatz zu Verzerrungen bei der Analyse und Interpretation der Ergebnisse führt, ist der entsprechende Datensatz nicht mehr in der Datenbank gespeichert, sondern wird in einem separaten Datenblatt zur Verfügung gestellt.

Eine Visualisierung der zwischen 1970 und 2016 in unterschiedlichen Regionen verübten terroristischen Attentate veranschaulicht, welche Folgen der Verlust von Forschungsdaten langfristig haben kann.


Abbildung 1: Abbildung 1: Übersicht über die zwischen 1970 und 2016 in den unterschiedlichen Regionen verübten terroristischen Attentate. Sina Bock[8]

Auf der GTD-Webseite werden weitere Visualisierungen angeboten, die sich als Grundlage für eine kritische Auseinandersetzung mit der Erhebung, Analyse, Interpretation und Visualisierung von Forschungsdaten eignen. Die 2020 GTD Heat Map[9] zeigt beispielsweise die geographische Verteilung von weltweit verübten Anschlägen im Jahr 2020. Die Intensität der Attentate in diesem Jahr, wird mit Hilfe einer Farbskala visualisiert. Die Einfärbung repräsentiert die Anzahl der Menschen, die bei dem jeweiligen Attentat verletzt oder getötet wurden.

Literatur

Deutsche Forschungsgemeinschaft. (2022). Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. https://doi.org/10.5281/zenodo.6472827

Forschungsdaten.info. (2024, 7. Juni). Was sind Forschungsdaten. Zugriff am 11.06.2024, von https://forschungsdaten.info/themen/informieren-und-planen/was-sind-forschungsdaten/

Putnings, M., Neuroth, H. & Neumann, J. (2021). Praxishandbuch Forschungsdatenmanagement. Berlin, Boston: De Gruyter Saur. https://doi.org/10.1515/9783110657807

Quellen

Präsidium der TH Köln. (2021). Leitlinie zum Umgang mit Forschungsdaten. Zugriff am 20. Oktober 2023, von https://www.th-koeln.de/mam/downloads/deutsch/forschung/leitlinie_zum_umgang_mit_forschungsdaten.pdf

START. National Consortium for the Study of Terrorism and Responses to Terrorism. (2022). Global Terrorism Database, 1970 - 2020 data file

START. (2020). GTD Heatmaps. Abgerufen am 20. Oktober 2023, von https://www.start.umd.edu/gtd/features/GTD_Heatmaps.html


  1. Sauther-Patrascu und Dmitrieva (2021). ↩︎

  2. Quelle: DWDS Digitales Wörterbuch der deutschen Sprache, hrsg. v. d. Berlin-Brandenburgischen Akademie der Wissenschaften, Daten und Datei, abgerufen am 23.10.2023 ↩︎

  3. aus dem Modul: Was sind Daten? | Universität Wuppertal - Moodle ↩︎

  4. ↩︎
  5. START (2022). ↩︎

  6. START (2022). ↩︎

  7. (START, 2021, S. 4.) ↩︎

  8. ↩︎
  9. START (2022). ↩︎