Dateiformate
Wenn Dateien über Jahre hinweg erhalten werden und technisch lesbar sein sollen, ist es notwendig, die Software zum Lesen dieser Dateien vorzuhalten und die Dateien regelmäßig in neuere Formate zu migrieren. Um FAIRe Daten zu erhalten, wird daher empfohlen, nicht-proprietäre und/oder gängige Dateiformate zu verwenden, die mit offener Software bearbeitet werden können.
Für die Übergabe an ein FDZ ist zudem zu beachten, dass die Dateien nicht verschlüsselt sein dürfen. Auch teilweises Sperren von Funktionen wie etwa Drucken oder Kopieren in geschützten PDF-Dateien gilt es zu vermeiden.
Übersicht über die von den FDZ im VerbundFDB empfohlenen und akzeptierten Dateiformate für Daten der quantitativen und qualitativen Forschung:
Tabellen
Grundsätzlich sollten Datensätze so übergeben werden, dass sie mit einem der weit verbreiteten Statistikpakete SPSS, Stata, R oder SAS genutzt werden können. Dafür gibt es verschiedene Möglichkeiten:
- Daten können in den proprietären Formaten der gängigen Statistikprogramme als sogenannte Systemfiles, z. B. SPSS System File, übergeben werden.
- Daten können in software-spezifischen portablen Dateiformaten, z. B. SAS Transport File, übergeben werden.
- Daten können in textbasierten Komma-, Tabulator- oder Spalten getrennten Formaten zusammen mit entsprechenden Setup- oder Syntax-Dateien zum Einlesen in die jeweiligen Statistikprogramme übergeben werden.
Akzeptierte Formate:
- weit verbreitete, proprietäre Formate von Statistikpaketen wie SPSS *.sav, *.por und STATA *.dta
- R *.rds, *.rda
- SAS Transport *.sas (open?)
- Tabulator-, Komma- oder Spalten getrennte Textdatei *.csv mit zusätzlicher Setup-Datei (Setup-, Command- oder Syntax-File für SPSS, Stata, SAS etc.) mit entsprechenden Datendefinitionen (Variablennamen und -label, fehlenden Werten etc.).
- OpenDocument-Tabellendokument *.ods, MS Excel *.xls und *.xlsx, MS Access *.mdb und *.accdb
- CSV-Formate ohne zusätzliche Datendefinitionsdateien (Setup-, Syntax-, Command-File)
- Column-Binary-Format (Column Binary ist ein Standard, um Daten als Abbilder von Lochkarten zu repräsentieren) oder Card-Image-Format
Texte
Akzeptierte Formate:
- MS Word *.doc, *.docx
- PDF *.pdf
- OpenDocument-Text *.odt
- Rich-Text-Format *.rtf
- HTML *.htm und *.html
- Plain-Text-Formate ASCII, ANSI
Bilder
Akzeptierte Formate
- TIFF Version 6 unkomprimiert *.tif
- JPEG *.jpg und *jpeg, PNG *.png, GIF *.gif, BMP *.bmp
Audio
Akzeptierte Formate
- MPEG-1 Audio Layer 3 *.mp3
- Wave Audio Format WAV *.wav
Video
Bevorzugte Formate
- MPEG-4 *.mp4, MPEG-2 *.mpg
Akzeptierte Formate
- Audio Video Interleave AVI *.avi
- Windows Media Video WMV *.wmv
Wissenswertes: Im Rahmen der Kuratierung und Langzeitarchivierung überführen FDZ Dateien gegebenenfalls in andere Formate.
Quellen und weiterführende Hinweise
Eine ausführliche Erläuterung zu Dateiformaten in der Datenarchivierung findet sich hier: https://forschungsdaten.info/themen/veroeffentlichen-und-archivieren/formate-erhalten/
Übersicht und Bewertung verschiedener Dateiformate der Koordinationsstelle für dauerhafte Archivierung elektronischer Unterlagen (KOST): Katalog archivischer Dateiformate