Datalagring og datamanagement

Hvad er data management?

Forskningsdata management handler om at du har styr på dine forskningsdata før, under og efter dit forskningsprojekt – at du håndterer dataene forsvarligt både forskningsmæssigt, teknisk, juridisk og etisk i hele deres livscyklus. Konkret at du for dit forskningsprojekt bl.a.:

  • Lagrer og sikrer data, så de kan genfindes og så datatab forebygges
  • Etablerer en praksis for hvordan data organiseres og struktureres, beskrives og dokumenteres
  • Formulerer og følger en politik for hvordan data tilgås og evt. deles
  • Har en plan for, hvordan data bevares (alt. destrueres)
  • Gør data citerbare og genbrugelige, hvis de skal publiceres

The Danish Code of Conduct for Research Integrity (2014) siger at ”Data and primary materials should be retained, stored and managed in a clear and accurate form”.

Forskningsdata management er essentielt for god forskningspraksis, fordi det sikrer at data kan genfindes for reproduktion og/eller verifikation af resultaterne. Som sådan er data management aktiviteter en naturlig del af forskningsprocessen.

Hvorfor data management?

Det korte svar er: ”Because good research needs good data”. Publikationer har indtil videre været det der tæller i den akademiske verden, og datasæt ”second-class citizens”. Men den verdensorden er under forandring; Open Source, Open Access, Open Data er entydigt fænomener i fremmarch, og værdien af gode datavaner du næppe overvurdere. God data management kræver planlægning up front, dvs. en vis investering i tid, men betyder at

  • Du sikrer dine data – så de – og den tid du har brugt på dem – ikke går tabt, og så datasikkerheden er i orden
  • Dine chancer for at få max ud af data øges – data du (nemt) kan finde igen, kan du nemmere genbruge i nye forskningsprojekter
  • Din forskningseffektivitet øges – velorganiserede og dokumenterede data er simpelthen nemmere at finde rundt i og arbejde med undervejs i projektet
  • Du forebygger beskyldninger om uredelig forskning – transparans omkring hvilke data du har indsamlet/skabt hvornår og hvordan, og du kan give adgang til dem om nødvendigt, gør det sværere at stille spørgsmålstegn ved kvaliteten af din forskning
  • Du har mulighed for at få credit for at producere data – tilgængeliggjorte datasæt forsynet med permanent identifikator (fx DOI) kan citeres, og sikrer et link mellem dig som forsker, din publikation og dine data (evt. publiceret via et ”data paper”).
  • Du lever op til forventninger/krav fra institution, bevillingsgivere, projektpartnere og tidsskrifter – Flere og flere europæiske universiteter har data management politikker nu, og måske gælder det også din næste projektpartner. Bevillinger gennem EU’s Horizon 2020 Open Research Data Pilot kræver data management/data sharing planer (se nedenfor) mhp. andre forskere, erhvervsliv og offentlighed, og visse tidsskrifter kræver adgang til data som forudsætning for peer-review (f.eks. Nature), PLOS One).
  • Du får bedre muligheder for at dele data – så andre kan lære af dem, undgå dobbeltarbejde og evt. bruge dem i helt nye forskningssammenhænge

I det store perspektiv er forskningsdata værdifulde aktiver for både universiteter, bevillingsgivere og samfund, og data der ikke kan findes – enten fordi de er gået tabt eller lever en skjult tilværelse på USB-diske – er direkte tab af investering og muligheder.

Forventningen er, at bevaring, tilgængeliggørelse, videre brug af data effektiviserer forskningen, legitimerer videnskaben, styrker tværfagligheden og åbner for nye forskningsspørgsmål (Free access to research data).

Hvad er en data management plan (DMP)?

Der er mange variationer over emnet, men overordnet er det et dokument, som du laver allerede i planlægningsfasen af dit forskningsprojekt, og som beskriver f.eks.:

  • Hvem der er ansvarlig for data management i dit projekt
  • Hvilke typer data du indsamler, genererer eller bruger – og hvordan
  • Hvor meget dine data fylder og hvor du placerer dem
  • Hvordan du organiserer og dokumenterer data (metadata), og hvad der skal til af fx software for at forstå data
  • Hvordan du sikrer data
  • Hvem der ejer data
  • Evt. specielle forholdsregler omkring vedr.fortrolige/personhenførbare/kommercialiserbare/købte data
  • Hvordan data deles undervejs i projektet, og i givet fald hvem der har adgang til dem
  • Hvilke data der evt. tilgængeliggøres efter projektslut og i givet fald hvordan
  • Hvor længe og hvor data skal gemmes efter projektslut/alt. hvilke data der evt. skal slettes

Data management planen er et dynamisk dokument, som bør opdateres ved væsentlige ændringer i projektet – ellers mister dokumentet sin værdi.

Hvorfor lave en data management plan (DMP)?

Mange af ovenstående forhold har du måske allerede overvejet, men at skrive dem ned hjælper dig til at formalisere processen, dokumenterer dine behov og procedurer ift. effektiv og forsvarlig håndtering af data, og hjælper dig til at identificere svagheder ved planen.

Hvordan laver jeg en DMP?

Der er adskillige muligheder for at få hjælp til at lave en data management plan, f.eks.:

  • Online værktøjer, hvor du kan oprette en konto, lave din DMP og løbende opdatere den. Fx DMPonline, der har skræddersyede skabelon til mange bevillingsgivere (primært UK og US), men også til brug for H2020 Open Data Pilot
  • Checklister
  • Guides
  • Eksempler

Data Management Plans findes en lang liste over værktøjer, guides mm., som du kan hente inspiration i. Indtil videre er ressourcerne om emnet hovedsageligt engelsksprogede, idet England, Australien og USA er nogle af de lande, der er længst fremme mht. forsknings data management.

Hvor gemmer jeg data?

Hvis dit universitet har en løsning, der sikkert og effektivt lader dig håndtere og dele data, så brug den.

DeIC data – en national online tjeneste du kan benytte med dit institutionslogin til nemt og sikkert at lagre og synkronisere aktive forskningsdata og store dataset – er også en mulighed. Ubegrænset plads, gratis op til 50 GB for forskere og studerende ved danske universiteter og med mulighed for databehandleraftale – se https://www.deic.dk/da/data_deic_dk

I europæisk sammenhæng er Zenodo interessant. Udviklet af CERN og støttet af EU. Her kan du dele, bevare og showcase dine forskningsresultater (både data og publikationer) og licensere dem under Creative Commons.

En af de mest komplette oversigter over disciplinspecifikke løsninger på globalt plan (en såkaldt global registry of research data repositories) findes på re3data. Du skal dog være særlig opmærksom, hvor der IKKE kan opnås garanti for, at data bliver opbevaret på Europæisk jord. EU-data beskyttelsesregler dikterer nemlig, at der ikke må ske overførsel af personoplysninger (følsomme såvel som ikke-følsomme) til lande udenfor EU, uden at et passende niveau af sikkerhed eller juridiske aftaler er på plads – se http://ec.europa.eu/justice/data-protection/international-transfers/index_en.htm  

Der skal ALTID foreligge en databehandleraftale, hvor der sker behandling (herunder indsamling, overførsel og lagring) af personoplysninger. Det gælder uanset typen af personoplysninger og hvad enten databehandlingen foretages på en online tjeneste, off-line hos en virksomhed, en fysisk eller juridisk person, offentlige myndighed, institution e.lign – se https://www.datatilsynet.dk/erhverv/dataansvarlig-databehandler/databehandler/

I mange tilfælde er en sådan aftale nok, men i visse tilfælde skal der dog forsat ske anmelde til Datatilsynet frem til at persondataforordningen træder i kraft 25. maj 2018 – se https://www.datatilsynet.dk/erhverv/forskere-og-medicinalfirmaer/hvornaar-skal-forskningsprojekter-anmeldes-til-datatilsynet/

Når en dataansvarlig – fx en forsker – overlader oplysninger til en databehandler, fx en online tjeneste, er vedkommende forpligtet til aktivt at sikre sig, at persondatalovens krav om datasikkerhed iagttages, og det kan være virkelig svært at gennemskue ved databehandlere, som fx bruger underleverandører. Definitionen af, hvad der er personoplysninger er også relativt bred - https://www.datatilsynet.dk/ordbog/ og https://www.datatilsynet.dk/erhverv/kort-om-persondataloven/  Så tænk dig om en ekstra gang, inden du lægger forskningsdata op på internationale cloudstorage tjenester.

En “gør-det-selv”/DUDD-løsning (distributed datacenter under the desk) bestående i et mere eller mindre avanceret setup af netværkshardiske kan synes at være en hurtig og billig løsning, men regn på Total Cost of Ownership (se en case beregning) og vurder også hvad et datatab må koste dig (et real-world eksempel ).

Bibliotekarens motto: Lots Of Copies Keeps Stuff Safe. To kopier på stedet, én kopi et geografisk andet sted.

Særligt om persondata

Enkelte forskningsområder som sundhedsvidenskabelig og biomedicinsk forskning er særskilt og tæt reguleret, men det gælder for alle typer af forskning, at du skal være særlig opmærksom på dine forpligtelser, hvis du indsamler, behandler eller deler persondata. Arbejder du med forskningsdata, der indeholder personoplysninger, skal du overholde de principper, som findes i persondataloven.

Relevante links:

Om National strategi for datamanagement og organiseringen af den nationale indsats se mere her

Kontakt for yderligere information:

Projektleder Diba Markus, DeIC