VBN-teamet

Open Data

Open Data - det vil sige åben, eller delvis åben, adgang til forskningsdata - er en del af Open Science. Brugen af Open Data bidrager til at sikre at potentialet i forskningsdata maksimeres, fx gennem videre anvendelse i andre forskeres arbejde, og er samtidigt med til at styrke din forskerprofil.

Læs mere om hvordan du registrerer datasæt i VBN/Pure.

Mulighed eller krav

Åben adgang til dine forskningsdata kan være en god mulighed for både dig selv og andre. Både med hensyn til genanvendelse, men også i forhold til profilering. Med det kan også være et krav. En bevillingsgiver kan kræve dette, jf. fx Open Data Pilot i Horizon 2020, eller fra et forlag, der kræver at du publicerer underliggende forskningsdata til artikler. Bemærk, at der i sidstnævnte tilfælde kan opstilles særlige krav til anvendelsen af platforme (repositories). 

 

Få aftalegrundlaget på plads

Er du del af et projektsamarbejde, hvad enten det er med kollegaer fra AAU, samarbejdspartnere fra andre universiteter eller kommercielle virksomheder, så bør beslutningen om publicering af data - og måden hvorpå det skal ske - ligge tidligt i samarbejdsprocessen. Derigennem kan eventuelle tvister vedrørende dette undgås. Det kan ske fx via opsættelsen af en kontrakt eller ved udarbejdelsen af en fælles data management plan.

Det er ligeledes vigtigt at lægge fast, hvor ansvaret for publiceringen af data skal ligge, herunder en eventuel vedligeholdelse af kontaktinformation på datasæt. Det er kontaktinformation som typisk står angivet hvor data er publiceret og som fx kan anvendes til indhentning af yderligere oplysninger om de publicerede forskningsdata.

 

Valg af platform (repository)

Når du publicerer forskningsdata, kan du vælge mellem mange forskellige platforme. Valget af et repository sker gennem en nøje afvejning af eventuelle eksterne krav, samt en vurdering af, hvor dine data bedst sikres det størst mulige potentiale for genanvendelse.

I forbindelse med valget af en platform skal du være opmærksom på, om du jf. det enkelte repository's vilkår for anvendelse overgiver rettigheder til dine data. Ligeledes kan data muligvis blive lagt bag en betalingsmur, hvorigennem de ikke er åbent tilgængelige som sådan.

Du kan generelt vælge mellem:

  • Fagspecifikke repositories:
    Nogle akademiske societies, eller andre faglige grupperinger, varetager repositories for specifikke forskningsområder. Dette giver typisk den fordel, at datasæt kan grupperes logisk indenfor de enkelte videnskaber.
     
  • Generiske repositories:
    Nogle repositories stiller ingen særlige krav til typen af datasæt, men tager datasæt på tværs af fagdiscipliner. 
     
  • Institutionelle repositories:
    Nogle universiteter har selv et repository til data, der ofte fungerer ud fra de samme principper som de generiske repositories. Ved Aalborg Universitet kan relativt simple datasæt registreres i Pure.
     
  • Forlagsspecifikke repositories:
    Udvalgte forlag driver selv repositories, og vil i nogle tilfælde stille krav til, at du anvender disse i forbindelse med publiceringen af artikler hos det pågældende forlag.

Husk, at det er ikke sikkert, at du får mest ud af at lægge alle dine data det samme sted. Måske skal forskellige datasæt gøres tilgængelige via forskellige platforme, eller måske skal datasæt deles op (eller samles), for at passe ind i et specifikt repository.

En god oversigt over repositories findes på re3data.org.

 

Valg af licens

Et datasæt der gøres tilgængelig er standardmæssigt underlagt copyrightregler i forhold til deres videre anvendelse. Dette sikres ved, at data altid ledsages af en licens, der angiver betingelserne for dette. Ofte indeholder repositorier valgmuligheder i forhold til hvilken licens de understøtter. De fleste tilbyder eksempelvis Creative Commons.

Det er vigtigt at være særligt opmærksom på, om der indgår elementer af andre datasæt i det datasæt du ønsker at publicere. Dette kan medføre, at data ikke kan publiceres i den ønskede form. Har du eksempelvis anvendt billeder til analyse, kan disse være behæftet med copyright eller en licens der gør, at du ikke frit kan dele disse. I sådanne tilfælde kan du vælge at dele dit datasæt og kun publicere en udvalgt del.

 

Tænk FAIR

Betegnelsen FAIR er en forkortelse af Findable, Accessible, Interoperable og Reusable. FAIR er en række grundprincipper - men ikke en kvalitetsstandard - for, hvordan du bedst sikrer en genanvendelse af dine data. Dog sigter FAIR ikke nødvendigvis mod at data skal være frit tilgængelige. Det er vigtigt at bemærke, at FAIR ikke er en måde at slutte, men en måde at begynde processen omkring publicering af data.

Manuel fremsøgning og evaluering af datasæt er ikke det eneste fokus for FAIR. Der er i lige så høj grad fokus på, at computere via algoritmer m.v. kan finde, hente og anvende datasæt, helt uden menneskelig indblanding. Derfor er der i FAIR et særligt stort fokus på at sikre ensartethed og entydighed i data.

Kort om principperne:

Findable

  • Data skal kunne findes. Sørg for at registrere data i et anerkendt repository. Dette repository skal være søgbart og være tildelt en Persistent Identifier (eksempelvis et DOI). Anvend metadata der sikrer de optimale vilkår for at data kan findes (en beskrivelse som indeholder de vigtigste emneord).

Accessible

  • Data skal være tilgængelige. Dette kan gøres efter standardprotokoller. Disse hentes fx via internettet over HTTP. Hvis data er adgangsbeskyttet, skal der eventuelt være mulighed for at logge ind efter en standardmetode. Ligeledes bør en korrekt kontaktinformation angives, hvorigennem tilgang til data kan opnås. Hvis data slettes, skal der fortsat være metadata som beskriver at datasættet var der, og eventuelt hvorfor det ikke længere er tilgængeligt.

Interoperable

  • Data skal være interoperable. Det vil sige, at det skal være let at forstå og at kombinere dine data med andre datasæt. Derfor skal der i både data og metadata anvendes fælles standarder. Eksempelvis anvendes et fælles anerkendt og entydige vokabular, fælles taksonomier m.v. Arbejder du fx med kemiske stoffer, så kan dette inkludere en fælles måde at angive navne, fx Au i stedet for ordene 'Guld', 'Gold', 'Oro' m.v. Ved eksempelvis måleværdier nævnes hvilken enhed disse er angivet i, fx om en temperatur er angivet i celcius eller fahrenheit.

Reusable

  • Data skal kunne genanvendes. For at sikre denne genanvendelse (af både mennesker og maskiner), er det væsentligt, at der er information nok til at kunne vurdere eksempelvis konteksten for indsamlingen af data. Derfor skal en udførlig - og standardiseret - beskrivelse af konteksten for data medfølge, som lever op til Best Practice indenfor det specifikke fagområde. Dertil kommer en klar angivelse af licensvilkår for den videre anvendelse, en beskrivelse af hvem der er ophavsmand til data, samt hvorfra data stammer.

Det kan kræve lang tid at adaptere FAIR-principperne i egen praksis. FAIR-principperne bliver indenfor den enkelte forskningspraksis omsat på forskellig vis. Hvad der er FAIR for én gruppe forskere, er ikke nødvendigvis FAIR for en anden. Anvendelsen af standardiserede metadata m.v. bør være tænkt ind fra starten, når data genereres, så det ikke bliver en konverteringsopgave til slut i projektet.

Du kan læse mere om FAIR-principperne hos FORCE11.

Kontakt os for yderligere information og hjælp

Har du spørgsmål både til specifikke projekter eller vil vide mere om publicering af datasæt, så er du meget velkommen til at kontakte os. Forskningsdata håndteres i regi af CLAAUDIA - Research Data Services, hvor biblioteket rådgiver i samarbejde med ITS.