FAIR och öppna forskningsdata – en hårdvaluta

2019-05-28

Enligt uträkning från EU-kommissionens Generaldirektorat för forskning och innovation förlorar den europeiska ekonomin årligen drygt 100 miljarder kronor på grund av dålig hantering av forskningsdata. Summan blir än större om mer svårberäknade aspekter såsom forskningskvalitet och framtida omsättning inkluderas, då nämns beloppet ytterligare 160 miljarder kronor. Det existerar alltså ett stort incitament för att utveckla och säkerställa hanteringen av forskningsdata, speciellt när den är offentligt finansierad.


alt

Innan jag går in på vad som görs och hur man försöker lösa problemet här i Sverige kan det vara på sin plats att ge en bakgrund till begreppet forskningsdata och vad det hela handlar om. Tidigare i mina inlägg har jag uppehållit mig mycket kring den vetenskapliga publiceringen. Det är bara en del av det som utgör öppen vetenskap. Ytterligare en viktig beståndsdel är det man kallar för forskningsdata, alltså den rådata som ligger till grund för den analys som görs i själva forskningen. Forskningsdata kan alltså vara insamlad rådata från till exempel observationer och intervjuer (text, ljud och bild) men även prototyper och konstnärliga verk. Fokuset inom öppen vetenskap ligger på hur man arbetar för att göra forskningsdata tillgänglig och återanvändningsbar. Diskuterar man forskningsdata finns det en fundamental princip att känna till, nämligen FAIR-principen. FAIR står för Findable, Accessible, Interoperable och Re-usable. Huvudsyftet med principen är att man skall kunna återfinna och återanvända redan insamlade data. Detta skall vara möjligt att göra inte bara av människor utan även maskinellt. Denna princip anses vara så viktig att den överträffar betydelsen av att forskningsdata görs öppen även om det självklart är att föredra där så är möjligt. Naturligtvis är detta en komplicerad process där forskarna beskriver och dokumenterar vilken data som skall samlas in, hur och varför. Men arbetet inkluderar även många andra aspekter såsom exempelvis lagstiftning, etikfrågor, myndighetsutövning, metadata och informationssäkerhet, vilka måste beaktas. Till stöd i processen finns en checklista som man kallar för datahanteringsplan (DHP) vilken det vid exempelvis ansökan hos Vetenskapsrådet ställs krav på att forskaren upprättat. Många forskare upplever förvisso att detta är en administrativ börda, vilket jag förstår, men samtidigt skall man kanske se det mer som ett stöd i forskningsprocessen och ett säkerställande av forskningskvaliteten. Nu måste inte datahanteringsplanen vara fullständig redan från början, även om det är en fördel om arbetet inleds tidigt i forskningsprojektet, utan det är ett levande dokument som skall uppdateras kontinuerligt under forskningsprojektet för att säkerställa en riktig och riklig dokumentation kring arbetet med forskningsdata. Arbetar man strukturerat och konsekvent med sin datahanteringsplan säkerställs kraven utifrån FAIR-principen.

Vilka är då problemen och svårigheterna i arbetet mot öppna forskningsdata? En synpunkt som jag redan har berört är komplexiteten. Forskare är oftast väl förtrogna med datainsamling och analys men här ställs det plötsligt helt andra krav. Man skall kunna beskriva och dokumentera hela processen, dessutom så att någon helt annan som inte ingått i projektet skall kunna analysera och återanvända forskningsdata. Vid studier framkommer det att forskare upplever bristande kunskaper om vilka regler som gäller samt hur man skall genomföra processen. Det finns ett behov av stöd och support för att klara av detta arbete. Inordnat detta uppstår då frågan kring resurser och den resursbrist som upplevs. Av förklarliga skäl är en forskare inte benägen att lägga tid på detta samt utveckla sin kompetens när det, som i dagsläget, inte värderas eller meriteras. Naturligtvis är detta något som måste lyftas och utredas om man vill uppnå en expansion av, samt ökad tillgång till, öppna forskningsdata. En annan faktor som många forskare oroas av är missbruk av deras forskningsdata. Jag ser här två delar av den oro som finns inför missbruk av forskningsdata. Den första delen är självklart oron att någon annan skall använda framtagen forskningsdata för att bedriva forskning som gör den egna forskningen inaktuell. Oftast har man ett stort försprång, kunskapsmässigt såväl som tidsmässigt, så tänker man sig att publicera en artikel som bygger på just den data man samlat in bör det inte vara några större problem. Ser forskaren en följd av artiklar framför sig kan jag mer förstå den oro som uppstår. En andra del av missbruk är att någon annan använder forskningsdata men inte riktigt sätter sig in i hur rådata är insamlad och organiserad.  Det kan få till följd att kvalitativa och riktiga data används och utnyttjas på ett mindre kvalitativt sett och i värsta fall dessutom med felaktiga slutsatser som resultat. Det finns nog ingen forskare som vill att deras insamlade data förknippas i något sådant sammanhang. Ytterligare ett problem som jag identifierar är den komplicerade lagstiftning som finns på området. Kanske inte ett problem i sig om man besitter kunskapen men i dagsläget är det ett problem. Man måste känna till vad som gäller exempelvis vid myndighetsutövning, GDPR, etiska aspekter samt ansvarsfrågor och äganderätt. Även informationssäkerhet och arkiveringsregler är viktiga aspekter där jag tror att många forskare känner sig väldigt osäkra över vad som gäller. Här kan då datahanteringsplanen utgöra ett användbart stöd i processen för att fånga upp dessa frågor.

Vad görs då just nu i Sverige för att utveckla arbetet med tillgång till FAIR och öppna forskningsdata? Ett stort arbete som sker är att i stort sett alla lärosäten upprättar något som kallas för DAU, Data Access Unit, där man försöker samordna den support som finns att tillgå på lärosätena i form av bibliotekarier, arkivarie, jurister och personal som arbetar inom IT. Här har SND – Svensk Nationell Datatjänst samt Högskolan i Borås tagit fram ett utbildningsprogram, jag var själv en av de som utgjorde den första gruppen som gick igenom utbildningen under förra våren, för att stödja de som skall arbeta med att upprätta dessa DAU:er. Ett annat initiativ som har nationell förankring är att ta fram en lösning för ett digitalt repositorium där man skall kunna ha långtidslagring (inte samma sak som att arkivera, vilket görs på lärosätet) av den öppna forskningsdata som produceras. Det är SUNET som är involverat i detta projekt vilket det arbetas med just nu. Även Vetenskapsrådet arbetar för att driva på övergången. Framförallt håller de på med att ta fram en nationell datahanteringsplan som skall kunna användas vid alla lärosäten. Förhoppningsvis kommer den på sikt kunna utvecklas till ett smidigt verktyg online där forskarna enkelt och intuitivt skall kunna få stöd för att smidigt upprätta densamma. Jag tror detta blir ett viktigt steg just för att underlätta forskarnas arbete med forskningsdata. Sedan har vi naturligtvis själva som individer en viktig uppgift i att sprida information och kunskap om öppna forskningsdata. Vi som arbetar med forskningsdata här i Jönköping bedriver för tillfället en utbildnings-/informationskampanj där vi besöker alla de fyra fackhögskolorna, deras forskningsledare samt forskare och doktorander som en del i kunskapsspridningen inom lärosätet. Att konsekvent arbeta med forskningsdata är något nytt för oss alla och vi får börja i liten skala. Därefter får vi tillsammans utvecklas processen vidare och höja både kvaliteten på, samt tillgången till, framtagna forskningsdata.

Infrastrukturen för forskningsdata är något jag inte berört, förutom SUNET:s arbete, vilket beror på att det för tillfället saknas en strategi för detta arbete, vilket Vetenskapsrådet mycket riktigt tar upp i sin nyligen publicerade rapport ”Vägval för framtidens forskningssystem”. Här finns det olika riktningar att välja mellan men man skall vara medveten om att det tar tid att utveckla och förankra en hållbar tillika uthållig infrastruktur. I en nyligen publicerad rapport från Ithaka SR diskuterar man fenomenet ”Data Communities”. Enligt deras fallstudie har de mest framgångsrika av dessa utvecklas under lång tid. Genom att ha ett tydligt fokus inom ett specifikt forskningsområde har de byggts upp underifrån genom samarbete mellan forskarna. På så sätt har de skapat förtroende och förankring i sitt långsiktiga arbete. Vad de även oftast bistår med, förutom lagringsplats, är support från forskare som är insatta i hanteringen av forskningsdata för just det ämnesområdet. Det får till följd att riktiga metadata och andra aspekter såsom exempelvis DOIs underlättar spridning och sökbarhet samt att återvinning säkerställs. Drivkraften blir inte citeringar utan att delta i ett sammanhang där man bidrar kollegialt. Nu var denna studie baserad på STEM-områden vilka många gånger har data som är lättare att dela än inom till exempel samhällsvetenskaperna men som ett lyckosamt fenomen inom området är de intressanta att se närmare på, jag är övertygad om att de kommersiella förlagen gör det.   

För att möta framtiden anser jag att det är några faktorer som måste beaktas. Exempelvis måste man fundera på meritering och värdering av arbetet med forskningsdata. Hur skall det kunna mätas, man bör till exempel arbeta mot att forskningsdata kan citeras på ett principfast sätt. Jag tror också att det är viktigt att kunna förstå skillnaden mellan öppna forskningsdata och öppna publikationer. Det finns flera faktorer, bland annat juridiska, som gör att man faktiskt inte kan göra forskningsdata öppen. Här märker jag i olika diskussioner att många tror att all forskningsdata skall vara öppen, så är inte fallet. Däremot skall man eftersträva att alla forskningsdata är FAIR. Tidigare var jag inne på att arbetet med datahanteringsplaner är av stor vikt, det arbetet måste fortsätta och utvecklas för att underlätta den administrativa bördan. Att arbeta med dessa måste upplevas smidigt och värdefullt, att det tillför ett mervärde för forskarna. Vikten av att lyckas med denna omställning är stor, i pengar från 100 miljarder kronor och uppåt, så berörda parter måste se sin roll och ta sitt ansvar för att det skall gå så smidigt som möjligt.

Daniel Gunnarsson

Civilekonom som arbetar som bibliotekarie med intresse för öppen vetenskap, vetenskaplig publicering samt forskningsdata.

Visa alla mina bloggposter

Detta är en bloggtext. Det är skribenten som står för åsikterna som förs fram i texten, inte Jönköping University.