Vodič za raziskovalce - raziskovalni podatki v odprtem dostopu //
Odprta znanost vključuje odprto deljenje vseh rezultatov raziskovalnega dela, vključno z raziskovalnimi podatki.
Eden glavnih argumentov za odprto oz. javno deljenje rezultatov raziskovalnega dela je dejstvo, da je velik delež znanstvenih raziskav financiran iz javnih sredstev.

2 KAJ SO RAZISKOVALNI PODATKI?
Vse, kar je bilo uporabljeno ali ustvarjeno med raziskovalnim procesom in podpira oz. potrjuje izsledke raziskave. Običajno nastopajo v obliki zbirke datotek, ki nastanejo med raziskovalnim projektom / raziskavo (preglednice, dokumenti, slike, videi ali avdiodatoteke idr.); lahko pa se pojavijo tudi v ne-digitalni obliki (laboratorijski zvezki, dnevniki idr.).
3 KAKO POTEKA PROCES UPRAVLJANJA Z RAZISKOVALNIMI PODATKI?
1. Načrt in oblikovanje

2. Zbiranje podatkov

3. Analiza podatkov

4. Ponovna uporaba in citiranje

5. Deljenje in objava

6. Upravljanje in hramba

4 IZDELAVA NAČRTA IN VPRAŠANJA
   
  • Pred raziskavo.
     
  • Z letom 2021 postal obvezen pri ravnanju z RP.
     
  • Oddati ga je potrebno v pogodbenem roku, običajno v roku 6 mesecev od podpisa pogodbe.
     
  • Sestoji iz vprašanj (gl. zavihek 4.2), na katera se smiselno odgovori v skladu s pričakovanim načinom raziskave.
     
  • Uporabimo lahko različna orodja za načrtovanje dela z raziskovalnimi podatki (FAIR Assesment Tool, Fair Aware).

V načrtu je opredeljeno:
  • Kateri podatki se bodo zbirali ali ustvarjali?
  • Kako se bodo podatki zbirali ali ustvarjali?
  • Katera dokumentacija in metapodatki bodo priloženi podatkom?
  • Kako boste poskrbeli za etično in pravno skladnost?
  • Kako boste reševali vprašanja avtorskih pravic in pravic intelektualne lastnine?
  • Kako se bodo podatki med raziskavo hranili in varnostno kopirali?
  • Kako boste upravljali dostop in varnost podatkov?
  • Kakšen je dolgoročni načrt hranjenja nabora podatkov?
  • Kako boste delili podatke?
  • Kdo bo odgovoren za upravljanje podatkov?
  • Kakšna sredstva boste potrebovali za izvedbo svojega načrta?
  • in zagotavlja, da načrt ravnanja upošteva zahteve raziskovalnega področja in krovnih ter institucionalnih politik.
5 ZBIRANJE IN ANALIZA RAZISKOVALNIH PODATKOV
Pri zbiranju in analizi RP moramo upoštevati naslednje značilnosti:
  • različni pristopi (kvalitativni, kvantitativni);
  • različen obseg datotek;
  • različno financiranje (javno, komercialno);
  • različne omejitve (upoštevanje etičnih, pravnih in pogodbenih omejitev);
  • osebni in občutljivi podatki morajo biti zaščiteni;
  • zaščita avtorskih pravic: RP morajo biti zaščiteni pred nepooblaščeno uporabo.
6 PRIPRAVA RAZISKOVALNIH PODATKOV ZA PONOVNO UPORABO
   
Podatki morajo biti opisani z izčrpnimi metapodatki, ki ustrezajo standardom relevantnega področja in ki vključujejo trajne identifikatorje, podprte s standardiziranim komunikacijskim protokolom (metapodatki so dostopni tudi, ko podatki niso več na voljo). Omogočajo tudi citiranje in so strojno berljivi (npr: trajni identifikator DOI, datum objave, naslov, avtor, opis, ključne besede, licenca itd.).
Uporabijo se lahko:
  • splošni metapodatkovni standardi (npr. Dublin Core)
  • ali domensko specifični (npr. DDI)
Direktoriji metapodatkovnih standardov in domenskih politik:
Dodatna dokumentacija uporabnikom naših podatkov pomaga pri razumevanju in ponovni uporabi podatkov.
Primeri dodatne dokumentacije:
  • laboratorijski dnevniki in opisi protokolov
  • vprašalniki
  • šifranti, definicije spremenljivk, podatkovni slovarji
  • merske enote
  • ontologije, kontrolirani slovarji
  • sintakse programskega jezika in izhodne datoteke programske opreme
  • informacije o nastavitvah opreme in kalibraciji instrumenta
  • shema baze podatkov, opis strukture direktorija datotek, struktura poimenovanj
  • poročila o metodologiji
  • informacije o analizi in postopkih
  • informacije o izvoru pridobljenih ali digitaliziranih podatkov
  • programska koda – razmislek ali jo je potrebno hraniti za reproducibilnost podatkov?

• Podatkom in metapodatkom je treba dodeliti ustrezno licenco (praviloma pri ravnanju z raziskovalnimi podatki uporabljamo odprte licence, kot so npr. licence Creative Commons).

• Podatkom praviloma dodelimo licenco CC BY, metapodatkom pa CC0.


• Uporaba po meri ustvarjenih licenc za licenciranje odprtih raziskovalnih podatkov in metapodatkov je odsvetovana.

• Večina repozitorijev že daje na voljo privzete oblike citatov v enem ali več citatnih slogih.
• Če boste svoje podatke odložili v repozitorij, ki ne ponuja citatnega sloga, ki ga potrebujete, si lahko pri citiranju pomagate s spletno stranjo Cite This for Me.

Raziskovalne podatke je mogoče v skladu s Tipologijo dokumentov/del za vodenje bibliografij v sistemu COBISS vpisati pod rubriko 2.20 Zaključena znanstvena zbirka raziskovalnih podatkov.
7 DELJENJE IN OBJAVA RAZISKOVALNIH PODATKOV
Raziskovalne podatke moramo pred deljenjem primerno oblikovati, da jih bodo drugi raziskovalci lahko razumeli in ponovno uporabili. Raziskovalni podatki bodo v repozitorijih objavljeni brez spremljevalnega konteksta, zato je potrebno toliko več pozornosti posvetiti primernemu poimenovanju datotek, hierarhiji datotečnih map ter metapodatkom (ki so lahko opisani v datotekah PreberiMe ali v podatkovnih člankih). Pozorni moramo biti tudi na datotečne formate, saj so za ponovno deljenje primerni le nekateri.
8 DATOTEKE
   
  • poimenovanje datotek naj bo konsistentno,
  • imena datotek naj bodo kratka (idealno <25 znakov, vsekakor pa <40),
  • izogibajte se uporabi presledkov, pik, poševnic in posebnih znakov (npr. & in %),
  • za izboljšanje berljivosti in ločevanje posameznih elementov imena uporabljajte velike začetnice, podčrtaje in vezaje,
  • datume zapišite v formatu ISO 8601: LLLLMMDD (L = leto, M = mesec, D = dan),
  • v ime vključite različico datoteke,
  • zaporedje elementov imena naj bo takšno, da je datoteke mogoče sortirati po datumu nastanka, zaporedni oznaki ali različici.
  • datum nastanka datoteke (če zapišete datum na začetku imena, bo to olajšalo sortiranje datotek),
  • ime ali številka projekta,
  • ime avtorja/-ice,
  • kratek opis vsebine datoteke,
  • številka vzorca,
  • tip analize,
  • različica datoteke.
Sortiranje datotek po mapah ter organizacija map v hierarhično oz. drevesno strukturo pomagata k boljši preglednosti vsebine. Priporočljivo je, da hierarhija nima več kot štirih nivojev in naj vsaka mapa ne vsebuje več kot 10 datotek. Posamezni nivoji naj odražajo najbolj smiselno klasifikacijo datotek, npr. po eksperimentih, datumih, lokacijah, tipih analiz, tipih datotek …
9 DATOTEČNI FORMATI
   
  • rtf (Rich Text Format),
  • .pdf (PDF/UA, PDF/A ali PDF),
  • .htm (HTML),
  • .odt (OpenDocument Text),
  • .rmd (datoteke R Markdown, tudi v obliki HTML)
  • .txt (neoblikovano besedilo),
  • pogosto uporabljeni formati: .doc/.docx (Microsoft Word), .xls/.xlsx (Microsoft Excel),
  • .xml (XML označevalno besedilo v skladu s primerno definicijo tipa dokumenta (document type definition, DTD) ali shemo, npr. XHMTL 1.0).
  • csv (comma-separated values oz. vrednosti, ločene z vejico),
  • .tab (tab-delimited file oz. datoteka, razmejena s tabulatorji),
  • razmejeno besedilo z definicijskimi trditvami o podatkih v jeziku SQL.
  • .txt (besedilo, razmejeno z znaki, ki niso del podatkov)
  • pogosto uporabljeni formati: Microsoft Excel (.xls/.xlsx), Microsoft Access (.mdb/.accdb), dBase (.dbf), preglednice v formatu OpenDocument (.ods).
  • lastniški formati programske opreme za statistično obdelavo podatkov, npr. .sav (SPSS), .dta (Stata), .sas7bdat (SAS) itd.
  • datoteke z razmejenim tekstom in ukazi (“setup”) programov SPSS, Stata, SAS itd.
  • strukturirano besedilo ali strukturirane metapodatkovne oznake, npr. v formatu DDI XML. Sprejemljiva formata sta tudi .por (SPSS prenosni format) in .mdb/.accdb (Microsoft Access).
  • za grafe, ki jih izvozite kot slike, veljajo enaka pravila glede datotečnih formatov kot za fotografije.
  • tif (nestisnjen TIFF 6.0),
  • .dcm, .dcm30 (Digital Imaging and Communications in Medicine – DICOM) za podatke računalniške tomografije (CT) in magnetne resonance (MRI),
  • JPEG (.jpeg, .jpg), če je bil v tem formatu ustvarjen izvirnik,
  • BMP (.bmp), če je bil v tem formatu ustvarjen izvirnik,
  • PNG (.png), če je bil v tem formatu ustvarjen izvirnik,
  • drugi tipi formata TIFF (.tif, .tiff),
  • slikovni format RAW (.raw),
  • datoteke programa Photoshop (.psd),
  • Adobe Portable Document Format – PDF/A, PDF (.pdf).
Za vektorske risbe UK Data Service priporoča format .dwg programske opreme CAD, sprejemljivi formati pa so .dxf, .svg (CAD), .ai (Adobe Illustrator) in binarni formati CAD paketov.
  • mp4 (MPEG-4),
  • .ogv, .ogg (OGG video),
  • .mj2 (motion JPEG 2000).
  • .mov (MOV),
  • .wmv (Windows Media Video),
  • .webm (WebM).
Priporočljivo je, da zvok delite v formatu .flac (Free Lossless Audio Codec). Sprejemljivi formati so še:
  • .mp3 (MPEG-1 Audio Layer 3), če je bil v tem formatu ustvarjen izvirnik,
  • .aif (Audio Interchange File Format),
  • .wav (Waveform Audio Format).
Splošna priporočila navajajo, da je računalniško kodo najbolje naložiti v namenski spletni repozitorij, ki bo zagotovil nadzor različic, pregled kode, odkrivanje hroščev, dokumentacijo, podporo uporabnikom in druge zmogljivosti. Med najbolj priljubljenimi repozitoriji so GitHub, Bitbucket in GitLab. Različice kode, ki podpirajo raziskovalne rezultate, naj se izvozijo iz repozitorija in arhivirajo v zaupanja vrednem javnem podatkovnem repozitoriju. S tem bo specifični različici kode, s katero so bili ustvarjeni ali analizirani raziskovalni podatki, pripisan DOI, po katerem jo bo mogoče citirati. GitHub npr. že omogoča enostavno funkcijo za arhiviranje računalniške kode v repozitoriju Zenodo. Arhivirano kodo je priporočljivo opremiti tudi z odprtimi licencami, s katerimi postavite pogoje ponovne uporabe.
10 HRAMBA RAZISKOVALNIH PODATKOV
Naraščajoč obseg in razpoložljivost spletnih virov zahtevata, da so raziskovalni podatki že od nastanka namenjeni dolgotrajnosti. S tem namenom so leta 2016 izšla načela FAIR za upravljanje raziskovalnih podatkov The FAIR Guiding Principles for scientific data management and stewardship:

 
  • Findability (najdljivost): strojno berljivi zapisi, unikatni trajni identifikatorji (DOI, PID, URN..) objava v viru, kjer je omogočeno iskanje.
  • Accesibility (dostopnost): enostavna avtentikacija in avtorizacija, jasni protokoli za poizvedovanje ali kopiranje podatkov.
  • Interoperability (interoperabilnost): podatki so strojno berljivi, vključujejo metapodatke in podatke, standardizirane slovarje / geslovnike in so povezani z drugimi viri.
  • Reusability (ponovna uporaba): podatki so dobro predstavljeni in tako uporabni za nove raziskave (dobro predstavljen izvor, provenienca).
11 REPOZITORIJI
Raziskovalni podatki morajo biti objavljeni v zaupanja vrednem repozitoriju, relevantnem za področje raziskave. Zaupanja vredni repozitoriji:
  • priporočeni repozitoriji z oznako CORE TRUST SEAL (pri nas Arhiv družboslovnih podatkov),
 
  • iskalnik zaupanja vrednih repozitorijev za RP (re3data.org).
   
  • so prva izbira za vaše podatke, če na vašem raziskovalnem področju obstajajo;
  • zagotovitev, da bodo vaši podatki hranjeni med sorodnimi podatki drugih raziskovalcev in tako lažje najdljivi;
  • zaradi dobro uveljavljenih kriterijev poročanja o procesu raziskav tudi RP kar najbolj ponovno uporabni za druge zainteresirane osebe.

V Sloveniji trenutno delujeta dva področno specifična repozitorija: 
  • Arhiv družboslovnih podatkov (osredotoča se na podatke, povezane s slovensko družbo ali sicer pomembne za slovensko družbo in družboslovje ne glede na geografske meje)


     
  • in CLARIN.SI, slovensko vozlišče mednarodne mreže jezikoslovnih repozitorijev.
Služijo raziskovalnim organizacijam, ki so jih ustanovile. Večina slovenskih institucionalnih repozitorijev je bila ustanovljena z namenom digitalizacije univerzitetnih zaključnih del, ki se ji je kasneje pridružila hramba odprto dostopnih različic znanstvenih publikacij, v zadnjem času pa se vzpostavlja tudi infrastruktura za hrambo raziskovalnih podatkov. Slovenski institucionalni repozitoriji so: 

Najbolj uveljavljeni splošni repozitoriji so:
Izpostavljene knjige

Managing and sharing research data : a guide to good practice (Corti Louise, Van den Eynden Veerle, Bishop Libby, Woollard Matthew, 2014)

Postavitev: 001 MANAGING and sharing


Priprava raziskovalnih podatkov za odprti dostop: priročnik za raziskovalce (Štebe Janez, Bezjak Sonja, Vipavc Brvar Irena, 2015)

E - dostop
 
Kontakt
Avtorica vodiča:
dr. Ksenija Rivo