Tutkimusaineistojen kiertotalous: Datapankin ja Datakatalogin kehitystyö | Helsingin yliopiston kirjasto

Tavoitteeseen päästäksemme loimme Helsingin yliopistossa Datapankin, jossa tutkimusdata voidaan säilyttää, sekä Datakatalogin, joka kuvailee ja tekee aineistot löydettäviksi. Edistämme tutkimusaineistojen kiertotaloutta tukemalla FAIR-periaatteiden (Findable, Accessible, Interoperable, Re-usable) toteutumista. Luomamme tietomalli noudattaa metadatastandardeja, mikä mahdollistaa koneellisen löydettävyyden. Aineistoille annetaan pysyvä DOI-tunniste, jotta niihin voidaan viitata luotettavasti. Lisäksi palveluprosessimme sisältää aineistojen kuratoinnin, mikä auttaa tutkijoita säilyttämään ja hyödyntämään arvokkaita tutkimusdatoja tehokkaasti. Aineistoja täytyy säilyttää myös kustantajien ja lainsäädännön vaatimuksesta.

Datapankki syntyi vastauksena tutkijoiden tarpeeseen

Datapankin kehitys alkoi keväällä 2022 tutkimusdatan tallennustarpeita kartoittaneen kyselyn pohjalta. Tutkijat toivoivat parempia ratkaisuja tutkimusprojektin jälkeiseen säilyttämiseen, mikä johti Helsingin yliopiston päätökseen panostaa pitkäaikaistallennukseen ja kuratointiin. Vuonna 2023 käynnistimme reilun vuoden kestäneen Tutkimusdatan pitkäaikaistallennus -projektin (TPAT), jonka puitteissa Helsingin yliopiston kirjasto, Tietotekniikkakeskus ja tutkimuspalvelut kehittivät uuden säilytyspalvelun. Tavoitteena oli paitsi tekninen ratkaisu, myös aineistojen kuratoinnin kehittäminen.

TPAT-projektista Datapankiksi

Keväällä 2024 Helsingin yliopiston tutkijoille avattiin Datapankki, joka mahdollistaa tutkimusdatan säilyttämisen 5-15 vuotta. Kehitimme palvelutilausten ja säilytyspäätösten hallinnointiin tilauslomakkeen sekä hallintatyökalun. Aineistojen kuvailutiedot (otsikko, abstrakti, kuvaus arvosta, jne) ovat keskeinen osa Datapankin kuratointia, sillä niiden perusteella tiedekuntien tutkimustoimikunnat tai erikseen nimetyt “datapankkitoimikunnat” päättävät säilytystilan myöntämisestä.

Datapankki tarjoaa ratkaisun suurten aineistojen säilytykseen 5–15 vuodeksi, vapauttaen datan aktiiviseen työstämiseen suunniteltua kalliimpaa säilytystilaa, kuten ryhmätallennustilaa, muuhun käyttöön. Datapankki mahdollistaa suurten datasettien avaamisen metatietojen avulla, vaikka suoraa latauslinkkiä ei ole. Tämä onkin toimivin tapa avata suuria aineistoja, joiden lataaminen verkon yli on hyvin hidasta. Koska Datapankilla ei ole julkista käyttöliittymää, sen rinnalle tarvittiin Datakatalogi, joka helpottaa aineistojen löytämistä ja pyytämistä käyttöön.

Datakatalogi – tutkimusdatan luettelo ja hakupalvelu

Datapankin tutkimusaineistojen hallintaan kehitettiin Datakatalogi, joka toimii Helsingin yliopistossa tuotettujen tutkimusdatojen metatietojen luettelona. Sen tavoitteena on tarjota kokonaiskuva yliopiston tutkimusdatasta sekä mahdollistaa aineistojen haku, selailu ja tutkimusdatan metatietojen tuottaminen. Datakatalogi kokoaa yhteen tietoja Helsingin yliopistolaisten tuottamista eri tallennusalustoilla sijaitsevista tutkimusaineistoista.

Datakatalogi on kuin kirjaston luettelo, joka auttaa löytämään ja hallinnoimaan tutkimusdataa. Se ei sisällä varsinaista tutkimuksen tuottamaa dataa, vaan niiden kuvailutiedot eli metatiedot. Näiden tietojen avulla käyttäjät voivat selvittää, mitä aineistoja on saatavilla ja missä ne sijaitsevat, mahdollistaen aineistojen jatkokäytön ja niihin viittaamisen.

Uusi palvelu tuttujen työkalujen pohjalta

Datakatalogin kehitystyö käynnistettiin heti Datapankin lanseerauksen jälkeen. Toisin kuin Datapankin tapauksessa, Datakatalogi rakennettiin Helsingin yliopiston kirjaston omana projektina ilman ulkopuolista teknistä yhteistyötä. Tietotekninen alusta valittiin olemassa olevista ohjelmistoista, vastaamaan yliopiston tarpeita, ja lopulta päädyttiin hyödyntämään DSpace-julkaisualustaa, joka oli jo käytössä mm. avoimessa julkaisuarkisto Heldassa. Olemassa olevan työkalun hyödyntäminen mahdollisti sujuvan kehityksen ja projektin jälkeen jatkuvan ylläpidon kirjaston omalla asiantuntijatiimillä.

Datakatalogin keskeinen ominaisuus on automaattinen metatietojen haravointi eri tietokannoista ja tutkimusdata-alustoilta. Tärkeimpiä haravointikohteita ovat datarepositoriot, kuten Zenodo, ETSIN ja DRYAD, sekä muut yliopistolaisten käyttämät tallennusratkaisut. Automatisoinnin ansiosta katalogi pystyy keräämään suuren määrän tutkimusaineistoja ilman manuaalista työtä.

Toinen tapa lisätä metatietoja katalogiin on käsinsyöttölomake, jonka avulla tutkijat voivat itse lisätä ja muokata tuottamiensa tutkimusaineistojen tietoja. Tämä on tärkeää erityisesti silloin, kun automaattinen haravointi ei ole mahdollista, esimerkiksi kun aineisto on tallennettu palveluun, joka ei sisällä tietoa aineistojen tekijöistä tai heidän kotiorganisaatiostansa.

Käyttäjätestaus ja tutkijakunnan osallistaminen tähtäävät käytön helppouteen

Datakatalogin käytettävyys oli keskeinen osa kehitysprosessia. Palvelun tuli olla intuitiivinen ja helposti käytettävä, riippumatta siitä, onko käyttäjä opiskelija, tutkija tai muu tiedeyhteisön jäsen. Käyttäjätestauksessa arvioitiin, miten tutkijat ja muut käyttäjät hahmottavat Datakatalogin toimintaperiaatteet, ja miten palvelun hakutoiminnot toimivat eri tieteenalojen näkökulmasta.

Osana kehitysprosessia haastateltiin kuuden tiedekunnan varadekaaneja, jotka vastasivat tutkimustoiminnasta omilla aloillaan. Keskusteluissa kävi ilmi, että tutkimusaineistojen kuvailun ja avaamisen käytännöt vaihtelevat merkittävästi tieteenaloittain. Esimerkiksi humanistisilla aloilla aineistot voivat koostua arkistolähteistä ja haastattelumateriaaleista, kun taas matemaattis-luonnontieteellisillä aloilla tietoaineistot liittyvät usein laajoihin mittausdatoihin tai laskennallisiin malleihin.

Tutkijoiden osallistaminen jatkui käyttäjätestauksilla, joissa Datakatalogia kokeiltiin sekä itsenäisesti että ohjatuissa testitilanteissa. 29 tutkijaa osallistui joko havainnoivaan testaukseen tai kyselylomakkeisiin perustuvaan arviointiin. Testauksen aikana ilmeni, että selailutoiminto ei toiminut odotetusti, ja se päätettiin poistaa lähes kokonaan. Sen sijaan panostettiin parempaan hakutoiminnallisuuteen, jotta käyttäjät löytäisivät helposti etsimänsä aineistot.

Yhteensopiva arkkitehtuuri ja tietomalli

Datakatalogin tietomalli suunniteltiin yhteensopivaksi kansallisten ja kansainvälisten tutkimusdatan standardien kanssa. Erityisesti otettiin huomioon CSC:n Metax -metatietovarannon käyttämä DCAT-standardi sekä DataCiten metatietomäärittelyt. Tämä mahdollistaa sen, että Datakatalogin sisältämät tiedot voidaan yhdistää laajempiin eurooppalaisiin ja kansainvälisiin tietovarantoihin, kuten OpenAIRE:n ylläpitämään tietokantaan.

Datakatalogin arkkitehtuuri rakennettiin haravoitavien datavarantojen, repositorioiden sekä näiden välisten integrointien ympärille. Esimerkiksi DataCite-integraatio mahdollistaa tutkimusdata-aineistojen pysyvien tunnisteiden (DOI) hyödyntämisen. Lisäksi Datakatalogin tietomalli on suunniteltu tukemaan mahdollisia laajennuksia, kuten sensitiivisen datan pääsynhallinnan ja aineistojen käyttöoikeuksien määrittelyn kehittämistä tulevaisuudessa.

FAIR-periaatteet ohjaavat jatkokehitystä

Datakatalogi edistää FAIR-periaatteita (Findable, Accessible, Interoperable, Reusable) tekemällä tutkimusdatan löydettäväksi ja viitattavaksi. Se tukee avoimen tieteen periaatteita tarjoamalla tutkijoille välineen aineistojensa hallintaan ja löydettävyyteen. Erityisesti pysyvät tunnisteet ja standardoitu metatietomalli tekevät tutkimusaineistojen viittaamisesta ja jatkokäytöstä helpompaa.

Tutkijat näkevät Datakatalogin hyödyllisyyden monilla tavoilla:

Se helpottaa tutkimusdataan viittaamista ja sen löydettävyyttä.
Se mahdollistaa aineistojen näkyvyyden, vaikka aineistoa ei voisi jakaa avoimesti.
Se tukee opetusta ja opinnäytetöiden aiheenvalintaa tarjoamalla yleiskuvan yliopistossa tuotetusta datasta.
Se luo uusia yhteistyömahdollisuuksia tutkimusryhmien ja tiedeyhteisön välillä.

Kehitystyö jatkuu Datakatalogin, Datapankin ja muiden tutkimusdatan hallinnan palveluiden osalta. Tavoitteena on parantaa palveluiden käyttäjäkokemusta ja FAIR-kelpoisuutta sekä vastata tutkijoiden uusiin tarpeisiin. Esimerkiksi sensitiivisen datan säilytyspalvelu ja tiedon avaamiseen keskittyvät ratkaisut ovat seuraavia kehityskohteita.

Samalla suunnitellaan tutkimusdatan hallinnan verkkosivu-uudistusta, jonka tavoitteena on helpottaa tutkijoiden pääsyä oikeisiin palveluihin. Yksi idea on luoda opastava lomake tai wizard, joka auttaa tutkijaa löytämään sopivimman datapalvelun hänen tarpeidensa mukaan.

Yliopisto tarjoaa ratkaisuja

Datakatalogi on keskeinen osa Helsingin yliopiston tutkimusdatan hallintaa. Se kokoaa yhteen tutkimusaineistojen metatiedot, tekee ne löydettäväksi ja tukee tiedon jatkokäyttöä. Kehitystyö on ollut tutkijalähtöistä, ja palvelu kehittyy edelleen vastaamaan yliopistoyhteisön tarpeita.

Yliopiston tehtävä on tarjota ratkaisuja ja edistää tieteellisen tiedon hyödyntämistä. Datakatalogi on askel kohti tehokkaampaa tutkimusdatan hallintaa ja avointa tiedettä.

Mari Elisa Kuusniemi
Matilda Mela
Mikko Mäkelä
Timo Lahtinen
Niina Nurmi
tietoasiantuntijoita kirjaston datatiimissä