UKK: Datakatalogi

Usein kysyttyjä kysymyksiä Helsingin yliopiston Datakatalogista, metadatasta ja tutkimusaineistojen säilyttämisestä.
Mitä kaikkea tutkimusdata voi olla?

Tutkimusdata voi sisältää muun muassa:

  • Raakadataa, joka koostuu kokeista, sensoreista tai haastatteluista saadusta käsittelemättömästä aineistosta.
  • Käsiteltyä dataa, joka on siistitty tai analysoitu.
  • Menetelmiä ja protokollia, jotka dokumentoivat, miten tiedot on kerätty ja käsitelty.

Helsingin yliopiston Datakatalogin yhteydessä termi ”tutkimusdata” sisältää kaikki edellä mainitut, mutta myös paljon muuta:

  • Koodi ja ohjelmistot, kuten analyysissä käytettävät skriptit ja ohjelmat.
  • Lähdeaineisto, jolla tarkoitetaan tutkimuksessa käytettyjä ulkoisia datasettejä.
  • Simulaatio- ja mallinnusdata, joka syntyy laskennallisista malleista ja simulaatioista.
  • Kuvat ja visualisoinnit, kuten lääketieteelliset skannaukset ja taulukot, lisäanalyysit.
  • Ääni- ja videoaineisto, johon kuuluvat haastattelut ja kenttätallenteet.
  • Kysely- ja haastatteluaineistot koostuvat vastauksista ja litteroinneista.
  • Taulukot ja tilastot pitävät sisällään numeerista tietoa.
  • Metatiedot, jotka sisältävät kuvailevia yksityiskohtia dataseteistä.
Miten Datakatalogissa olevaa tietoa voi hakea?

Datakatalogiin kuvaillut tutkimusaineistot ovat löydettävissä muun muassa Datakatalogin oman käyttöliittymän avulla, sekä hakukoneiden avulla. Lisäksi Datakatalogin tietoja viedään esimerkiksi Tiedejatutkimus.fi-sivustolle.  

  • Datakatalogi: Datakatalogin käyttöliittymää voi hyödyntää pikahauissa (vapaasanahaku) tai tutustumalla eri repositorioiden sisältöön. Selailutyyppisissä hauissa voi hyödyntää Datakatalogin repositoriorakennetta. Hakua voi myös tarkentaa käyttöliittymässä olevilla erilaisilla rajauksilla, kuten julkaisuvuoden, tekijän, aiheen tai aineiston saatavuuden mukaan. 
  • Hakukoneet: Datakatalogin tiedot löytyvät esimerkiksi Google-haulla. Siksi onkin tärkeää panostaa tutkimusaineistojen laadukkaaseen kuvailuun, sillä näin niiden löydettävyys myös paranee. 
Kuinka saan aineistoni näkyviin Datakatalogissa?

Ensisijaisesti suosittelemme julkaisemaan tutkimusaineiston sille sopivassa repositoriossa (lue lisää tutkimusaineistojen säilyttämisen UKK:n kohdasta: Missä voin avata aineistoni?). Jos kyseessä on repositorio, josta tuomme automaattisesti tietoa Datakatalogiin, ilmestyy aineistosi sinne seuraavan siirron yhteydessä. Muista vain laittaa affiliaatio- eli organisaatiotiedoksesi Helsingin yliopisto.

Jos kyseistä repositoriota ei harvestoida Datakatalogiin, tai aineistoa ei voi esimerkiksi sen arkaluonteisuuden tai liikesalaisuuksien vuoksi avata, voit antaa sen metatiedot Datakatalogiin oheisella lomakkeella.

Voinko kuvailla kertyvän aineiston Datakatalogiin?

Kyllä. Voit myös päivittää aineiston metatietoja tarpeen mukaan myöhemmin.

Voinko kuvailla laajemman aineistokokonaisuuden Datakatalogiin?

Aineiston kuvailussa on hyvä pyrkiä jakamaan aineisto mielekkäisiin kokonaisuuksiin. Mitä nämä sitten ovat on tietysti hyvin tapauskohtaista, mutta esimerkiksi yhteen tutkimusartikkeliin tai projektiin liittyvä data muodostaa usein selkeän kokonaisuuden. Aineistokokonaisuus voidaan muodostaa myös datatyypin mukaisesti, esimerkiksi yhden mittalaitteen tietyn ajanjakson aikana tuottama data. Mitä tarkemmin aineistokokonaisuuden eri osat ovat kuvailtu, sitä suurempi arvo niillä on lisääntyneen uudelleenkäytön ja löydettävyyden ansiosta. Aineistokokonaisuudet kuten esimerkiksi ”Tutkimusryhmämme kaikki data 2012–2015” eivät todennäköisesti ole kovinkaan käyttökelpoisia, mutta jos tämä on ainoa mahdollisuus kuvailla aineisto, on se tietenkin parempi kuin jättää aineistokokonaisuus kokonaan kuvailematta. 

Aineistoni sisältää arkaluonteista tietoa. Voinko julkaista siitä metatietoja Datakatalogissa?

Kyllä voit! Kun annat aineistollesi metatiedot Datakatalogiin, noudatat myös tutkimuksen rahoittajien vaatimusta FAIR-periaatteiden toteutumisesta. 

Vaikka metatiedot eivät sisällä itse dataa, kiinnitäthän huomiota siihen, ettet vahingossa paljasta arkaluonteisia tietoja aineiston kuvailussa. Jos esimerkiksi olet haastatellut ihmisiä kahdesta korkeakoulusta, joiden sijainti on aiheen sensitiivisyyden vuoksi anonymisoitu, ei sijaintia tule kertoa kuvailutiedoissakaan. Tällöin kuvailutiedoissa korkeakouluihin olisi hyvä viitata samoin kuin aineistoista tehdyssä julkaisuissa, esimerkiksi KK1 ja KK2. Jos sensitiivisen aineiston kuvailu mietityttää, kysy rohkeasti meiltä apua

Miksi Datakatalogissa ei ole filtteriä tiedekunnalle?

Osassa Datakatalogiin syötetyistä tietueista löytyy tieto aineiston tuottajan tiedekunnasta. Löydät tämän tiedon kentästä, johon on kirjattu avainsanoja. Klikkaamalla tiedekunnan nimeä, saat listan tietueista, joista löytyy tieto kyseisestä tiedekunnasta. Voit myös hakea tiedekunnan nimellä Datakatalogin hakutoiminnolla. 

Useimmat tutkimusdataa sisältävät palvelut eivät sisällä tietoa Helsingin yliopiston tiedekunnista. Suurin osa Datakatalogin sisällöstä tuodaan automaattisesti tällaisista tietolähteistä. Jos Datakatalogissa olisi tiedekunnalle filtteri, se pystyisi suodattamaan vain niiden tiedonlähteiden tiedot, joista tiedekuntatieto on saatavana. Tulos antaisi vain pienen osan tiedekunnan tuottamasta Datakatalogista löytyvästä tiedosta ja johtaisi näin käyttäjää harhaan. Tästä johtuen Datakatalogissa ei ole filtteriä tiedekunnalle.

Tuleeko Datakatalogista datalleni automaattisesti uusi DOI? Miten välttää turhat DOI?

Jos kuvailet tutkimusdatan käsin Datakatalogiin, saat sen kuvailutiedoille eli metadatalle oman DOI:n, vaikka itse datasetillä olisi jo olemassa oleva DOI. Datakatalogin antama DOI viittaa siis Datakatalogissa olevaan kuvailutietoon, eikä esimerkiksi repositoriossa julkaistuun dataan.  

Miksi Zenodoon tallentamani aineisto ei näy Datakatalogissa?

Aloitetaan yleisimmästä syystä: Laitoitko affiliaatioosi, eli organisaatiotietoosi, Helsingin yliopiston? Koska Zenodossa on julkaisuja lukuisista eri yliopistoista, tiedonsiirtomme on tämän tiedon varassa.

Jos affiliaatio-tieto on kunnossa (eikä siinä ole kirjoitusvirheitä!) kokeillaan seuraavaa: Tallensitko aineiston vastikään? Siirrämme tietoa Zenodosta tietyin aikavälein. Odota siis hetkinen. Jos aineistoa ei vieläkään näy Datakatalogissa, lähetä meille sähköpostia (datasupport@helsinki.fi).

Minua ei ole merkitty tekemäni aineiston tekijöihin, vaikka aineisto löytyy Datakatalogista. Mikä neuvoksi?

Ongelma voi johtua siitä, ettei aineiston metatietojen automaattinen haravointi eli tiedonsiirto repositoriosta ole täysin onnistunut. Ilmoitathan puutteesta meille (datasupport@helsinki.fi), niin korjaamme asian. Kerrothan viestissäsi mitä aineistoa ongelma koskee.

Olen pyytänyt aineistoa Datakatalogin “Request access” nappulan kautta mutta en ole kuullut mitään viikkoon. Kehen minun tulisi ottaa seuraavaksi yhteyttä?

Laita Datasupportiin (datasupport@helsinki.fi) viestiä. 

Voinko poistaa aineistoni kuvailutiedot Datakatalogista?

Lähtökohtaisesti Datakatalogista ei poisteta mitään, sillä tutkimusaineistojen metatietoja pyritään säilyttämään mahdollisimman pitkään. Metatietoja voi kuitenkin korjata. Ota tarvittaessa yhteys Datatukeen (datasupport@helsinki.fi). 

Voinko ehdottaa uutta datarepositoriota harvestoivaksi Datakatalogiin?

Kyllä voit! Voit ehdottaa sitä oheisella lomakkeella. Käymme läpi jokaisen ehdotuksen, mutta huomaathan, ettemme välttämättä pysty lisäämään suosikkirepositoriotasi Datakatalogiin. Kaikkien repositorioiden metadatastandardit eivät vastaa teknisiä vaatimuksiamme metadatalle. Niistä voi esimerkiksi puuttua tieto affiliaatiosta, jolloin emme pysty erottamaan Helsingin yliopistossa tuotettua dataa muualla tuotetusta datasta. 

Miksi aineistoni ei näy Tuhat-profiilisissani?

Tällä hetkellä tieto Datakatalogista ei siirry automaattisesti Tuhatiin eikä tietoa voi lisätä sinne itse. Selvitämme mahdollisuutta lisätä tiedon tutkimusdatasta Tuhat-profiiliin.  Suosittelemmekin lisäämään tiedon julkaisuista tutkimusdatoista ORCIDiin.