UKK: Metadata

Usein kysyttyjä kysymyksiä Helsingin yliopiston Datakatalogista, metadatasta ja tutkimusaineistojen säilyttämisestä.
Mitä tarkoittaa metatieto?

Metatiedot eli kuvailutiedot käsittävät nimensä mukaisesti tietoa tiedosta. Yleisiä metatietoja ovat esimerkiksi aineiston nimi, tekijät, syntyaika, käytetty datatyyppi, käytettyjen muuttujien selitykset tai aineiston avaamiseen mahdollisesti tarvittavat ohjelmistot. Metatiedot voidaan jakaa aineiston löydettävyyttä tukeviin ja ymmärrettävyyttä/uudelleenkäyttöä tukeviin metatietoihin Esimerkkejä löydettävyyttä tukevista metatiedoista ovat mm. tekijän nimi, tieteenala ja aineistoa kuvaavat avainsanat. Aineiston uudelleenkäyttöä tukevia metatietoja ovat puolestaan mm. käytettyjen muuttujien selitykset sekä tiedot siitä, kuinka aineisto on kerätty.  

Tutkimusdatan kattavat metatiedot ovat ensiarvoisen tärkeässä asemassa aineistojen uudelleenkäytön mahdollistajina. 

Millainen on hyvä otsikko tutkimusaineistolle?

Hyvä otsikko on selkeä, informatiivinen ja datan yksilöivä. Se antaa välittömästi käsityksen siitä, mitä data sisältää ja minkälaiseen tutkimukseen se liittyy. Tässä muutamia ehdotuksia hyvän otsikon kirjoittamiseen:

  1. Ole täsmällinen ja tarkka: Pyri kuvaamaan aineiston sisältö mahdollisimman tarkasti. Vältä yleisiä ja epämääräisiä ilmaisuja.
  2. Käytä avainsanoja: Sisällytä otsikkoon keskeiset termit tai avainsanat, jotka kuvaavat aineiston aihepiiriä ja voivat auttaa muita löytämään aineiston hakukoneiden kautta. 
  3. Mainitse ajanjakso ja maantieteellinen alue: Jos aineisto liittyy tiettyyn ajanjaksoon tai maantieteelliseen alueeseen, sisällytä nämä tiedot otsikkoon.
  4. Vältä lyhenteitä ja teknistä jargonia: Käytä termejä, jotka ovat ymmärrettäviä laajalle yleisölle, ellei aineisto ole tarkoitettu erityisen tekniselle tai asiantuntevalle yleisölle.
  5. Pidä otsikko tiiviinä: Pyri siihen, että otsikko on lyhyt ja ytimekäs, mutta kuitenkin tarpeeksi informatiivinen.

Näiden ohjeiden mukaisia otsikoita olisi esimerkiksi: 

  • Suomalaisten nuorten liikuntatottumukset 2020–2022
  • Koulutuksen vaikutus työllistymiseen: pitkittäistutkimus Suomessa 2010–2020
  • Ilmastonmuutoksen vaikutukset Grönlannin biodiversiteettiin 1990–2020

Vältä otsikoita, jotka eivät kerro juuri mitään itse datasta, kuten esimerkiksi ”Kaikki data vuoteen 2000 asti” tai ”E. coli mittaukset”.

Millainen on hyvä kuvaus / abstrakti tutkimusaineistolle?

Keskeiset asiat tutkimusdatan abstraktissa:

  1. Tutkimusaineiston sisältö
    • Mitä tutkimusdata käsittelee?
    • Keskeiset muuttujat, aiheet tai ilmiöt, joita data kattaa.
    • Aineiston koko ja rakenne (esim. määrällinen vs. laadullinen data, tiedostotyypit).
  2. Tutkimusmenetelmät ja aineistonkeruu
    • Miten aineisto on kerätty (esim. kyselyt, haastattelut, sensorit, mallinnukset)?
    • Aineiston ajallinen ja maantieteellinen kattavuus.
    • Käytetyt laitteet, ohjelmistot tai tietolähteet.
  3. Käyttötarkoitus ja merkitys
    • Miksi data on kerätty?
    • Millaisiin tutkimuskysymyksiin se voi vastata?
    • Mahdolliset rajoitteet tai erityishuomiot aineiston käyttöön.
  4. Datan muoto ja saavutettavuus
    • Missä muodossa data on saatavilla (esim. CSV, JSON, kuvadatat)?
    • Onko aineisto avoimesti saatavilla vai rajoitettu (esim. luvanvarainen pääsy)?
    • Viittaus alkuperäisiin lähteisiin ja mahdollisiin lisäresursseihin.
  5. Mahdolliset eettiset tai juridiset näkökulmat
    • Sisältääkö aineisto henkilötietoja tai arkaluontoista tietoa?
    • Onko data anonymisoitu?
    • Tarvitaanko käyttöön erityisiä lupia?

 

Olemme poimineet muutaman esimerkin tutkimusdatan kuvailusta aineistotyypeittäin. Voit katsoa niistä mallia, tai hyödyntää alla olevaa, tiivistä esimerkkiä.

 

Hyvä esimerkki tutkimusdatan abstraktista:

Tämä datasetti sisältää vuonna 2023 kerättyjä ilmansaastemittauksia Helsingissä. Aineisto koostuu PM2.5- ja PM10-hiukkaspitoisuuksista, jotka on mitattu 15 eri mittausasemalla tunnin välein ajalla 1.1.–31.12.2023. Mittausdata on kerätty pääkaupunkiseudun ilmanlaadun mittausverkoston sensorilaitteilla, ja se on saatavilla CSV- ja JSON-muodoissa. Aineistoa voidaan hyödyntää ilmanlaadun kehityksen analysointiin sekä kaupunkisuunnittelussa. Datan käyttö on avointa, mutta viittaus alkuperäiseen lähteeseen on pakollista.

Millainen on hyvä README-tiedosto?

Hyvästä README-tiedostosta selviää jatkokäytön kannalta keskeiset tiedot. Olemme tehneet kuvitteellisen aineiston pohjalta mallin README-tiedostosta. Voit ladata ja muokata sitä omaan käyttöösi sopivaksi. Huomaathan kuitenkin, että malli on tehty yhdentyyppisellä datalla, ja muun tyyppisille tutkimusaineistoille sitä voi joutua täydentämään. Täydennettäviä tietoja voivat esimerkiksi olla tiedostojen avaamisessa mahdollisesti tarvitut ohjelmistot, keruumenetelmä ja -väline, havaintojen ja muuttujien lukumäärä, käytetyn mittausinstrumentin tyyppi ja valmistaja. 

Mitä provenienssi on?

Provenienssilla tarkotetaan aineiston synty- ja muutoshistoriaa. Provenienssitietoihin tulisi merkitä tieto esimerkiksi aineiston muokkaamisesta, korjaamisesta jakamisesta osiin tai aineiston yhdistämisestä muihin aineistokokonaisuuksiin.

Provenienssitietoihin voi sisältyä esimerkiksi seuraavia tietoja:

Datan luominen ja lähdetiedot

Alkuperä: 

  • Kuka on luonut tai kerännyt tiedot? (esim. tutkija, laitos, automaatiojärjestelmä)
  • Keruupäivä ja -aika: Milloin tiedot kerättiin/tuotettiin?
  • Tietolähteet: Jos tietokokonaisuus on peräisin muista lähteistä, luetellaan ne viittauksineen.

Tietojen käsittely ja muuntaminen

  • Käsittelyvaiheet: Mitä muutoksia, siivousta tai muunnoksia tehtiin?
  • Ohjelmistot ja työkalut: Kaikki tietojen käsittelyssä käytetyt työkalut, skriptit tai ohjelmistot (mukaan lukien versiot).
  • Välivaiheen data: Kuvaile tarvittaessa ennen lopullista versiota luodut datasetit.

Datan tuottajat ja roolit

  • Roolit ja vastuut: Määrittele osuudet, esim. kuka kuratoi, analysoi tai julkaisi tiedot.

Datan muutokset

  • Versionumero: Yksilöi tietokokonaisuuden versio (esim. v1.0, v2.1).
  • Muutoshistoria: Dokumentoi datasettiin tehdyt muutokset, korjaukset tai päivitykset.
  • Muutosten aikaleimat: Milloin päivitykset tehtiin?
Mitä tarkoittaa rajoitettu saatavuus?

Tutkimusdatan rajoitettu saatavuus (restricted access) tarkoittaa, että kyseinen aineisto ei ole vapaasti kaikkien saatavilla, esimerkiksi ladattavissa suoraan tallennuspalvelusta, vaan siihen tulee pyytää pääsyä. Tällaisten aineistojen käyttöön ja jakamiseen liittyy yleensä rajoituksia. Näitä rajoituksia voidaan asettaa useista syistä, kuten:

  1. Tietosuoja: Jos data sisältää henkilöistä peräisin olevia tai arkaluontoisia tietoja, sen saatavuutta tulee rajoittaa tutkittavien yksityisyyden suojelemiseksi.
  2. Eettiset syyt: Tutkimusdatan saatavuutta voidaan rajoittaa myös datan sisältämien muiden arkaluonteisten tekijöiden takia. Tällaisia ovat esimerkiksi bioturvallisuuteen tai uhanalaisten eliölajien esiintymistietoon liittyvät rajoitukset.
  3. Sopimusoikeudelliset tai kaupalliset intressit: Datan saatavuutta voidaan jossain tilanteissa rajoittaa myös sopimuksin. Usein tämä liittyy datan kaupalliseen arvoon.

Rajoitettu saatavuus ei automaattisesti tarkoita, että data ei voi missään olosuhteissa saada käyttöön. Se tarkoittaa vain, että pääsyä aineistoon tulee pyytää. Yleensä repositorioilla on tähän suoraviivainen prosessi, jonka osana kerrotaan, miksi dataa pyydetään ja mihin sitä tullaan käyttämään.