Metatiedot eli kuvailutiedot käsittävät nimensä mukaisesti tietoa tiedosta. Yleisiä metatietoja ovat esimerkiksi aineiston nimi, tekijät, syntyaika, käytetty datatyyppi, käytettyjen muuttujien selitykset tai aineiston avaamiseen mahdollisesti tarvittavat ohjelmistot. Metatiedot voidaan jakaa aineiston löydettävyyttä tukeviin ja ymmärrettävyyttä/uudelleenkäyttöä tukeviin metatietoihin Esimerkkejä löydettävyyttä tukevista metatiedoista ovat mm. tekijän nimi, tieteenala ja aineistoa kuvaavat avainsanat. Aineiston uudelleenkäyttöä tukevia metatietoja ovat puolestaan mm. käytettyjen muuttujien selitykset sekä tiedot siitä, kuinka aineisto on kerätty.
Tutkimusdatan kattavat metatiedot ovat ensiarvoisen tärkeässä asemassa aineistojen uudelleenkäytön mahdollistajina.
Hyvä otsikko on selkeä, informatiivinen ja datan yksilöivä. Se antaa välittömästi käsityksen siitä, mitä data sisältää ja minkälaiseen tutkimukseen se liittyy. Tässä muutamia ehdotuksia hyvän otsikon kirjoittamiseen:
Näiden ohjeiden mukaisia otsikoita olisi esimerkiksi:
Vältä otsikoita, jotka eivät kerro juuri mitään itse datasta, kuten esimerkiksi ”Kaikki data vuoteen 2000 asti” tai ”E. coli mittaukset”.
Keskeiset asiat tutkimusdatan abstraktissa:
Olemme poimineet muutaman esimerkin tutkimusdatan kuvailusta aineistotyypeittäin. Voit katsoa niistä mallia, tai hyödyntää alla olevaa, tiivistä esimerkkiä.
Hyvä esimerkki tutkimusdatan abstraktista:
Tämä datasetti sisältää vuonna 2023 kerättyjä ilmansaastemittauksia Helsingissä. Aineisto koostuu PM2.5- ja PM10-hiukkaspitoisuuksista, jotka on mitattu 15 eri mittausasemalla tunnin välein ajalla 1.1.–31.12.2023. Mittausdata on kerätty pääkaupunkiseudun ilmanlaadun mittausverkoston sensorilaitteilla, ja se on saatavilla CSV- ja JSON-muodoissa. Aineistoa voidaan hyödyntää ilmanlaadun kehityksen analysointiin sekä kaupunkisuunnittelussa. Datan käyttö on avointa, mutta viittaus alkuperäiseen lähteeseen on pakollista.
Hyvästä README-tiedostosta selviää jatkokäytön kannalta keskeiset tiedot. Olemme tehneet kuvitteellisen aineiston pohjalta mallin README-tiedostosta. Voit ladata ja muokata sitä omaan käyttöösi sopivaksi. Huomaathan kuitenkin, että malli on tehty yhdentyyppisellä datalla, ja muun tyyppisille tutkimusaineistoille sitä voi joutua täydentämään. Täydennettäviä tietoja voivat esimerkiksi olla tiedostojen avaamisessa mahdollisesti tarvitut ohjelmistot, keruumenetelmä ja -väline, havaintojen ja muuttujien lukumäärä, käytetyn mittausinstrumentin tyyppi ja valmistaja.
Provenienssilla tarkotetaan aineiston synty- ja muutoshistoriaa. Provenienssitietoihin tulisi merkitä tieto esimerkiksi aineiston muokkaamisesta, korjaamisesta jakamisesta osiin tai aineiston yhdistämisestä muihin aineistokokonaisuuksiin.
Provenienssitietoihin voi sisältyä esimerkiksi seuraavia tietoja:
Datan luominen ja lähdetiedot
Alkuperä:
Tietojen käsittely ja muuntaminen
Datan tuottajat ja roolit
Datan muutokset
Tutkimusdatan rajoitettu saatavuus (restricted access) tarkoittaa, että kyseinen aineisto ei ole vapaasti kaikkien saatavilla, esimerkiksi ladattavissa suoraan tallennuspalvelusta, vaan siihen tulee pyytää pääsyä. Tällaisten aineistojen käyttöön ja jakamiseen liittyy yleensä rajoituksia. Näitä rajoituksia voidaan asettaa useista syistä, kuten:
Rajoitettu saatavuus ei automaattisesti tarkoita, että data ei voi missään olosuhteissa saada käyttöön. Se tarkoittaa vain, että pääsyä aineistoon tulee pyytää. Yleensä repositorioilla on tähän suoraviivainen prosessi, jonka osana kerrotaan, miksi dataa pyydetään ja mihin sitä tullaan käyttämään.