Havaintojen yhdistämistoiminto?

Tätä asiaa olen aiemminkin peräänkuuluttanut.

Ongelmasta on hyvin kattava selvitys Facebook puolella, joten en kirjoita sitä uudestaan tänne. tutustukaa siihen, olisi hyvä saada yhditämistoiminto käyttöön.

Tuo on yksityinen ryhmä, mutta pyysin pääsyä mukaan, jotta pääsisin lukemaan mistä on kyse…

Mikko / Lajitietokeskus

Sitä odotellessa lyhyt yhteenveto:

Laji.fi sisältää paljon vanhoja havaintoja, jotka ovat peräisin monesta tietolähteestä. Johtuen useista ilmoittajista ja eri tietolähteistä, monet havainnot ovat tietokannassa moneen kertaan joko samoin tai hieman eri tiedoin. Tämä vääristää tietoja etenkin harvinaisemmissa, mutta runsasta mielenkiintoa herättävissä lajeissa. Tällöin olisi hienoa, jos havaintoja voitaisiin yhdistää ns. koontihavainnoiksi siten, ettei alkuperäiset näkyisi listalla, vaan löytyisivät ainoastaan asiantuntijaharrastajien muodostamista koontihavainnoista (vrt. Tiira-havaintojärjestelmä). En tiedä, onko tällainen rakenne mahdollista muodostaa nykyisen Laji.fi:n päälle, mutta siitä olisi hyötyä muutenkin; esim. lintuhavainnoissa, joissa runsas harrastajaporukka käy katsomassa (bongaamassa) samaa lajia, mutta he tallentavat siitä erilliset omat havaintonsa.

Nyt esimerkkeinä olivat mm. pääkallokiitäjä (todella hurja määrä havaintoja ympäri maan, osin kertautuneina) ja oleanterikiitäjä (esim. eräs ilmoittaja on tehnyt 6 erillistä ilmoitusta Löydös-lomakkeella). Harmillisesti, kokeneet harrastajat osin kyseenalaistavat koko tietokannan käyttökelpoisuuden tällaisten räikeiden esimerkkien vuoksi.

2 tykkäystä

Kiitos asian tuomisesta esille - vaikka tämä onkin tiedossa oleva asia, auttaa erilaisten ongelmatapausten kuvailu niiden ratkaisemisessa.

Duplikaatteja tulee jatkossa olemaan enemmänkin, kun erilaisten tietokantojen tietoja yhdistetään Lajitietokeskuksen tietovarastoon. (Esim. harrastajan keräämä näyte Hyönteistietokannassa/Vihkossa, näyte talletettu museoon ja siellä Kotka-järjestelmään, tieto kirjattu lajityöryhmän tietokantaan, ja vieläpä toimitettu Herttaan/LajiGIS:iin.)

Tulevaan uuteen annotointijärjestelmään tullee jossain vaiheessa toiminto duplikaattien merkitsemiseksi, mutta näillä datamäärillä käsityönä tehtävä yhdistäminen ei pitkälle auta. Ratkaisuksi on pohdittu automaattista klusterointia (samankaltaisten havaintojen ryhmittelyä), mutta miten tämä toteutettaisiin on vielä auki. Myös GBIF:lla on sama ongelma, ja klusterointia suunnitellaan sielläkin.

Ensin kuitenkin keskitytään saamaan piilossa olevat datavarannot näkyville ja käytettäväksi, sitten miten niitä saadaan harmonisoitua/deduplikoitua/korjattua paremmin. Lajitietokeskuksen päätavoite on saada data liikkumaan, ja antaa käyttäjille valta valita mitä osaa siitä käyttävät.

Havaintoja voi myös suodattaa niiden laatuluokituksen perusteella, joten jos on kiinnostunut vain tarkistetuista havainnoista, se onnistuu.

Tällä hetkellä havaintoja voi suodattaa esim. näin:

Uuden annotointijärjestelmön myötä tähänkin tulee lisää valinnanvaihtoehtoja ja toivottavasti selkeyttä. Myös automaattisia validointeja on suunnitteilla.

Tämän voisi ilmaista myös näin: Laji.fi on neutraali tiedon välittäjä eikä toimi portinvartijana. Valta on sinulla, voit itse valita mitä osaa tiedosta käytät. Kukaan ei päätä puolestasi mitkä havainnot ovat sinulle riittävän varmoja tai yksilöllisiä.

Mikko / Lajitietokeskus

PS. Suurperhosatlaksen datan laaduttomuudesta on tullut niin paljon krittiikiä, että kyselen sen vastuuhenkilöiltä mitä sen kanssa kannattaa tehdä. Yksi vaihtoehtoina on luokitella se alimmalle laatutasolle.

toi klusterointi ja laatuluokittelu ovat hyviä vaihtoehtoja.
Aihe lienee myös muilla akuutti. En tiedä miten muuta alan ryhmittymät maailmalla ovat aiheen taklanneet.

Atlaksen laatuluokittelu voi olla hyvinkin alhainen, se yksi tähti on kait minimi - sopisi hyvin. Aineistolla ja sen jäljitettävyyden puuttumisella kun ei ole niin kovin hyvää arvoa.

Onko jotain luokittelustandardia aineistolle olemassa, minkä mukaan luokitukset määräytyvät?

Muistan ton oleanterikiitäjä tapauksen, silloin kun kaveri ilmoitti havainnon. Silloisessa foorumissa sitä käsiteltiin, ja pyydettiin hänen poistamaan tuplailmoitukset. Ei osannut tai viitsinyt sitä tehdä. Nyt on 6 eri ilmoitusta kahdesta Sipoon saaresta, kun paikkakaan ei oikein osunut samaan. Kirjoitettu teksti kuvaa parhaiten sen oikean paikan. Kehoituksista huolimatta nämä havainnot ovat edelleen tuolla, kun sivullinen ei voi tehdä toisen ilmoituksille mitään. Klusterointi olisi apu tähän.

S

1 tykkäys

Ongelma oleanterikiitäjän havainnoissa on se, että ne on tallennettu Löydös-palvelun kautta. Se ei vaadi kirjautumista, vaan havainnot luodaan kertaluontoisina, joten niitä ei voi myöskään muokata, kun niitä ei voi liittää omaan profiiliin (ainakaan itse, ellei sitten ylläpito saa sitä tehtyä). Siten hän on tehnyt joka kerran uuden havainnon, kun on keksinyt siihen jotain korjattavaa.