Lajitietokeskuksen jatkokehityksestä

Irrotin tämän asian tuolta toisesta ketjusta, kun katosi viestitulvan alle. Kyse siis ominaisuuksista, joiden kehityksestä on mainostettu, mutteivät näy seuraavien listoilla olevien kehityskohteiden alla:

Onko mitään tietoa automaattisen “annotoinnin”/validoinnin kehityksestä? Siis ominaisuus, jossa jo syöttövaiheessa lomake ilmoittaisi, jos jokin tieto on epänormaali esim. ajankohdan tai paikan suhteen (suodattimilla) tai että saisi helposti haettua tarkastettaviksi “liputetut” havainnot. Siitä ei mainittu tuolla nykyisissä eikä tulevissa sanallakaan, vaikka se oli vielä jokin aika sitten listoilla.

Entä seuraavien itseäni kiinnostavien ominaisuuksien tilanne:

  1. havaintoerän massamuokkausmahdollisuus (esim. kopioi-toiminnolla vahingossa kymmenille riveille kopioituneen väärän elinvaiheen korjaus)
  2. tuplahavaintojen (moninkertaisten havaintojen) yhdistelymahdollisuus siten, että niille luodaan “säilö” tms., joka näkyy yhtenä, mutta sen sisältämiä havaintoja ei muokattaisi
  3. muitakin on; kiireessä eivät tule mieleen

Uusi idea:

  • puuttuvien lajien lista joltain alueelta (mitkä perhoslajit on ilmoittamatta Oulusta/kilometriruudusta/eliömaakunnasta tms.), mikä voisi ohjata retkeilyä tavoitteellisempaan suuntaan
  • ideaalitilanteessa se vieläpä kertoisi lajit, jotka on havaittu jostain naapurieliömaakunnasta, muttei omasta tai lajit, jotka puuttuu ko. alueelta, mutta on havaittu x km sisällä alueesta tai alueen summittaisesta keskipisteestä (tämän osalta en pidätä hengitystäni)

Kaikki nämä ovat toivelistalla, mutta eivät “lähiaikoina” toteutettavien joukossa. Usein projektien (= ollaan saatu ulkoista rahoitusta ja sitä vastaan luvattu tehdä jotakin) vaatimukset menevät tällaisten projekteihin liittymättömien asioiden ohi. Etenkin nyt joulu-helmikuussa on paljon projekti-deadlineja.

Ajatuksia mistä voisi hakea rahoitusta harrastajien tarvitsemien ominaisuuksien kehittämiseen? Ympäristöministeriöön ollaan jo oltu yhteydessä (ja odotellaan vastauksia) joidenkin asioiden kehittämiseen liittyen (esim. uhanalaisuuluokittelun tarvitsemat asiat). Automaattivalidointi on myös kirjattu alustavaan EU-projektihakemukseen.

  • Automaattinen validointi: On olemassa ajatus miten tämä voitaisiin tehdä. Testaamiseksi tarvittaisiin validointisääntöjä. Tarkistettavaksi (toistaiseksi manuaalisesti) merkittyjä voi jo hakea: https://laji.fi/observation/list?needsCheck=true - mutta kuka tätä tehtii tehdä? Tarkistettavia on nyt >26.000 kpl.
  • Havaintoerän massamuokkaus: tarvittaisiin lisätietoa ja esimerkkitapauksia millaisissa tilanteissa tätä täsmälleen tarvittaisiin. Tuossa viestissä tulikin yksi, kiitos siitä! (Olisi liian suuri asia lähteä tekemään “kaikkea” massamuokattavaksi, vaan on valittava mitä ja miten.)
  • Tuplahavainnot on ratkaistava automaattisella klusteroinnilla tjsp., käsin tehtävänä se olisi liian työlästä. Toistaiseksi ollaan priorisoitu uusien aineistojen avaamista käytettäväksi (jotta lisää dataa), ei vielä sitä miten niitä voidaan yhdistellä (jotta vähemmän dataa). GBIF suunnittelee vastaavanlaista toiminnallisuutta, katsomme mitä voimme oppia heiltä.

puuttuvien lajien lista joltain alueelta

Täällaista vertailua voi tehdä hakemalla dataa Exceliin ja tekemällä tilastoja siitä. Silloin voi itse vapaasti päättää mitä alueita, aikavälejä jne. vertailee keskenään. Mutta vaatii pientä näpertämistä Excelillä.

Tällaisen voi myös melko helposti ohjelmoida api.laji.fi:n rajapinnan päälle. Esim. lintuatlakselle tällaisen tein itse viime keväänä: https://havistin.biomi.org/atlas/puutelista/672:339

Mikko / Lajitietokeskus

PS. Laskin että toivelistallamme on nyt n. 270 isompaa Lajitietokeskukseen liittyvää kehityskohdetta, joista esim. automaattivalidointi on yksi. Valtaosaa näistä varmaankaan koskaan tulla tekemään, ts. meidän pitää tarkemmin määritellä mikä Lajitietokeskuksen fokus on vs. ei ole.

1 Like

Autom. validoinnit
Muistaakseni validointisääntöjen osalta olisi tarkoitus esin luoda muutamia testisääntöjä, ajaa niitä läpi ja katsoa milten paljon ja millaisia “jäisi kiinni”, joka auttaisi sääntöjärjestelmän hiomisessa eteenpäin.
Onkos @mikko testisääntöjä vielä saatu tuotettua?

Automaattisten varoitusten osalta on myös se mietinnän paikkka, että kuka niitä ylläpitäisi. Jos säännöt jäävät jälkeen todellisuudesta, käyttäjät puolestaan valittaisivat, että tulee vääriä varoituksia. Kuka tilanteet korjaisi? Jos ei ole vakituista tahoa joka luo ja ylläpitää sääntöjä, niiden käyttöönottoa tulee harkita.

Yksi vahtoehto on dataperusteiset varoitukset, eli ihmisten määrittelemien sääntöjen sijasta kokeillaan käyttää olemassa olevaa dataa epätavallisten havaintojen huomaamiseksi. Tämän lähestymistavan ongelma on lajiryhmittäin kovin vaihtelevat havaintomäärät.

Kymppiruutuasiat / aineiston virheet / tuplat
En mitenkään tyrmää mainitunlaista puutelistan tekoa. Seuraava ei oikeastaan koske varsinaista esitettyä toivetta, vaan sivuaa aihetta hiukan yleisemmällä tasolla:

Tuplien olemassaoloon tai jonkin lajin esiintymisen hahmottamiseen on teknisten muutosten lisäksi mahdollisuus pohtia lähestymistapaa dataan ja realismia vaatimusten suhteen. Jos lähestysmitapa on “perinteinen”, esim:

musta piste = havainto
ruudut = oma näkemys datasta

… Nyt jos jokin noista mustista pisteistä on väärin (väärin määritetty tms), niin tietyllä ajattelumallilla koko data on “täyttä roskaa”, koska siellä on niin pajon virheitä.

Mutta jos ajattelutapa onkin

musta piste = havainto
ruutujen väri = oma näkemys datasta

… niin yhtä äkkiä yksittäiset virheelliset outlierit eivät enää olekkaan merkityksellisiä. Eikä ole sekään, jos jokin museonäyte on tallennettu kolmeen tietokantaan ja kolmesti tuplana.

Etenkin kun ottaa huomioon, että kyseessä ei ole edes monen lajiryhmän tai lajin osalta mikään oikea esiintymistieto, vaan kartta kertoo enemmänkin ihmisten aktiivisuudesta. Kenelläkään ei ole resursseja kartoittaa jokaista kymppiruutua kattavasti ja vielä eri vuodenaikoina ja vesistöistä ja heinikoista ja puiden yläoksilta ja … .

Datan käytössä ja hahmottamisessa kannattaa mielestäni olla realistinen. Virheetöntä dataa ei ole – paitsi tietenkin se ihan ikioma “laatikkoainesto”, jonka on kokonaan itse kerännyt ja on sellainen henkilö, joka ei itse koskaan tee yhtäkään kirjaus- tai määritysvirhettä.

Eli itse en henkilökohtaisesti erityisesti kannusta miettimään kymppiruutuja!


Hyvin tärkeää on myös ottaa huomioon datan käyttö suojelutarkoituksiin. 10km ruudulla tai 1km ruudulla ilmoitetut havainnot jäävät käyttämättä suojelutarkoituksiin. Itse asiassa tarkkuuden pitäisi olla parempi kuin 100m, metsäkoneita varten jopa <10m (tarkkuuden määritelmä ovat työn alla)

Esko / Lajitietokeskus

1 Like

Kiitos vastauksista molemmille.

Se tärkein tulikin jo heti alkuun: ovat listoilla, muttei ole mitään tietoa, milloin menisivät tuotantoon. Ymmärrän kyllä syyt siihen; ihan arkipäivän realismia.

Valitettavasti ei. Ei ole edes ymmärrystä, millaisista summista puhutaan. Mutta tätä voisi nostaa keskusteluun eri ihmisten kanssa eri “foorumeilla”.

Ensinnäkin olisi hyvä olla jonkinlainen tarkastusnäkymä haussa - käytännössä esim. näkymään valittavissa oleva sarake, joka kertoisi, miksi (paikka/aika/lukumäärä tms.) mikäkin havainto on nostettu tarkastettavien joukkoon. Se selkeyttäisi näkymää. Ja on totta, ettei sitä monikaan tällä hetkellä tee, mutta joukkoistaminen ei ainakaan onnistu, ellei siitä olla tietoisia, ja se taas vaatisi hieman “myymistä”. Tähän liittyen pidän ensi viikolla Oulun Hyönteiskerhossa esityksen Laji.fin käytöstä, etäosallistuminen mahdollista. :grin: Tosin se ei keskity tuohon aiheeseen; korkeintaa sivuaa sitä keskittyen peruskäyttöön.

Tähän ei tule vastauksia, ellei niitä kysy käyttäjiltä. Missä niitä voisi kysyä, jotta ne saisivat näkyvyyttä? Voisiko tässäkin olla joukkoistamisesta hyötyä? Mainittakoon vielä yksi esimerkki: minulla meni Vihkon alkuvuosina automaatilla kaikki havaintoerien havainnot havaintotyypillä “näyte” (käsitin pyydyssaaliin tuolloin näytteinä, vaikken tallentanut niitä), ja nyt niiden korjaaminen näin jälkikäteen olisi yksitellen lannistavan iso urakka. Olisi helpompaa muokata kaikkiin massa-ajona “havainto” tai “käsitelty (ei tallennettu)” ja sitten merkata yksitellen harvat näytteet.

Sopii minulle, mutta jos klusterointi ei kaikissa tilanteissa toimi, voisiko yksittäisiä korjauksia kuitenkin tehdä myös käsin esim. asiantuntijakäyttäjien toimesta?

Tämä on hieno! Harmi, kun ei itse osaa… Ymmärrän kyllä hyvin, ettei toive ollut tänne kovin realistinen, mutta se kannatti sanoa, sillä muuten tuo API:n kautta tekemäsi vertailu olisi jäänyt tiedostamatta.

Joo, juuri tällainen oli minulla mielessä. Vaikka lintupuolella Tiira on osoittanut sen, että hyvin tehdyt suotimet kestävät vuosia ilman muutostarpeita, niin se ei kuitenkaan auta siihen, että muissa lajiryhmissä ei ole vastaavaa harrastajamassaa taustalla, joten joukkoistaminen manuaalifilttereille voi olla melko toimimaton ajatus.

Itse asiassa en mietikään. En nostanut esiin jotain tiettyä rajaa (esim. kymppiruutua), vaan ihmisten luontaisen tarpeen lajitella erilaista tietoa erilaisten rajojen mukaan.Silloin kiinnostaa, mitä naapurissa on ja mitä itseltä puuttuu. Mutta se ei ole ehkä kuitenkaan Laji.fin ydintarkoitus, vaan esim. rajapintojen kautta rakennettavissa oleva asia. Itselleni kiinnostus olisi erityisesti kuntien ja eliömaakuntien osalta. Entä jos aletaan kerätä ns. täydellisiä listoja, niin onko siihen saatavissa näkyville kaikkien lajien lisäksi esim. maakunnassa havaitut lajit?

Ja tarkkaa dataa itsekin peräänkuulutan, vaikken sitä kaikilta osin tuotakaan.

Oli paljon luettavaa ja vastattavaa, joten osa varmasti unohtui. Mutten jaksa enempää, joten aloitetaan tällä.

Ensinnäkin olisi hyvä olla jonkinlainen tarkastusnäkymä haussa

Laadunvalvonta-välilehti näyttää jo ainakin osan näistä tiedoista.

[Massamuokkaus] Tähän ei tule vastauksia, ellei niitä kysy käyttäjiltä. Missä niitä voisi kysyä, jotta ne saisivat näkyvyyttä?

Massamuokkauksesta kysyttiin eliötyöryhmien webinaarissa, mutta siellä ei syntynyt keskustelua. Viime vuoden havainnoijakyselyssä (tulokset vielä julkaisematta), jossa kysyttiin mm. havaintojen kirjaamisen ongelmista avoimilla kysymyksillä, massamuokkauksen nosti esille kolme 329 vastaajasta, kuitenkin muistaakseni ilman tarkempia tietoja. Muutenkaan massamuokkaukset eivät ole olleet keskusteluissa juurikaan esillä.

Asiaa voisi pohtia myös toisin päin: mikä osa datasta on sellaista, jota haluttaisiin käyttää, mutta jossa on jatkuvasti kirjaus- tai huolimattomuusvirheitä? Sitten miettiä mitä havainnoijat tarvitsisivat tällaisten virheiden huomaamiseksi ja korjaamiseksi. Heti tällaisia asioita ei nouse mieleeni. Lähinnä ehkä tapaukset, joissa tajuan että lajia X ei voikaan määrittää luulemallani tavalla, joten määritys täytyy muuttaa sukutasolle. Mutta tällöin on yleensä kyse vain muutamasta havainnosta.

voisiko yksittäisiä korjauksia kuitenkin tehdä myös käsin
esim. asiantuntijakäyttäjien toimesta?

En osaa sanoa, riippunee paljon miten klusteroiti lopulta voidaan toteuttaa.

(Duplikaatit, kuten moni muukin asia, jakaa mielipiteitä: osa pitää niitä merkittävänä ongelmana, osa ei → haluaisi että kehitys suunnataan johonkin heille tarpeellisempaan.)

täydellisiä listoja, niin onko siihen saatavissa näkyville kaikkien lajien lisäksi esim. maakunnassa havaitut lajit?

Olisi tarkoitus, että täydellisessä listassa voi olla pohjana jonkinlainen paikan ja/tai ajan mukaan mukautettu lajilista, mutta miten tämä toteutetaan on avoinna. Eliömaakunta voisi toimia joillekin lajiryhmille. Ping @Janne_Koskinen

Mikko / Lajitietokeskus

@harrynystrom Tein ohjeen puuttuvien lajien listan tekemisestä Excelillä: Miten voit tehdä tietyn alueen "puutelistan"