Lajitietokeskuksen jatkokehityksestä

Irrotin tämän asian tuolta toisesta ketjusta, kun katosi viestitulvan alle. Kyse siis ominaisuuksista, joiden kehityksestä on mainostettu, mutteivät näy seuraavien listoilla olevien kehityskohteiden alla:

Onko mitään tietoa automaattisen “annotoinnin”/validoinnin kehityksestä? Siis ominaisuus, jossa jo syöttövaiheessa lomake ilmoittaisi, jos jokin tieto on epänormaali esim. ajankohdan tai paikan suhteen (suodattimilla) tai että saisi helposti haettua tarkastettaviksi “liputetut” havainnot. Siitä ei mainittu tuolla nykyisissä eikä tulevissa sanallakaan, vaikka se oli vielä jokin aika sitten listoilla.

Entä seuraavien itseäni kiinnostavien ominaisuuksien tilanne:

  1. havaintoerän massamuokkausmahdollisuus (esim. kopioi-toiminnolla vahingossa kymmenille riveille kopioituneen väärän elinvaiheen korjaus)
  2. tuplahavaintojen (moninkertaisten havaintojen) yhdistelymahdollisuus siten, että niille luodaan “säilö” tms., joka näkyy yhtenä, mutta sen sisältämiä havaintoja ei muokattaisi
  3. muitakin on; kiireessä eivät tule mieleen

Uusi idea:

  • puuttuvien lajien lista joltain alueelta (mitkä perhoslajit on ilmoittamatta Oulusta/kilometriruudusta/eliömaakunnasta tms.), mikä voisi ohjata retkeilyä tavoitteellisempaan suuntaan
  • ideaalitilanteessa se vieläpä kertoisi lajit, jotka on havaittu jostain naapurieliömaakunnasta, muttei omasta tai lajit, jotka puuttuu ko. alueelta, mutta on havaittu x km sisällä alueesta tai alueen summittaisesta keskipisteestä (tämän osalta en pidätä hengitystäni)

Kaikki nämä ovat toivelistalla, mutta eivät “lähiaikoina” toteutettavien joukossa. Usein projektien (= ollaan saatu ulkoista rahoitusta ja sitä vastaan luvattu tehdä jotakin) vaatimukset menevät tällaisten projekteihin liittymättömien asioiden ohi. Etenkin nyt joulu-helmikuussa on paljon projekti-deadlineja.

Ajatuksia mistä voisi hakea rahoitusta harrastajien tarvitsemien ominaisuuksien kehittämiseen? Ympäristöministeriöön ollaan jo oltu yhteydessä (ja odotellaan vastauksia) joidenkin asioiden kehittämiseen liittyen (esim. uhanalaisuuluokittelun tarvitsemat asiat). Automaattivalidointi on myös kirjattu alustavaan EU-projektihakemukseen.

  • Automaattinen validointi: On olemassa ajatus miten tämä voitaisiin tehdä. Testaamiseksi tarvittaisiin validointisääntöjä. Tarkistettavaksi (toistaiseksi manuaalisesti) merkittyjä voi jo hakea: https://laji.fi/observation/list?needsCheck=true - mutta kuka tätä tehtii tehdä? Tarkistettavia on nyt >26.000 kpl.
  • Havaintoerän massamuokkaus: tarvittaisiin lisätietoa ja esimerkkitapauksia millaisissa tilanteissa tätä täsmälleen tarvittaisiin. Tuossa viestissä tulikin yksi, kiitos siitä! (Olisi liian suuri asia lähteä tekemään “kaikkea” massamuokattavaksi, vaan on valittava mitä ja miten.)
  • Tuplahavainnot on ratkaistava automaattisella klusteroinnilla tjsp., käsin tehtävänä se olisi liian työlästä. Toistaiseksi ollaan priorisoitu uusien aineistojen avaamista käytettäväksi (jotta lisää dataa), ei vielä sitä miten niitä voidaan yhdistellä (jotta vähemmän dataa). GBIF suunnittelee vastaavanlaista toiminnallisuutta, katsomme mitä voimme oppia heiltä.

puuttuvien lajien lista joltain alueelta

Täällaista vertailua voi tehdä hakemalla dataa Exceliin ja tekemällä tilastoja siitä. Silloin voi itse vapaasti päättää mitä alueita, aikavälejä jne. vertailee keskenään. Mutta vaatii pientä näpertämistä Excelillä.

Tällaisen voi myös melko helposti ohjelmoida api.laji.fi:n rajapinnan päälle. Esim. lintuatlakselle tällaisen tein itse viime keväänä: https://havistin.biomi.org/atlas/puutelista/672:339

Mikko / Lajitietokeskus

PS. Laskin että toivelistallamme on nyt n. 270 isompaa Lajitietokeskukseen liittyvää kehityskohdetta, joista esim. automaattivalidointi on yksi. Valtaosaa näistä varmaankaan koskaan tulla tekemään, ts. meidän pitää tarkemmin määritellä mikä Lajitietokeskuksen fokus on vs. ei ole.

1 tykkäys

Autom. validoinnit
Muistaakseni validointisääntöjen osalta olisi tarkoitus esin luoda muutamia testisääntöjä, ajaa niitä läpi ja katsoa milten paljon ja millaisia “jäisi kiinni”, joka auttaisi sääntöjärjestelmän hiomisessa eteenpäin.
Onkos @mikko testisääntöjä vielä saatu tuotettua?

Automaattisten varoitusten osalta on myös se mietinnän paikkka, että kuka niitä ylläpitäisi. Jos säännöt jäävät jälkeen todellisuudesta, käyttäjät puolestaan valittaisivat, että tulee vääriä varoituksia. Kuka tilanteet korjaisi? Jos ei ole vakituista tahoa joka luo ja ylläpitää sääntöjä, niiden käyttöönottoa tulee harkita.

Yksi vahtoehto on dataperusteiset varoitukset, eli ihmisten määrittelemien sääntöjen sijasta kokeillaan käyttää olemassa olevaa dataa epätavallisten havaintojen huomaamiseksi. Tämän lähestymistavan ongelma on lajiryhmittäin kovin vaihtelevat havaintomäärät.

Kymppiruutuasiat / aineiston virheet / tuplat
En mitenkään tyrmää mainitunlaista puutelistan tekoa. Seuraava ei oikeastaan koske varsinaista esitettyä toivetta, vaan sivuaa aihetta hiukan yleisemmällä tasolla:

Tuplien olemassaoloon tai jonkin lajin esiintymisen hahmottamiseen on teknisten muutosten lisäksi mahdollisuus pohtia lähestymistapaa dataan ja realismia vaatimusten suhteen. Jos lähestysmitapa on “perinteinen”, esim:

musta piste = havainto
ruudut = oma näkemys datasta

… Nyt jos jokin noista mustista pisteistä on väärin (väärin määritetty tms), niin tietyllä ajattelumallilla koko data on “täyttä roskaa”, koska siellä on niin pajon virheitä.

Mutta jos ajattelutapa onkin

musta piste = havainto
ruutujen väri = oma näkemys datasta

… niin yhtä äkkiä yksittäiset virheelliset outlierit eivät enää olekkaan merkityksellisiä. Eikä ole sekään, jos jokin museonäyte on tallennettu kolmeen tietokantaan ja kolmesti tuplana.

Etenkin kun ottaa huomioon, että kyseessä ei ole edes monen lajiryhmän tai lajin osalta mikään oikea esiintymistieto, vaan kartta kertoo enemmänkin ihmisten aktiivisuudesta. Kenelläkään ei ole resursseja kartoittaa jokaista kymppiruutua kattavasti ja vielä eri vuodenaikoina ja vesistöistä ja heinikoista ja puiden yläoksilta ja … .

Datan käytössä ja hahmottamisessa kannattaa mielestäni olla realistinen. Virheetöntä dataa ei ole – paitsi tietenkin se ihan ikioma “laatikkoainesto”, jonka on kokonaan itse kerännyt ja on sellainen henkilö, joka ei itse koskaan tee yhtäkään kirjaus- tai määritysvirhettä.

Eli itse en henkilökohtaisesti erityisesti kannusta miettimään kymppiruutuja!


Hyvin tärkeää on myös ottaa huomioon datan käyttö suojelutarkoituksiin. 10km ruudulla tai 1km ruudulla ilmoitetut havainnot jäävät käyttämättä suojelutarkoituksiin. Itse asiassa tarkkuuden pitäisi olla parempi kuin 100m, metsäkoneita varten jopa <10m (tarkkuuden määritelmä ovat työn alla)

Esko / Lajitietokeskus

1 tykkäys

Kiitos vastauksista molemmille.

Se tärkein tulikin jo heti alkuun: ovat listoilla, muttei ole mitään tietoa, milloin menisivät tuotantoon. Ymmärrän kyllä syyt siihen; ihan arkipäivän realismia.

Valitettavasti ei. Ei ole edes ymmärrystä, millaisista summista puhutaan. Mutta tätä voisi nostaa keskusteluun eri ihmisten kanssa eri “foorumeilla”.

Ensinnäkin olisi hyvä olla jonkinlainen tarkastusnäkymä haussa - käytännössä esim. näkymään valittavissa oleva sarake, joka kertoisi, miksi (paikka/aika/lukumäärä tms.) mikäkin havainto on nostettu tarkastettavien joukkoon. Se selkeyttäisi näkymää. Ja on totta, ettei sitä monikaan tällä hetkellä tee, mutta joukkoistaminen ei ainakaan onnistu, ellei siitä olla tietoisia, ja se taas vaatisi hieman “myymistä”. Tähän liittyen pidän ensi viikolla Oulun Hyönteiskerhossa esityksen Laji.fin käytöstä, etäosallistuminen mahdollista. :grin: Tosin se ei keskity tuohon aiheeseen; korkeintaa sivuaa sitä keskittyen peruskäyttöön.

Tähän ei tule vastauksia, ellei niitä kysy käyttäjiltä. Missä niitä voisi kysyä, jotta ne saisivat näkyvyyttä? Voisiko tässäkin olla joukkoistamisesta hyötyä? Mainittakoon vielä yksi esimerkki: minulla meni Vihkon alkuvuosina automaatilla kaikki havaintoerien havainnot havaintotyypillä “näyte” (käsitin pyydyssaaliin tuolloin näytteinä, vaikken tallentanut niitä), ja nyt niiden korjaaminen näin jälkikäteen olisi yksitellen lannistavan iso urakka. Olisi helpompaa muokata kaikkiin massa-ajona “havainto” tai “käsitelty (ei tallennettu)” ja sitten merkata yksitellen harvat näytteet.

Sopii minulle, mutta jos klusterointi ei kaikissa tilanteissa toimi, voisiko yksittäisiä korjauksia kuitenkin tehdä myös käsin esim. asiantuntijakäyttäjien toimesta?

Tämä on hieno! Harmi, kun ei itse osaa… Ymmärrän kyllä hyvin, ettei toive ollut tänne kovin realistinen, mutta se kannatti sanoa, sillä muuten tuo API:n kautta tekemäsi vertailu olisi jäänyt tiedostamatta.

Joo, juuri tällainen oli minulla mielessä. Vaikka lintupuolella Tiira on osoittanut sen, että hyvin tehdyt suotimet kestävät vuosia ilman muutostarpeita, niin se ei kuitenkaan auta siihen, että muissa lajiryhmissä ei ole vastaavaa harrastajamassaa taustalla, joten joukkoistaminen manuaalifilttereille voi olla melko toimimaton ajatus.

Itse asiassa en mietikään. En nostanut esiin jotain tiettyä rajaa (esim. kymppiruutua), vaan ihmisten luontaisen tarpeen lajitella erilaista tietoa erilaisten rajojen mukaan.Silloin kiinnostaa, mitä naapurissa on ja mitä itseltä puuttuu. Mutta se ei ole ehkä kuitenkaan Laji.fin ydintarkoitus, vaan esim. rajapintojen kautta rakennettavissa oleva asia. Itselleni kiinnostus olisi erityisesti kuntien ja eliömaakuntien osalta. Entä jos aletaan kerätä ns. täydellisiä listoja, niin onko siihen saatavissa näkyville kaikkien lajien lisäksi esim. maakunnassa havaitut lajit?

Ja tarkkaa dataa itsekin peräänkuulutan, vaikken sitä kaikilta osin tuotakaan.

Oli paljon luettavaa ja vastattavaa, joten osa varmasti unohtui. Mutten jaksa enempää, joten aloitetaan tällä.

Ensinnäkin olisi hyvä olla jonkinlainen tarkastusnäkymä haussa

Laadunvalvonta-välilehti näyttää jo ainakin osan näistä tiedoista.

[Massamuokkaus] Tähän ei tule vastauksia, ellei niitä kysy käyttäjiltä. Missä niitä voisi kysyä, jotta ne saisivat näkyvyyttä?

Massamuokkauksesta kysyttiin eliötyöryhmien webinaarissa, mutta siellä ei syntynyt keskustelua. Viime vuoden havainnoijakyselyssä (tulokset vielä julkaisematta), jossa kysyttiin mm. havaintojen kirjaamisen ongelmista avoimilla kysymyksillä, massamuokkauksen nosti esille kolme 329 vastaajasta, kuitenkin muistaakseni ilman tarkempia tietoja. Muutenkaan massamuokkaukset eivät ole olleet keskusteluissa juurikaan esillä.

Asiaa voisi pohtia myös toisin päin: mikä osa datasta on sellaista, jota haluttaisiin käyttää, mutta jossa on jatkuvasti kirjaus- tai huolimattomuusvirheitä? Sitten miettiä mitä havainnoijat tarvitsisivat tällaisten virheiden huomaamiseksi ja korjaamiseksi. Heti tällaisia asioita ei nouse mieleeni. Lähinnä ehkä tapaukset, joissa tajuan että lajia X ei voikaan määrittää luulemallani tavalla, joten määritys täytyy muuttaa sukutasolle. Mutta tällöin on yleensä kyse vain muutamasta havainnosta.

voisiko yksittäisiä korjauksia kuitenkin tehdä myös käsin
esim. asiantuntijakäyttäjien toimesta?

En osaa sanoa, riippunee paljon miten klusteroiti lopulta voidaan toteuttaa.

(Duplikaatit, kuten moni muukin asia, jakaa mielipiteitä: osa pitää niitä merkittävänä ongelmana, osa ei → haluaisi että kehitys suunnataan johonkin heille tarpeellisempaan.)

täydellisiä listoja, niin onko siihen saatavissa näkyville kaikkien lajien lisäksi esim. maakunnassa havaitut lajit?

Olisi tarkoitus, että täydellisessä listassa voi olla pohjana jonkinlainen paikan ja/tai ajan mukaan mukautettu lajilista, mutta miten tämä toteutetaan on avoinna. Eliömaakunta voisi toimia joillekin lajiryhmille. Ping @Janne_Koskinen

Mikko / Lajitietokeskus

1 tykkäys

@harrynystrom Tein ohjeen puuttuvien lajien listan tekemisestä Excelillä: Miten voit tehdä tietyn alueen "puutelistan"

1 tykkäys

Kiitos vastauksista, Mikko!

Myönnän, että tuo Laadunvalvonta-välilehti on itselleni vielä alihyödynnetty (uudehko) ominaisuus. Pitääpä tutustua siihen tarkemmin; kiitos muistutuksesta.

Massamuokkauksen osalta voisin kysellä muilta käyttäjiltä ajatuksia aiheesta. Itselleni selkeimmät tarpeet (kehitysvaihe, havaintotapa) olen jo tuonut esiin. Haun perusteella kehitysvaiheen massamuokkaustarpeen liittyen havaintorivien kopioinnin myötä tapahtuvaan monistautumiseen on tuonut esiin toinenkin käyttäjä toisessa ketjussa (@zensmile).

Puutelistaohje on erinomainen - kiitos siitä!

Ai niin, liittyen motivointiin ja aktiivisten käyttäjien “palkitsemiseen”: Onko teillä koskaan ollut ajatuksena laatia jonkinlaisia käyttäjätilastoja tai TOP10-listoja Laji.fin puolelle? Esim. kuka on kommentoinut eniten? Kuka on ilmoittanut eniten yksilöitä/havaintoja/lajeja kautta aikain tai vuosittain koko Suomesta tai jostain eliömaakunnasta ja esim. lajiryhmittäin jne? Kuka on lisännyt eniten kuvia? Sinänsä merkityksetöntä, mutta toisaalta toisi kunniaa niille, joille se kuuluu. Tällaiset ovat hämmästyttävän suosittuja monissa havaintojärjestelmissä, esim. eBirdissä.

Top-listoja ollaan mietitty useasti ja käytettykin joissakin hankkeissa, mutta niissä on vaarana, että jotkut madaltavat itsekritiikkiään ja kirjaavat epävarmoja havaintoja tai muuten “venyttävät rajoja”, koska haluavat päästä top-listalla korkeammalle. Näin huomattiin käyneen esim. nykyistä edeltävässä 3. lintuatlaksessa, vaikka yleensä tällainen toiminta jää helposti piiloon. Siksi näitä ei olla erityisesti edistetty.

Määrityksiä tehneistä on muutama top-lista, mutta aika piilossa tämän sivun lopussa: https://laji.fi/theme/identify?time=2022-12-04%2F

Mikko / Lajitietokeskus

1 tykkäys

Tämä on parempi linkki laatukommentoijien toplistalle: Laadunvalvonta | Suomen Lajitietokeskus

Siellä voi esim rajata tilaston eliörymittäin

(Löytyy Teemat > Laadunvalvonta)

1 tykkäys

http://rivendell.dionysus.feralhosting.com:3000/#imagestatistics:Araneae

Periaatteessa tuon sivun pitäisi toimia. Palvelun Node.js-prosessi on käynnistetty ssh-yhteyden kautta, mutta siinä ei ole mitään varmistusta sille, että prosessi pysyy käynnissä. Pahoittelut jos ei aina toimi.

Valikosta voi valita kuvaajan, ja kuvaa klikkaamalla saa näkyviin suuremman kuvan.

1 tykkäys

Kiitos, Matti! Aiheellinen muistutus, sillä olinkin valitettavasti jo ehtinyt hieman unohtaa sinun rajapintasovelluksesi olemassaolon. Jälleen esimerkki siitä, että rajapinnan avulla palvelun käyttömahdollisuuksia voi laajentaa. :slight_smile:

Ei uusia, mutta eilen mieleen palautettuja asioita:

  1. Olisiko mahdollista, että iNaturalistin puolelta tuotuihin havaintoihin generoidaan linkki ko. havaintoon iNaturalistissa? Ja miksi, jos ei?

Se helpottaisi merkittävästi etenkin laadunvarmistusta tilanteissa, joissa kuvat eivät käyttöoikeuksien vuoksi siirry Laji.fin puolelle, jolloin varmentamisen vuoksi pitäisi mennä erikseen esim. eri välilehdellä tai selaimella iNaturalistiin ja etsiä havainto sieltä lajin, paikan ja esim. ajankohdan perusteella. Toisaalta se helpottaisi siksikin, että lähtökohtaisesti korjaus pitäisi mielestäni tehdä juuri lähdejärjestelmässä, vaikka kuvat siirtyisivätkin.

  1. Automaattivalidointia ajatellen: voisiko lomake ilmoittaa, mikäli on vahingossa ilmoittamassa havaintoa tulevaisuudesta?

Tätä samaa olen ehdottanut pariinkin kertaan. Ongelma ei koske vain niitä havaintoja joissa kuvat eivät siirry iNatista Laji.fihin.

Sotkua tulee siitä että Laji.fissä tehdyt kommentit/korjaukset eivät välity iNatiin. Havainnon tekijä ei siis saa tietää että hänen havaintoaan on kommentoitu/korjattu laji.fissä. Jos laji.fissä korjataan iNatista tullut havainto seuraa siitä sitten että samasta havainnosta on kaksi toisistaan poikkeavaa havaintoa, toinen iNatissa ja toinen laji.fissä. Ja mitähän sitten tapahtuu jos havainnoitsija muuttaa alkuperäistä havaintoaan iNatissa?

Jos laji.fissä olisi suora vievä linkki iNatin alkuperäiseen havaintoon voisi havaintoa korjata/kommentoida suoraan siellä lähdejärjestelmässä. Vielä parempi olisi että tieto laji.fissä tehdyistä kommenteista havaintoon välittyisi havainnoijalle.

iNatin havaintoon pääsee kopsaamalla havaintoerän viimeisen numerosarjan. Tässä tapausessa siis 143725329

1 tykkäys

“iNatin havaintoon pääsee kopsaamalla havaintoerän viimeisen numerosarjan. Tässä tapausessa siis 143725329”

Jos se on näin helppoa niin varmaan olisi helppoa taikka mahdollista myös välittää ohjelmallisesti laji.fissä tehdyt kommentit iNatiin. Sitten havainnon tekijä ainakin tietäisi että havaintoa on kommentoitu laji.fissä ja havainnon tekijä voisi tehdä mahdolliset korjaukset suoraan lähdejärjestelmään eli tässä tapauksessa iNatiin.

Muistaakseni iNaturalist estää tuollaisen tiedon syöttämisen rajapinnan kautta, vaikka luku sieltä onnistuukin, joten sitä on turha toivoa.

Ja juuri siksi toivoisin automaattisesti generoitua linkkiä havaintoerän yhteyteen (Linkki lähdejärjestelmään: URL"), jotta järjestelmien välillä siirtymiseen ei tarvitsisi kopioida ko. numerosarjaa, avata iNaturalist eri välilehdessä/ikkunassa/selaimessa, valita ylävalikosta “Tutki”, lisätä kauttaviiva ko. ikkunan osoiteriville ja liittää kopioitu numerosarja sinne. Etenkin, kun se näemmä olisi niin helppo generoida automaattisesti.

Tämä on jo puoliksi toteutettu: Dataan / rajapintaan on lisätty linkki alkup. lähteeseen. Tekemättä on vielä se osa työstä, että laji.fi havaintonäkymä näyttäisi ko. tiedon. Se on osa isompaa havaintonäkymän uudistamistyötä, joka toivottavasti saadaan aloitettua piakkoin.

Esko / Lajitietokeskus

1 tykkäys

Muistaakseni iNaturalist estää tuollaisen tiedon syöttämisen rajapinnan kautta, vaikka luku sieltä onnistuukin, joten sitä on turha toivoa.

Geneerinen käyttäjä Laj.fi kirjautuu tunnuksillaan iNatiin ja siirtyy automaagisesti generoidun linkin kautta havaintoon ja kopio laji.fi kommentin iNatin havainnon yhteyteen?

1 tykkäys

voisiko lomake ilmoittaa, mikäli on vahingossa ilmoittamassa havaintoa tulevaisuudesta?

Lomakkeet sallivat päivämäärän olevan 12 tuntia tulevaisuudessa. Tämä on tehty aikavyöhykkeiden aiheuttamien ongelmien kiertämiseksi. 10.12. sen sijaan tuottaa (juuri nyt) virheilmoituksen.

varmaan olisi helppoa taikka mahdollista myös välittää ohjelmallisesti laji.fissä tehdyt kommentit iNatiin.

Teoriassa kyllä, käytännössä hankalaa:

  • iNaturalist sallii kommentit vain omilta käyttäjiltään. Käyttäjän pitäisi siis rekisteröityä iNaturalistiin ja linkittää tunnuksensa, jolloin Laji.fi:n kommentit voisi lähettää sinne kommentoijan nimissä.
  • Taksonomia ja nimistöt eroavat toisistaan, ja molemmat muuttuvat jatkuvasti. Harmonisointi molempiin suuntiin olisi hankalaa, ja eroavaisuudet aiheuttavat helposti väärinkäsityksiä. (Tätä tapahtuu jo nyt iNaturalistin sisälläkin: mikä on esim. Suomessa tavattava vaskitsa- ja sananjalkalaji? Riippuu keneltä kysyy.)
  • iNaturalistin API ei ole erityisen helppo ja toimintavarma, ja datan syknronointiin sitä ei ole suunniteltu ollenkaan. Nykyisessä havaintojen kopioinnissakin on omat ongelmansa, kommenttien kopiointi olisi vielä hankalampaa.

Mikko / Lajitietokeskus

1 tykkäys