Miten epävarmat määritykset pitäisi tallentaa?

mikko · Maaliskuu 14, 2019, 8.40am

Olen suunnittelemassa havaintojen laadunvarmistusta ja annotointia laji.fi:ssa, erityisesti lajinmäärityksen osalta. Pyydän teiltä näkemyksiä suunnittelun taustaksi.

Näen kaksi vaihtoehtoa miten havaintojen määrityksiä alun alkaen pitäisi voida tallentaa (Vihkossa tai miksei muissakin järjestelmissä). Miten nämä sopisivat erilaisiin havainnointitilanteisiin?

A) Havainto pyritään määrittämään lajilleen. Jos määritys on kuitenkin epävarma, se merkitään epävarmaksi erillisen kentän avulla. Esim. kalalokki (Larus canus), epävarma.

Etuna on että käyttäjä voi ilmaista oman parhaan käsityksensä määrityksestä. Haittana on että tällöin ei tiedetä mille tasolle epävarmuus yltää. Onko epävarma kalalokki kuitenkin varmasti jokin lokki? Voiko olla tiira? Onko varmaa että on edes lintu?

B) Havainto määritetään aina tarkimmalle varmalle tasolle. Esim. jos lajinmääritys jää epävarmaksi, asetetaan määritys sukutasolle, heimotasolle tms. mikä kattaa “varmasti” kaikki mahdolliset vaihtoehdot. Epävarman käsitettä ei käytetä. Esim. lokki (Larus)

Etuna on että periaatteessa tiedetään varma taksoni, mutta haittana on että tarkempi aavistus lajista katoaa. Esim. jos suvussa on 300 lajia, epävarma laji XY voi olla paljon hyödyllisempi tieto kuin varma Suku X. Eikä voida säännönmukaisesti olettaa että käyttäjät tuntevat taksonomiahierarkian ja sen mikä taso on lopulta varma.

C) Jonkinlainen yhdistelmä, mutta millainen? Mikä olisi riittävän joustavaa muttei liian monimutkaista?

**

Tarvitaanko tämän lisäksi myös lisää varmuustasoja määrityksen varmuudelle? Esim. ilmaisemaan tilannetta, jossa määritys on tehty erityisen huolella diagnostisia tuntomerkkejä tarkastellen (“tuntosarven 7. jaoke on pidempi kuin 6. jaoke ja takareisi on alta vaalea”), erotuksena oman kokemuksen perusteella tehdystä määrityksestä (“kuvien perusteella tämä näyttää tyypilliseltä lajin X edustajalta”).

Lajitietokeskuksen järjestelmissä on myös mahdollisuus määritellä taksonomisesta hierarkiasta poikkeavia ryhmiä, joilla taksoneita voidaan yhdistellä. Tätä voi käyttää apuna ratkaisemaan osan määrityksen ongelmista, vaikkakaan en ole vielä ihan varma miten tämä käytännössä toimii. (esim. “Iso rastas” = räkätti/kulo/mustarastas.) Tämä vaatii kuitenkin käsityötä taksonomian ylläpitäjiltä.

Yksi mahdollisuus on lisäksi tarjota jonkinlainen tapa ilmaista tarkempi määritys joustavasti (esim. “hyvin todennäköisesti alli, mutta varmasti sorsalintu”)

**

Annotaatioissa on lopulta kyse erilaisten näkemyksien yhteensovittamisesta, mikä ei ole ihan helppoa. Kansainvälisistä havaintopalveluista iNaturalist perustuu käyttäjäyhteisön tekemiin määritysannotaatioihin, joiden perusteella havainnoille määritellään yhteisön tukema taksonimääritys. Siellä käytetään mallia B ilman varmuustasoja, mutta asia on silti monimutkainen ja keskustelua herättävä. Mielenkiinnolla seuraan myös miten iNaturalistin annotointijärjestelmä kehittyy.

harrynystrom · Maaliskuu 14, 2019, 10.37am

Itse olen käyttänyt sekä vaihtoehtoa A että B eli käytännössä vaihtoehtoa C. On siis tilanteita, joissa olen esim. kirjannut Bombus lucorum (epävarma), koska laji on käytännössä ollut se, mutta määritys pelkästä kuvasta ei ole mahdollista. Ja toisaalta olen kirjannut Bombus, jos minulla on epäilys, että se voisi olla joku muukin kuin kyseisen lajiryhmän laji.

Hyönteistietokannassa muuten oli mahdollisuus valita pelkän lajin tai suvun lisäksi “Bombus lucorum coll.”, joka tarkoitti samaa kuin Bombus cf. lucorum, mutta Vihkossa tällaista taksonia ei ole. Näitä vastaavia ei ollut montaa, mutta joitakin lajiryhmiä oli, joissa ilmeisesti coll.-tieto oli tärkeämpi kuin pelkkä suku (olikohan esim. Tenthredo arcuata coll.?). Josta tulikin mieleeni, että pitää tarkastaa miten ko. havainnot ovat Vihkon puolelle siirtyneet. EDIT: Eivät taida olla siirtyneet ollenkaan? En ainakaan löydä itseltäni sellaisia, vaikka mielestäni olen tallentanut niitä.

Liityin itsekin ihan empiirisen kokemuksen saamiseksi iNaturalistiin ja olen käynyt kommentoimassa sinne määrityksiä. Minulle on sen osalta vieläkin epäselvää, että milloin määritystä vaativat kuvat muuttuvat tarkastetuiksi ja hyväksytyiksi. Kuinka monta kommenttia ne vaativat ja keneltä tms.

Vihkon puolella olen käyttänyt seuraavia lisäkenttiä määritysvarmuuden ilmaisuun: määrittäjä, määritysperuste, säilöntätapa ja lisätiedot.

Määrittäjä-kenttään kirjaan itseni tai jonkun muun, jotta tiedetään kuka määrityksen on tehnyt (se itsessään voi jo kertoa paljon varmuudesta) ja mahdolliset kysymykset osataan osoittaa oikealle henkilölle.
Määritysperuste-kenttään merkkaan kuvatuissa valokuva, rysäsaaliissa säilötty/kuivattu näyte (jos esim. pakastettu tai neulattu) tai tuorenäyte ja/tai käsitelty (jos rysäsaalis on perattu tuoreeltaan), skoopattuihin pyrin lisäämään mikroskopoinnin, ja genitaalitarkastettuihin sitä vastaavan tunnisteen (genitaali/genitaalipreparaatti). Tähän ei liene yhtenäistä käytäntöä, joten olen yrittänyt vain olla omissani johdonmukainen.
Säilöntätapa-kenttään kirjaan neulattu, jos yksilö on kokoelmassa tai Etanoli 70 %, jos se on 70-prosenttisessa viinassa pakkasessa.
Mainittakoon, että jos minulla on esim. rysäjaksossa 20 yksilöä yhtä lajia, mutta tallennan vain yhden, kirjaan 19 omalle rivilleen ilman säilöntätapaa ja 1 yksilön omalle rivilleen, jolle kirjaan esim. neulattu.
Lisätiedot-kenttää voisin käyttää esim. näytetunnisteen kirjaamiseen (en ole vielä käyttänyt) tai lisätietojen antamiseen määritysperusteista, mutta harvemmin jaksan sitä tehdä.

Mutta mitä ovat uudet(?) kentät:

Kokoelma/avainsanat?
Muut tunnisteet?

Ja lopuksi itse pääaiheeseen palatakseni: määritysvarmuuden ilmaisussa lienee tärkeintä se, miten dataa käytetään, eli tarvitaanko cf.-määrityksiä johonkin, vai riittääkö suku (tms. ylätaso) vai onko se käytön kannalta aivan sama kumpaa käytetään, jos lajia ei saada varmasti määritettyä?

Ja pitää myös ottaa huomioon sekin, että aika paljon määrityksiä kirjataan ns. varmoina lajeina, vaikka ne oikeasti ovat kaikkea muuta kuin sitä. Riippumatta siitä, miten ne ohjeistetaan kirjaamaan.

mikko · Maaliskuu 14, 2019, 10.59am

iNaturalistissa Research grade -tagin saamiseksi (jolloin havainto poistuu määritettävien listalta) havainto pitää olla määritetty lajitasolle vähintään kahden henkilön toimesta ja niin että yli 2/3 määrittäjistä on samaa mieltä. Käyttäjätasoja ei ole, joten ensikertalaisen ja ammattilaisen määritys on samanarvoinen. (iNaturalistin tuoreella foorumilla on paljon keskustelua ja muutos/kehitystoiveita aiheesta.)

DipteraJere · Maaliskuu 14, 2019, 1.12pm

Itse pidän A-versiota hyödyllisimpänä. Hienojakoisempaan luokitteluun voi olla vaikea päästä, ellei havaitsijalle anneta mahdollisuutta ilmoittaa useampaa määritystä (Parus, ? Parus major). Itse en koe suureksi ongelmaksi sitä, että “paras luotettava taso” jää epävarmaksi.

Määrityksen varmuustasot ovat melko subjektiivisia. Tavallaan meillä on jo kenttä, joka kertoo yhtä sun toista varmuustasosta: Määritysperuste. Itse olen kirjoittanut lisätietoja geneeriseen “Lisätietoja”-kenttään tyyliin “sensu Petterson 1988” tai “muuten tyypillinen, mutta takajalat kokonaan keltaiset, ei tältä osin sovi kaavaan”. Vaikea kuvitella miten tämän saisi formalisoitua käyttökelpoisesti nykyistä Määritysperustetta paremmin. Luulen, että emme kuitenkaan uskaltaisi luottaa väitteisiin, että joku määritys on tehty “erityisen huolella”.

Ennemmin tekisin hieman iNaturalist-tyylisen ratkaisun eli havainnon luotettavuutta parantaisi positiivinen palaute.
Lajitietokeskuksessa on (melkein) jo tekniikkakin siihen valmiina: " Arvioni havainnon luotettavuudesta: ". Luulen, että sitä on tähän asti käytetty lähinnä tapauksissa, joissa on epäily, mutta ohjaamalla käyttäjiä käyttämään myös asteikon positiivista päätä päästäisiin eteenpäin.

Motivaation ylläpitämiseksi positiivisen palautteen antamisen pitäisi näkyä jotenkin sekä havaitsijalle että sen jättäjälle. Jos ei muuten niin käyttäjäprofiilista tms. ovisi näkyä aktiivisuus havaintojen tarkastajana. Mutta tuon saisi varmaan fiksumminkin “pelillistettyä”.

Mietittäväksi jää, olisiko kaikkien ääni saman arvoinen. Yhtä oikeaa ratkaisua tähän ei taida olla. Tiirassa on erikseen tarkastajat, iNaturalistissa ei.

Yksi ongelma on tällä hetkellä se, että annotointisystemmissä ei pysty ilmaisemaan varsin tavallista tapausta, jossa määritys on varmaankin oikein (tai siihen ei oteta kantaa), mutta muissa tiedoissa on selvä virhe. Nykyisellään siinä voi arvioida vain " Arvioni havainnon luotettavuudesta: " ja ehdottaa korjattua määritystä.

Ääriesimerkkeinä vaikkapa koordinaateissa on merkkivirhe, jonka seurauksena tieto Etelä-Afrikasta on Egyptissä, tai ajassa on väärä vuosisata (2012, pitäisi olla 1912). Havainto on selvästi epäluotettava, mutta määritys oikein.

Voisiko tämän ratkaista alustavasti erottamalla kommentointi-dialogissa eri virhetyypit.
"Arvioni määrityksen luotettavuudesta: "
"Arvioni muiden tietojen [tai löytötiedojen] luotettavuudesta: "
Kommentin virheestä voisi sitten kirjoittaa vapaatekstinä.

Miten eri tapaukset käsiteltäisiin hakutuloksissa vaatii hieman ajattelua. Nykysysteeemi oletusarvona piilottaa Laji.fi:ssä epävarmaksi kommentoidut (ja näyttää ne muiden kaltaisena, jos käyttäjä pyytää epävarmat mukaan). Olisiko mahdollista näyttää ne esim. punaisella korostettuna (Hyönteistietokannan ratkaisu) web-käyttöliittymässä silloin, kun epävarmatkin näytetään.

Havaintoon liittyville näytetunnuksille pitäisi ehdottomasti saada oma kenttänsä!

DipteraJere · Maaliskuu 14, 2019, 1.17pm

Näitä voidaan tarvittaessa tehdä. Kärpäspuolella on muutama (esim. “Melanostoma mellinum (pre 2014)”), sienipuolella enemmänkin (esim. “rusakkonuljaska-ryhmä”).

Pistänpä Juholle kysymyksen Bombus lucorum coll. -nimen lisäämisestä.

harrynystrom · Maaliskuu 14, 2019, 1.30pm

Kiitos! Kysy samalla myös Tenthredo arcuata coll. ja Formica rufa coll.

DipteraJere · Maaliskuu 14, 2019, 1.31pm

Ehdin jo mailata, mutta kysyn Juhon vastatessa, jos muistan

Henri_Koskinen · Maaliskuu 15, 2019, 11.18am

Pari kertaa jo tähän olen kirjoitellut vastausta mutta enteri jäänyt painamatta. Ihan näin luonnon all-around harrastelijana tuntuu siltä että eri lajiryhmissä on kovasti erityyppisiä epävarmuuksia ja sitä myöten erilaisia tarpeita kirjata epävarmuuksia. Ääripäissä voisivat olla vaikkapa sienet ja linnut. Se järjestelmä mikä sopii lintuhavaintojen epävarmuuksien kirjaamiseen ei välttämättä sovi sienihavaintoihin ja toisin päin koska ne epävarmuudet ovat erityyppisiä näissä ryhmissä. Kummassakin voi toki olla epävarmuutta liittyen lajituntemukseen, mutta sienissä tulee mukaan lisäksi taksonomiset epävarmuudet ja eri kriteeristöihin perustuvat määritykset.

Linnuissa havaintoilmoitukset aika lailla vakioitiin jo lähes 50 vuotta sitten (esim. Tringan ohjeet ja lintuasemakaavakkeet). Taksonomia ei elä ja havainnot ilmoitetaan tarkimmalla varmalla tasolla. Havainnot ovat oletusarvoisesti varmoja ja jos on jotain epävarmuutta niin se ilmaistaan sitten varmaan vapaamuotoisessa tekstikentässä. Harvoin tällaiselle kyllä tarvetta. Lisäksi on tarjolla aika lailla vakiintuneet ryhmänimet, kuten vaikkapa A/B, IP, PK, PTur.

Sienissä taasen on aika tyypillistä että ei oikeastaan ole mitään yhtä oikeaa selkeää määritystä vaan eri tasoisia, eri taksonomioihin ja eri kriteeristöihin perustuvia määrityksiä. Taksomiat eivät ole valmiita vaan lajeja jaetaan, yhdistellään ja siirrellään koko ajan hyvinkin monimutkaisilla tavoilla. Monet lajit ovat ryhmälajeja. Lajeja voidaan tunnistella makrotuntomerkkien perusteella sienikirjan avulla, taikka mikrotuntomerkeillä ja jotkut lajit edellyttävät perimän selvittämistä. Tutkijan taksonomia ja läjikäsitys voi olla hyvinkin erilainen verrattuna harrastajan taksonomiaan.

Kun jollekin hytykälle yrittää antaa nimeä voi tarjolla olla monta oikeellisuuden tasoa koska taksonomioita on monia ja uudet tutkimukset valuvat viiveellä harrastajien lajituntemuksen tasolle. On vanhat makrolajit ja sitten ehkä tietoa siitä että on ryhmälaji ja ehkä splittailtu jo tutkijoiden kammioissa. Ehkä osa mennyt uusiin sukuihinkin. Voiskohan käyttää coll. lajinimeä vai miten tämä pitäisi ilmoittaa? Tuommoisia joutuu harrastajakin miettimään sienihavaintojen yhteydessä. Usein sitä miettii että kuinka oikein lajin pitää olla määritetty että sitä voidaan pitää oikein määritettynä. Viimeiset tiedot kun on tutkimusjulkaisuissa ja usein maksumuurin takana. Ja vaikka niitä tavailisi niin vihkon lajisto voi olla toinen ja sitten on epävarmuutta siitä mitä niillä vihkon lajeilla tarkoitetaan. Joku lajinimi on voinut esim. siirtyä toiselle lajille ja on epätietoisuutta mihin lajiin nimellä vihkossa viitataan. Kun joku lajiryhmä laitetaan uusiksi niin vanhatkin havainnot ovat sitten vailla lajitietoa uudessa taksonomiassa tai on epävarmuutta mihin lajeihin ne viittaavat. Voi tuntua kaukaa haetuilta ongelmilta mutta sienissä näihin törmää kyllä nopeasti jos enemmälti harrastelee. Kun siinä sitten miettii että miten se hytykkähavainto pitäisi kirjata niin aika monenlaista epävarmuutta siihen laji-ilmoitukseen sisältyy. Toki suurin osa sienihavainnoista on ihan ongelmattomia ja epävarmuudet liittyvät lajien tunnistamiseen, samoin kuin linnuissa. Yritin tuossa kuvailla sellaista hankalinta harrastajan sienihavaintoa.

DipteraJere · Maaliskuu 15, 2019, 2.07pm

Kiitos hyvästä vastauksesta!

Miten nuo harmaalokit? Siinä ryhmässä taksonomia on elänyt paljonkin viime vuosikymmeninä ja meno on välillä muistuttanut enemmän alla hyvin kuvailemaasi sienien tilannetta. Suurin osa ilmoitetuista varsinkin nuorista harmaalokeista lienee todellisuudessa “harmaalokki-ryhmän” havainto.

Se on kieltämättä poikkeus lintujen joukossa.

Näinhän se on. Käytännössä ongelmaa on osin ratkottu tekemällä jaetuille lajeilla (kuten vaikka rusakkonuljaska) “kattolaji” kuten rusakkonuljaska-ryhmä, johon periaatteessa siirretään kaikki vanhat rusakkonuljaska-tiedot, joista ei tarkemmin tiedetä, mitä lajia ne ovat.

Näissä tapauksissa olisi kätevää (joskaan ei välttämättä mahdollista tai reilua), jos taksonomiasta vastaava voisi kerralla siirtää kaikki vanhat rusakkonuljaska-tiedot osoittamaan “rusakkonuljaska-ryhmään” tai (realistisemmin) jättää kerralla koko joukolle havaintoja tarkistus/siirtopyynnön kommenttisysteemissä.

Omassa ryhmässäni kärpäsissä epävarmuus liittyy samalla tavalla useimmiten käytettävissä olevien määritysohjeiden epätäydellisyyteen tai huolimattomaan tulkintaan, mutta lähes aina läsnä on myös tuntemattomien lajien mahdollisuus ja joskus myös aktiivinen ristiriita lajikonsepteissa. Uusin tieto on silppuna siellä täällä, usein osin julkaisemattomanakin.

Sami_Haapala · Maaliskuu 16, 2019, 6.35pm

Heräsin myöhään tähän viestiketjuun ja paljon juttua on jo kirjoitettu.

Minä olen omaksunut coll merkin käyttämisen: coll- collection.
SIP Haapala coll. Jalaksen oppaassa on jo tämä lyhenne ja sen merkitys kerrottu. Sieltä olen omaksunut tämän. Huvittaa termin muunlainen käyttö. Mielellään estäisin muun käytön samalle lyhenteelle.

Virtalan kannassa otettiin käyttöön group - määrite; esimerkiksi Mesapamea secalis - yökkönen.
Tämä group termi on minusta huomattavasti kuvaavampi, ja populisimin vallitessa myös maallikoiden paremmin ymmärrettävissä kuin cf. tai. coll lyhenteet.

Tämä tarve tuli esiin kun etelärannikon rysissä oli 2-3 tuhatta Mesapamea yökköstä yhdellä kerääjällä kauden aikana (useampi rysä). Jokaista yksilöä ei kukaan “täysjärkinen” ajan puutteen takia lähde tarkistamaan, mutta siinä seassa voi hyvin olla M. didyma yökköstä. Harvinainen etelärannikon sisarlaji, erot löydettävissä genitaaleista.

Tällöin perustettiin uusi “laji” olemassa olevien rinnalle M. secalis group. Saatiin talletettua secalis havainnot.

Vastaavaa määritystä voisi käyttää esimerkiksi silloin kun laji splitataan kahdeksi uudeksi lajiksi ja tällöin kaikki vanhat havainnot ohjataan tuohon group lajiin, vasta uuden tarkastelun jälkeen siirto oikeisiin lajeihin. Esim. Timandra griseata mittari.

Sitten kun yksittäinen havainto saa kommentteja, pitää ilmoittajalle tulla myös ilmoitus tästä - esimerkiksi kirjautumisen yhteydessä, kuten nyt noiden uusien kavereiden hyväksymiskäytännöissä. Sinulla saattaa olla virheellisiä havaintoja tms teksti.

Toi havaintojen määrityksen tekemisen painoarvo on vähän kinkkinen juttu. Esimerkkejä on lukuisia FB ryhmissä. Pahimmillaan kymmenet ihmiset sanovat kuvan olevan laji A ja yksi sanoo sen olevan laji B.
Laji B on kuitenkin se oikea määritys. Eri käyttäjätasot pitäisi saada käyttöön, jotta B laji vaihtoehto kumoisi noi A vaihtoehdot.

Myös “määritys oikein” vaihtoehto pitäisi olla valittavissa.

Ongelmana on myös asiantuntijoiden ajan vähyys, he eivät millään ehdi joka paikkaan kirjatua ja tarkastaa lukuisia määrityksiä. Pitäisi olla enemmän kuin 2 tasoa esim. aloittelija/harrastaja/advanced/expert. Ylemmän tason määritys voisi kumota alemman tason määrityksen. Tämä tuo taas oman ongelman, ylemmän tason virhe havaitaan alemmalla tasolla. pitäisi pystyä haastamaan se määritys. moniulotteinen yhdistelmä…

Jeren mainitsena lisämääre, miksi havainto on epäluotettava, on hyvä ja tärkeä lisäys - paikka, aika, kehitysaste ovat varmasti ne lajimäärityksen jälkeen yleisimmät virheiden lähteet.

Sami_Haapala · Maaliskuu 16, 2019, 6.45pm

Edelleen tätä ajatusta muokaten, kun tulostetaan jonkin lajin lentoaikoja, esimerkiksi vain loppkesällä lentelevä apolloperhonen. Lajista on kuitenkin alkukesän/kevään havaintoja, jotka ovat toukkia.

Jos tähän tietokantaan tulee jossain vaiheessa Diagrammi ominaisuuksia pitäisi toukat olla esimerkiksi eri pylväsvärillä, ja epävarmat omilla. Siten saadaan aineistoa siivottua.

Jari_Kaitila · Maaliskuu 18, 2019, 7.35am

Kirjoitan tämän viestin paitsi omana mielipiteenäni myös SPS:n ja perhosten eliötyöryhmänä toimivan SPS:n suojelutoimikunnan edustajana.

Onko tosiaan niin, että taustalle ei ole tarkoitus rakentaa automatiikkaa (raja-arvoja), joka karsii poikkeavat havainnot erilleen ja jotka asiantuntijaryhmä (voi olla muutakin kuin LT’KM:n asiantuntijaporukka) arvioi? Miljoonatasoisissa vuotuisissa havaintomäärissä liikuttaessa kaikkien havaintojen manuaalinen arviointi on yksinkertaisesti mahdotonta. Jokaiselle havainnolle tulee siis luoda oma annotointistatus-kenttä, jonka perusteella voi tehdä hakuja ja jokaisella havainnolla tulee siis olla arvo tässä kentässä. Raja-arrvojen sisään menevä havainto saa arvon “automaattisesti hyväksytty” ja loput menee “tarkastuslistalle”. Toki myös automatiikan hyväksymiä havaintoja tulee voida kommentoida ja siirtää tarkastuslistalle. Tarkastuslistaa perattaessa tehdään manuaalinen arviointi, jonka tuloksesta riippuen annetaan muita annotointiarvoja. SPS on taustakeskusteluissa erittäin selkeästi tuonut esiin perustelut, miksi ja millä periaatteilla sellainen kannattaa rakentaa.

Tässä ketjussa on tuotu esiin hyviä huomioita, mutta silti suosittelisin kaimamaan esiin Hyönteistietokannan perhoshavaintojen annotointiin mietityt prujut (nämä periaatteet SPS on tuonut palavereissa esiin ja tarvittaessa voin niitä kerrata). Vaikka niiden hyödyntäminen jäi puolitiehen ja lyhytaikaiseksi johtuen siitä, että teknisten syiden eli kantaan tehtyjen päivitysten myötä annotointiin tehdyt toiminnot “lopettivat toimimisen”, niistä saatu kokemus oli se, että niillä periaatteilla tehty annotointi toimii myös käytännössä suurillakin havaintomäärillä.

Jos automatiikkaan perustuvaa annotointia ei tule, niin koko kannan data tulee menettämään merkityksensä hyvin nopeasti ja pitemmälle edistyneet harrastajat hylkäävät koko kannan ennen pitkään. Jo nyt ainakin perhos-datassa on niin paljon virheitä, että sen käyttö esim. uhanalaisarvioinnissa vaati paljon “tulkintaa” ja paljon ylimääräistä aikaa, kun monissa lajeissa sai yksitellen availlla jopa kymmeniä havaintoja ja arvioida jokaisen oikeellisuuden (tai lähinnä virheellisyyden) erikseen. Seuraavaan arviointiin tilanne ehtii mennä aivan mahdottomaksi, jos tuota automaatiikkaa ei taustalle tule. Josta taas seuraa se, että sekä SPS:n että suojelutoimikunnan täytyy alkaa miettiä muita keinoja ongelman ratkaisemiseksi.

Lisäksi tulisi huomioida seuraavia asioita:

Havainto tulee voida merkitä myös vääräksi ja myös nämä havainnot tulee säilyttää kannassa ja ne pitää pystyä hakemaan omana ryhmänään kannasta. Tämä siksi, että julkaistussakin datassa on viirheitä ja vaikka virhe olisi myöhemmissä julkaisussa korjattu, niin joku voi kaivaa tuon havainnon siitä vanhemmasta julkaisusta esim. 20 vuotta myöhemmin ja tallentaa sen kantaan ja sitä myötä tuo virheeksi todettu havainto palata takaisin “oikeana” havaintona listoille kummittelemaan. Mutta jos tuo havis on jo kannassa, niin se jää todennäköisesti heti kiinni. Olisi siis erittäin tärkeää, että kaikki julkaistut väärät tiedot löytyisivät kannasta mahdollisimman kattavasti.

Joka vuosi Suomelle löydetään uusia lajeja ja niitä on myös ilmoitettu kantaan. Mutta niiden hakeminen kannasta ei onnistu ennen kuin ks. nimi on (vuotta myöhemmin) lisätty kantaan. Tämä on äärimmäisen merkittävä puute, sillä ainakin perhosharrastajien näkökulmasta näiden maalle uutena tavattujen lajien kiinostavuusaste on kaikkei korkein.
Tämä ongelma voidaa helposti poistaa siten, että kun kantaan jirjataan “tuntematon taksoni”, niin siinä yhteydessä voi antaa lisätiedot, että kyse on maalle uudesta lajista, joka on esim. perhonen, joka kuuluu heimoon Noctuidae ja alaheimoon Noctuinae jne. Tuon jälkeen kannassa olsi heti tiedot, jolla perusteella ks. havainto saataisiin mukaan tulostuksiin. Ja tottakai, jokainen maalle uusi havainto menisi automaattisesti tarkastuslistalle,

Kohtaa 2) vastaava asia tulee rakentaa myös importti-havainnoille vastaavin periaattein ja lisäksi Suomesta tavatut importti-lajit tulisi ehdottomasti lisätä kannan lajilistaan (toki taustatiedoissa oma statuksensa), sillä esim. vieraslajiseurannan näkökulmasta nämä ovat erittäin merkittäviä tietoja. Esim. pari viikkoa sitten Suomesta tavattiin ensimmäisen kerran tomaatin erittäin merkittävä tuholaisperhonen (Tuta absoluta), joka on myös Eu:lla tarkassa seurannassa ( Tomaattijäytäjäkoi – Vieraslajit.fi)… Vaikka tuon nyt kantaan ilmoittaisi, niin sinne se tieto hukkuu.
Yhdistelmälajit ja myös lajitason alla olevat muodot sekä “mahdolliset kryptiset lajit” (monesti tiedetään jo paljon ennen (jopa 10 vuotta) taksonomista julkaisua, että jokin laji on kaksi tai useampia lajeja ja tiedetään myös, miten lajit erotetaan) tulisi ottaa kannassa käyttöön. Muut ovat ylempänä tuoneet näiden merkitystä hyvin esiin, joten en itse asiaa laajemmin kommentoi. Tietokannan tarkoitus on kerätä tietoa ja tiedonkeräystä on tarve tehdä myös muulta pohjalta kuin Suomen virallisen lajilistan pohjalta.

,

Riikka_Juutinen · Maaliskuu 18, 2019, 11.14am

Hyvää keskustelua ja asiallisia kommentteja, jotka voi allekirjoittaa myös sammalten osalta. Minusta kannattaa ehdottomasti käyttää tässäkin Kotkassa jo olevaa mahdollisuutta merkitä mikä tahansa taksonominen taso epävarmaksi.

Sami_Haapala · Maaliskuu 18, 2019, 1.02pm

JP kertoo samoja asioita joita on tahkottu jo 12-15 vuotta sitten.

Silloinen tietokanta ei taipunut koodauksen suhteen muutoksille. Toivotaan että nykyisessä saadaan prioriteettiä näiden asioiden suhteen nostettua. Annotointi ja sen automatisointi on iso asia, datan kasvaessa jos ei virheitä saada pois, niin jokainen tutkimus alkaa ihan samasta pisteestä; lopulta tutkijat siirtyvät omiin erillisiin tietokantoihin. Noi 12-15 vuotta sitten havaitut virheelliset havainnot ovat edelleen tuolla - ilman että niille olisi tehty mitään.

Tuplahavaintojen yhdistäminen on tässä yhteydessä maininnan arvoinen. Siitä ollaan jo infottu. Painotetaan lisää.

lisähuomioita:
kohta 2, jos tietokannassa olisi Euroopan lajilistat olemassa ja käytössä, uudet lajit voitaisiin helposti tallettaa, heti havainnon yhteydessä ja hakutoiminnot olisivat myös heti käytössä.
Virtalan kannassa otettiin käyttöö laji “Maalle Uusi” -nimi ja huomautus kenttään laitettiin se oikea nimi. Havainnon vahvistumisen jälkeen perustettiin sitten toi ko laji, ja nimettiin ilmoitetut havainnot uudestaan. Tämä oli kömpelö ja hidas manuaalinen toiminto, mutta tälla tavalla saatiin tieto eteenpäin. Hakutoiminnot toimivat myös tällä tavalla.
Nykyisessä tietokannassa olisi näillä “ei Suomi lajeilla” joku tunniste, väri kursivointi tms. jotta erotettaisiin vahvistetuista Suomi havainnosta ja lajeista. Vahvistustoiminto maalle uusista lajeista on sitten se täysin erillinen prosessi, joka tälla tavalla ei olisi sidottu havainnon ilmoittamisen ajankohtaan. Nykyinen toiminto on kömpelö eikä edes oikeasti vastaa nykyajan automaattisia prosesseja. Kirjoitin tästä oman kyselyn. Jokaiselle eliöryhmälle pitäisi ottaa vähintaan Euroopan lajillistat käyttöön. Importtilajeilla sekään ei ole riittävä, koska niitä tulee myös Amerikoista ja Aasiasta.

kohta 4. group tason ilmoitus pitäisi siis käytännössä olla mahdollsita tehdä joka ikiselle lajille.

EskoP · Maaliskuu 18, 2019, 2.14pm

Tämän vuoden kehityslistalle toivottavasti mahtuu automaattiset tarkistukset (vielä ei ole 2019 painotukset ihan suunniteltu loppuun, … mutta onhan tätä vuotta vielä jäljellä ).

Niitä tulisi kahdenlaisia:

Asiantuntijan määrittelemään levinneisyyteen perustuvia. Määritellään lajeille kymppiruudut ja mahdollisesti aikavälit joiden ulkopuoliset havainnot merkitään tarkistettaviksi.
Dataan perustuvat. Verrataan havaintoja nykyiseen havaintoaineistoon ja tutkitaan sen poikkeavuutta.

Jälkimmäiseen lähestymistapaan liittyy myös havainnont “mielenkiintoisuus”, joka on hiukan eri asia kuin laadunvalvonta.

Sami_Haapala · Maaliskuu 18, 2019, 2.52pm

juuri näin.

eka kohta silloin kun tietokannassa ei ole paljoa havaintoja lajista. Joissain ryhmissä ei ole aineistoa. Esimerkiksi kuulemma mukaan Hilleri havainnot tai vaikeat ryhmät.

toka kohta silloin kun havaintoaineisto rupeaa olemaan hyvin; suurin osa perhoshavainnoista.

toi mielenkiintoisuus on seuraus automaatiosta; kun olemassa olevan tunnetun levinneisyysalueen ulkopuolella esimerkiksi 200km tulee uusi täppä, ponnahtaa se poikkeavissa havainnoissa esille.
Vastaavia muita ovat lentoajat ja havaintovuodet.

Perhosissa halutaan seurata 2. ja 3. sukupolven havaintoja, voisi lajin taakse ohjelmoida oletetut lentoajat 1 polvelle, toka polvi havainnto nousisivat siten omalle uudelle listalle.
Hävinneet lajit, kun tavataan ensi kerran esimerkiksi 10 vuoden tauon jälkeen tunnetulta esiintymältä, nousee havainto listalle.

Edelleen halutaan seurata maakuntahavaintoja, tulisi uudet maakuntahavainnot omille listoille.
jne. mitä kaikkea tehdäänkään.

Myös Punaisen kirjan arvionneissa on monia määritteitä alueellisille merkittävyyksille; noi kaikki tai ainakin iso osa pystyttäisiin koodaamaan, jolloin työ seuraavaa punaista kirjaa varten auutomatisoituisi. Se noudattaisi aika paljon tätä alueellisesti merkittäviä ja mielenkiintoisia havaintoja. Uskoisin että jokainen ton uusimman kirjan mukana ollut tekijä kiittäisi tästä automaation edistymisestä. Minulla oli 2006 ajatus, että seuraavassa kirjassa automaatio olisi apuna, ja edelleen se sama elää - seuraavassa kirjassa

Havannoinnin ja keräilijöiden ollessa pitkälti tuolla Etelä rannikolla, periferia alueiden havaintojen tärkeys usein jää huomioimatta. Asiaan pystytään liittämään helposti pohjoiseen levittäytymiset ja sen negaatio, pohjoiseen pakenevat lajit (etelässä harvinaistuvat).

Kauden aikana havaintomäärien vähenemiset pystyttäisiin koodaamaan; esimerkiksi kun 2000 luvulla tuli lajista havaintoilmoituksia kaudessa 20k/vuosi, viimeisen 5 vuoden aikana vain 100 havaintoa/ vuosi. Samalla tapaa runsastuminen.

Näitä asioita siis ideoitiin silloin edellisessä tietokannassa, jäivät “koodausta vaille valmis” - tilaan.

Kun havaintoja sitten tutkitaan ja analysoidaan, tulisi niitä pystyä kyseenalalaistamaan ja annotinoimaan havainnot. Päästään täten takaisin tähän kehitysjärjestykseen, mitä pitäisi saada ekana tehtyä.

S

mattiv · Maaliskuu 18, 2019, 6.20pm

Periaatteessa tuon aluemäärittelyn voi välttää sillä, että katsotaan, kuinka kaukana uusi havainto on lähimmästä tunnetusta lajin havainnosta. Havainto tuskin on kovin poikkeava, jos lajia on esim. löydetty viereisestä 10km-ruudusta.

Mika_T · Maaliskuu 19, 2019, 12.49am

Erottelen tässä kolme erilaista annotointi-tilannetta:

a. aineisto, johon pitää ottaa kantaa, mutta johon ei pysty enää oikein palaamaan.

b. aineisto, jota on mahdollista tutkia, koska kuvia (tms.) on olemassa, mutta jonka kanssa asiantuntija nostaa kädet pystyyn ja on samalla sitä mieltä, että ei tästä
kukaan mukaan kaikella todennäköisyydellä lähitulevaiuudessa lajiin asti pääse.

c. aineisto, jota on mahdollista tutkia, koska näytteitä / kuvia (tms.) on olemassa ja lisäksi uskotaan, että voidaan päästä lajiin asti, kunhan riittävän pätevä asiantuntija löytyy hommiin. (Kun havainnoitsija merkitsee jonkun lajin epävarmaksi, ollaan samoin kohdassa c - lähtökohtaisen optimistisesti).

c-tapauksessa pidän epävarmaksi merkitsemistä hyödyllisenä, monestakin syystä:

Jos havainnoitsija merkinnyt epävarmaksi ja määritys meni pieleen, annotoitaessa pystyy paremmin opettamaan, kun tietää, mitä oli arveltu.
Aika isojakin sukuja on. Annotointi kuvien perusteella ei ole helppoa. Kaikki, mikä edistää sitä,että saa kerralla esim. yhtä lajia (mahdollisesti) olevat kuvat kerrallaan eteensä, parantaa annotoinnin tehoa ja laatua.
Kun haluaa annotoida herbaarionäytteitä näkemättä niitä (esim. massa-annotointitilanteissa), pidän epävarmaksi merkitsemistä asiallisimpana (vrt. esim. coll.-tasolle vienti). Hieman kärjistetysti: ihan hyvin sieltä rusakkonuljaska-kuoresta voi paljastua kärpässieni (eikä “rusakkonuljaska coll.”). En suosisi käytäntöjä, jossa sähköiselle järjestelmälle tarjotut nimet alkaisivat pyöriä omaa elämäänsä, vaan mieluummin sellaisia, jotka ohjaisivat niiden näytteiden tsekkaamiseen.
Epävarmaksi detattu on yleinen lähtökohtainenkin tilanne herbaarionäytteidenkin kohdalla, joten epävarman statuksella olevaa dataa on tulossa siltäkin suunnalta. On hankala ajatella, että näitä esim. kirjattaisiin jotenkin muuten (varmalle tasolle). (Kotkan puolella olisi tarvetta vahvalle suositukselle siitä, miten epävarmuus pitäisi merkitä, jotta yhtenäinen käytäntö syntyisi).

Annotoinnissa olen alkanut hahmottaa ongelmaksi sen, että nuo 2-tyypin havainnot jäävät pyörimään tielle. Ne pitäisi saada jotenkin (asiantuntijan?) merkittyä "loppuunkäsitellyiksi (=määritys lajin tarkkuudella ei mahdollista). En tarkoita, että täysin piiloon, voi hyvin tulla tilanteita, jossa joku haluaa niitä penkoa. Tässä kohdin (sekä a-kohdan tapauksessa) pidän parhaimpana tarkimmalle mahdolliselle tasolle määrittämistä.

**

Annotoinnissahan voi syntyä tasapeli- ja melkein-tasapeli-tilanteita. Kai yksi vaihtoehto voisi olla, että määritellään tällaiset tilanteet erikseen ja niille oma täppä (api?),
jolloin ne sitten on mahdollista nostaa esille ja yhteisön käsittelyyn - eivätkä ne hautaudu jonnekin.

Mutta peukutus-äänestys-tyypisestä ratkaisusta en ole innostunut, tulee sellainen epäilys, että äkkiä sitä peukutetaan henkilöä ja hänen asiantuntemustaan. Määritys/näkemys pitäisi sanallisesti pystyä perustelemaan.

DipteraJere · Maaliskuu 19, 2019, 7.42am

Näin yksityishenkilönä, ei museon virallisena kantana

Suuri osa näistä ongelmista ei oikeastaan ole havaintotietokantaan liittyviä; ne ovat korjattavissa sillä, että perhospuolen nimistötietokannan ylläpitoa aktivoidaan.

[quote=“Jari_Kaitila, post:12, topic:7015”]

Havainto tulee voida merkitä myös vääräksi ja myös nämä havainnot tulee säilyttää kannassa ja ne pitää pystyä hakemaan omana ryhmänään kannasta. Tämä siksi, että julkaistussakin datassa on viirheitä ja vaikka virhe olisi myöhemmissä julkaisussa korjattu, niin joku voi kaivaa tuon havainnon siitä vanhemmasta julkaisusta esim. 20 vuotta myöhemmin ja tallentaa sen kantaan ja sitä myötä tuo virheeksi todettu havainto palata takaisin “oikeana” havaintona listoille kummittelemaan. Mutta jos tuo havis on jo kannassa, niin se jää todennäköisesti heti kiinni. Olisi siis erittäin tärkeää, että kaikki julkaistut väärät tiedot löytyisivät kannasta mahdollisimman kattavasti.[/quote]

Tämä on jo (melkein) mahdollista. Eli havainnon voi merkitä mahdottomaksi, jolloin se ei näy hakutuloksissa ilman temppuilua. Alkuperäinen väärä tieto löytyy, jos hakuehdoissa ilmoittaa, että korjauksia ei käytetä. Nykysysteemissä haku taitaa käyttää viimeisintä määritysehdotusta, joten vääräksi merkitty havainto voi uudestaan muuttua oikeaksi, jos vääräksi toteamisen joku merkitsee sen taas oikeaksi.

[quote=“Jari_Kaitila, post:12, topic:7015”]
2. Joka vuosi Suomelle löydetään uusia lajeja ja niitä on myös ilmoitettu kantaan. Mutta niiden hakeminen kannasta ei onnistu ennen kuin ks. nimi on (vuotta myöhemmin) lisätty kantaan. Tämä on äärimmäisen merkittävä puute, sillä ainakin perhosharrastajien näkökulmasta näiden maalle uutena tavattujen lajien kiinostavuusaste on kaikkei korkein.
Tämä ongelma voidaa helposti poistaa siten, että kun kantaan jirjataan “tuntematon taksoni”, niin siinä yhteydessä voi antaa lisätiedot, että kyse on maalle uudesta lajista, joka on esim. perhonen, joka kuuluu heimoon Noctuidae ja alaheimoon Noctuinae jne. Tuon jälkeen kannassa olsi heti tiedot, jolla perusteella ks. havainto saataisiin mukaan tulostuksiin. Ja tottakai, jokainen maalle uusi havainto menisi automaattisesti tarkastuslistalle,[/quote]

Kaikki tiedot löytyvät havainnossa käytetyllä nimellä hakien, mutta ylemmällä taksonilla hakien ne eivät tosiaan löydy. Paras ratkaisu tähän olisi kyllä se, että perhospuolellakin uuden nimet lisättäisiin nimistötietokantaan saman tien. Toki siellä voisi olla pohjalla valmiiksi todennäköisimpiä tulijoita (tai laajemminkin maailman lajistoa, jolloin tosin tulee hankaluuksia perhospuolella perinteisen lajitason systemaattisen järjestyksen ylläpitämisessä).

[quote=“Jari_Kaitila, post:12, topic:7015”]
3. Kohtaa 2) vastaava asia tulee rakentaa myös importti-havainnoille vastaavin periaattein ja lisäksi Suomesta tavatut importti-lajit tulisi ehdottomasti lisätä kannan lajilistaan (toki taustatiedoissa oma statuksensa), sillä esim. vieraslajiseurannan näkökulmasta nämä ovat erittäin merkittäviä tietoja. Esim. pari viikkoa sitten Suomesta tavattiin ensimmäisen kerran tomaatin erittäin merkittävä tuholaisperhonen (Tuta absoluta), joka on myös Eu:lla tarkassa seurannassa ( http://www.vieraslajit.fi/lajit/MX.53017/show )… Vaikka tuon nyt kantaan ilmoittaisi, niin sinne se tieto hukkuu.[/quote]

Tästä samaa mieltä: nimistötietokantaan pitäisi saada Suomesta tavatut importit ja ainakin yleisimmät muutkin kulkeutuvat/tuholaislajit.

Tässä asiassa muutama tutkija vastustaa ehdottomasti kuvaamattomien lajien mukaan ottamista. Itse pidän tiettyjen kuvaamattomien lajien mukana pitämistä järkevänä: kuvaamattomia kärpäslajeja (“Cheilosia sp. A”) on nimistötietokannassa, mutta piilotettuna niin, että ne eivät näy lajistolistauksissa, Laji.fi ei niitä tarjoa jne. Mutta tietojen pitäisi linkittyä taksoneihin, jos havaitsijat tietävät käyttää näitä pseudonimiä.

Perhoslista on toiseenkin suuntaan ehkä käytännön havaintojen keruun kannalta turhan formaali tässä hetkellä; monissa muissa ryhmissä on käytetty enemmän “taksoni-ryhmä”/species aggregate-tasoa, jolle perhospuolella olisi paljonkin käyttöä. Esim. “Mesapamea secalis-ryhmä” tapauksille, joissa secalis/didyma-paria ei ole eriteltu. Samoin “Timandra griseata-ryhmä” vanhoille tiedoille, joita ei ole eroteltu, “Leptidea sinapis-ryhmä” parille sinapis/juvernica.

Perhospuolella tällainen taksoni on esim. rusakkonuljaska-ryhmä, joka syntyi, kun rusakkonuljaska äskettäin jaettiin 6 lajiin, joista useampi esiintyy Suomessakin. Kaikki vanha data on rusakkonuljaska-ryhmää, kunnes toisin osoitetaan.

mikko · Maaliskuu 19, 2019, 10.12am

Kiitos kaikista kommenteista. Tämä keskustelu lähti kysymyksestä miten epävarmoja määrityksiä tulisi voida tallentaa. Tähänastisen keskustelun (ja muun selvityksen) päätelmänä voisin sanoa että tarvitaan sekä mahdollisuus merkitä määritys epävarmaksi, että mahdollisuus käyttää ylempää taksonia.

Tämä jo sen takia, että dataa kerätään monesta lähteestä, jolloin tietovaraston ja hakupalvelun pitää varautua erilaisiin käytäntöihin.

Houkuttelevalta tuntuu myös “ryhmätaksonien” (coll/ryhmä/group) käyttö - näiden hyötyjä on tuotu esille monella esimerkillä, mutta toisaalta osa taksonomeista vierastaa epävirallisia ryhmittelyjä. Toteutustapojakin on monia, esim. määritellä sallitut ryhmätaksonit asiantuntijan toimesta (vaatii hyväksyntää ja työtä taksonomiavastaavilta) tai jonkinlainen mahdollisuus havainnoijalle lisätä niitä itse (joustavampaa, mutta vaarana kaoottisuus).

Käytännössä olisi siis kahdenlaista epävarmuutta (sen lisäksi ettyä määrityksen voi jättää haluammalleen taksonimiselle tasolle):

määrittelemätön epävarmuus: epävarma kalatiira voi olla myös vaikka naurulokki
ryhmäepävarmuus: kalatiira-ryhmä tarkoittaisi kala- tai lapintiiraa

Sen sijaan vierastan ajatusta että myös annotaatiomäärityksiä pitäisi voida merkitä epävarmoiksi, koska tämä monimutkaistaa jo muutenkin monimutkaista logiikkaa. Mitä jos ei-asiantuntija määrittää heimon varmana, ja asiantuntija määrittää lajin epävarmana? Jos asiantuntijan näkemys on painavampi, luokitellaanko havainto tällöin epävarmaksi? Vai voidaanko olettaa että ainakin suku on varma? Mitä tapahtuu jos epävarma määritys kyseenalaistetaan?

**

Annotaatioden hallinnasta minulla on alustava suunnitelma, jonka on tarkoitus ratkaista esille tuotuja ongelmia. Tähän sisältyy myös annotoijien asiantuntija / ei-asiantuntija -luokittelu. Avaan suunnitelmaa täällä, kun ollaan sitä vielä keskusteltu Lajitietokeskuksen sisällä.

Automaattisesta poikkeavien havaintojen seulonnasta on myös keskusteltu, ja annotaatioihin sellainenkin tulee kyllä mukaan, vaikka ei välttämättä heti seuraavassa vaiheessa. Minulla on oma pieni demokin “mielenkiintoisuuspisteytyksestä”, jonka jaan täällä kunhan saan sen julkaisukuntoon.

**

Mutta peukutus-äänestys-tyypisestä ratkaisusta en ole innostunut, tulee sellainen epäilys, että
äkkiä sitä peukutetaan henkilöä ja hänen asiantuntemustaan. Määritys/näkemys pitäisi sanallisesti
pystyä perustelemaan.

Sivuohuomiona mainiten: tämä on ollutkin ongelmana iNaturalistissa, jossa muuten on hyvin toimiva määritysannotaatiojärjestelmä jolla on satoja tuhansia käyttäjiä. Hankalaa on tehdä kaikissa tilanteissa toimivaa systeemiä.

Ketju		Vastauksia	Katseluita
"Tuntematon laji" Havaintopalvelu Vihko havaintopalvelu	29	1234	27. Lokakuu[ta] 2018
Kehitysideoita Vihkoon Lajitietokeskus lajitietokeskus , havaintopalvelu , vihko	15	1178	13. Maaliskuu[ta] 2017
Määrityksen korjauksen korjaus?! Havaintopalvelu Vihko havaintopalvelu	25	1193	14. Toukokuu[ta] 2018
Jälleen kokemuksia Vihkosta Havaintopalvelu Vihko	20	886	04. Tammikuu[ta] 2019
Milloin kannattaa merkitä havainto/määritys epävarmaksi Havaintopalvelu Vihko	11	789	25. Syyskuu[ta] 2019

Miten epävarmat määritykset pitäisi tallentaa?

Liittyvät ketjut