Havainto tuplaantunut?

Tässä selailin joutessani omia viime vuoden havaintojani ja panin merkille mielestäni hieman oudon seikan. Löysin viime toukokuussa V: Karjalohjalta nätkelmämaamehiläisen (Andrena lathyri) uuden esiintymispaikan, ja nyt huomasin että se on tietokannassa kahteen kertaan ja eri tunnisteillakin. Oma talletukseni on Havaintoerä | Suomen Lajitietokeskus mutta nyt siihen viittaa toinenkin: Havaintoerä | Suomen Lajitietokeskus
Ja tämän toisen ilmeisen äskettäin ilmaantuneen otsikkona on “LajiGIS: Lajin seurantakohteet”
Ymmärrän toki että se on erityismielenkiinnon kohteena kun on EN ja erkkarilaji, mutta on hieman hassua että yksi havainto sitten tuplautuu ja vääristää tilannetta jos joku vaan nopeasti hakee havaintomääriä. Onko kenties joku automaattinen bottisysteemi tuon taustalla? Ja olisiko mahdollista että nuo tiedot saadaan yhdistettyä ettei tule erheellistä tietoa kahdesta erillisesta havainnosta.

Ensimmäinen on oma havaintosi Vihkossa, ja toinen tulee Metsähallituksen LajiGIS-järjestelmästä. Havainnot sieltä kopioidaan Lajitietokeskukseen viikoittain. Koska lajitietoja on tallennettu ja tallennetaan edelleen lukuisiin eri paikkoihin, joista tietoja voidaan jakaa Lajitietokeskukseen, tulee tällaisia tuplia väistämättä.

Jonkinlaista automaattista klusterointia/ryhmittelyä tähän tullaan varmaankin tekemään, mutta en osaa sanoa millaista ja milloin.

Mikko / Lajitietokeskus

Ok. Mutta tuo toinen on kyllä ilmaantunut varsin äskettäin. Tuoreeltaanhan talletin havaintoni heti viime vuoden toukokuussa, eikä tuo LajiGIS-tupla siellä kyllä ollut vielä viime syksynä kun kokonaishavaintojani tarkistelin raporttiani varten.
Hyvä tosiaan olisi jollain tapaa saada koordinoitua homma.

Ja tein nyt vähän tarkastelua tämän lajin havaintojen puitteissa: siinä ei tunnu olevan oikein logiikkaakaan, koska osa havainnoista on tuplana, osa ei, kuten v. 2018 Kakskerrasta tekemäni kaksi havaintoa. Toinen niistä on mainittu tuplana LajiGIS:issä, toinen ei. Sama muitten vuosien havainnoissa, osa on osa ei. Ja esim. Juha Pöyryn Inkoon havainto 2020 on vain omanaan.
Olisi siis syytä selvittää tilanne, koska sotkuahan siitä mun mielestä tulee tuolla tavalla.

1 tykkäys

Selvittelimme asiaa LajiGIS:iä ylläpitävän Metsähallituksen kanssa

Havaintosi on tallennettu LajiGISiin Varsinais-Suomen ELY-keskuksessa. Oletko ilmoittanut havaintosi heille? Vai ovatkohan he poimineet sen LajiGIS:iin Vihkosta tai muuta kautta omatoimisesti?

Metsähallituksen alueilla ja YSA-alueilta olevat seurattavien lajien havainnot (uhanalaiset, silmällä pidettävät, direktiivilajit, vieraslajit) halutaan LajiGIS-järjestelmään, josta ne kulkeutuvat uudelleen Lajitietokeskukseen.

Tulemme kehittämään siirtoa siten, että tapauksissa, joissa tiedon lähde on jo jokin Lajitietokeskuksessa oleva lähde, LajiGIS:ssä merkitään tämä tieto, ja havaintoa ei enää lähetetä Lajitietokeskukseen (uudelleen). Tämän onnistuminen riippuu osittain siitä, muistavatko käyttäjät käyttää merkintää, joten täysin tätä ei saada automatisoitua/aukottomasti tuplien syntymistä estettyä.

Esko / Lajitietokeskus

Näihin tupliin liittyy muitakin ongelmia, esim museonäytteiden osalta. Havaintomäärät siis tuplaantuvat tai moninkertaistuvat ja muuttuvat virheellisiksi eri listauksissa. Tässä tapauksessa myös havainnoijan nimi muuttuu jolloin havainnot eivät kohdennu enää samaan henkilöön eli tässä tapauksessa alkuperäiseen ilmoittajaan Laji.fissä. Havainnon ja aineiston tyyppi muuttuu myös kun alkuperäinen havainto on kahden palkin harrastusaineistoa joka on tuplassa muuttunut ammattiaineistoksi. Sama havainto on siis kahdella eri statuksella sitten Laji.fissä. Samaten havainnon julkisuus muuttuu kun tässä alkuperäinen havainto on avointa dataa mutta LajiGisissä havainto on muuttunut osittain salatuksi eli se karkeistetaan ja syyksi ilmoitetaan: Karkeistuksen syy: Tiedon tuottajan rajoittama aineisto. Tästä sitten seuraa että sama havainto on vihkossa sekä avoimena että karkeistettuna. Talletetaanko LajiGisiin siis myös kuvat? Mites mediatiedostojen lisenssirajoitukset otetaan tässä huomioon?

Tähän korjauksena, että havainto ei ole “Vihkossa” kahdesti, vaan Vihko ja LajiGIS ovat kaksi eri tietojärjestelmää. Mutta on siis Lajitietokeskuksen havaintojen tietovarastossa kahdesti, kahdesta eri tietolähteestä.

Ei tallenneta. Lisäksi mitään ei siirettä automaattisesti Vihkosta LajiGIS:iin, vaan tieto voidaan ilmoittaa ja/tai syöttää (“manuaalisesti, käsipelillä”) kahteen paikkaan. Mikäli LajiGIS:ssä olisi kuvia, niin silloin ilmoittaja olisi ne sinne itse toimittanut, eikä lisensseissä olisi ongelmia.


Tuplia tulisi aina välttää soveltamalla hyviä tiedon käsittelyn periaatteita: jos tietoa replikoidaan, pidetään yllä tietoa siitä missä on ko tiedon alkuperäislähde ja pyrittäisiin pitämään tietueet ajan tasalla alkuperäislähteen kanssa – mutta käytännössä tuplia on ja tulee olemaan.

Lajitietokeskukseen laadunvalvontatyökaluja on tarkoitus kehittää siten, että käsipelillä tuplia saadaan merkittyä, ja pikku hiljaa parannetaan käytäntöjä ja järjestelmiä siten, että tietojärjestelmien väliset tunnisteiden linkitykset toimivat.


MUTTA sitten henkilökohtainen mielipiteeni, jolla en lainkaan pyri vähättelemään esiin nostettuja ongelmia, vaan enemmänkin haen ymmärrystä ongelmaan:

Henkilökohtaisesti en ole koskaan sisäistänyt periaatteellista ongelmaa, joka tuplahavaintoon liittyy. Jos olisi kyse systemaattisesta seurannasta, jossa vakioidulla menetelmällä lasketaan/kerätään tietoa, ja sitten se jotenkin tuplaantuisi, tämä tietenkin aiheuttaisi lukuihin ja tuloksiin vinoutumaa. Mutta jos on kyse satunnaishavinnoinnista / satunnaisesta keräilystä, niin minä voin esimerkiksi ilmoittaa kotipihallani asustelevan tikan seuraavilla tavoilla:

  1. Ilmoitan ainoastaan kerran, että tässä on pesinyt tikka
  2. Ilmoitan joka vuosi, että taas se pesii
  3. Ilmoitan joka viikko kuinka pesintä edistyy
  4. Ilmoitan joka päivä kun näen sen tikan
  5. Myös kaverini joka käy kylässä voi ilmoittaa saman tikan

Jos minä ilmoitan sen tikan 100 kertaa, kuinka tässä kokonaisuudessa se, että myös kaverini ilmoitti saman tikan vaikuttaa mihinkään? Jos joku kopioisi yhden havainnoistani toiseen järjestelmään ja se tulisi sieltä Lajitietokeskukseen tuplana, kuinka se vaikuttaa tähän kokonaisuuteen mitenkään?

Sama voidaan yleistää myös näytteiden keräilyyn. Voit kerätä yhdeltä “paikalta” (paikan määritelmä?) yhden sienen ja ilmoittaa sen kerran. Voit kerätä paikalta kymmenen samaa sientä ja ilmoittaa ne kaikki erikseen. Voit käydä joka vuosi keräämässä paikalta sienen.

Koska kyse ei ole systemaattisesta menetelmästä, mitä väliä sillä on, että jokin on listauksissa 1, 2, 10 tai 100 kertaa? Mitään tutkimusta, maankäytön suunnitelmaa, uhanalaisuusarviointia tms ei voi perustaa havaintojen lukumäärään, jos kyse ei ole vakioidulla menetelmällä kerätystä datasta. Aina tarvitaan harkintaa?

Esko / Lajitietokeskus

Samaan yksilöön kohdistuvat useat havainnot ovat oma lukunsa, niitä on esim. tiirassa käsitelty koonteina eli niistä on tehty koontihavaintoja. Varmasti työlästä ja paljon manuaalisia vaiheita sisältävää datan siistimistä. Tässä motiivi on varmaankin aineiston luettavuuden parantaminen harvinaisten/uhanalaisten lajien osalta.

Tästä en ylhäällä kuitenkaan kirjoittanut. Tarkoitin yhden ja saman havainnon erilaisista duplikaateista syntyviä ongelmia/sotkuja. Elikkä siitä että yksi ja sama havainto monistuu koska havainnon yksilöivä tunniste ei syystä tai toisesta yhdistä havaintoja. Esim havainto ja sitä dokumentoiva näyte eivät yhdisty ja syntyy turhaan kaksi havaintoa ja ylimääräistä työtä tiedon tallettajalle. Tai että yhden henkilön havainto duplikoituu monelle havannoijalle koska nimien kirjoitusasu on toinen, esim etunimi ensin etc. eikä havainnoijalla ole mitään keinoa yhdistää näitä oman havaintonsa duplikaatteja itseensä, omiksi havainnoikseen. Tai saman havainnon luokitus on eri duplikaateissa erilainen, esim ammattiaineisto/harrasteaineisto, tai sama havainto en sekä salattu että salaamaton eri duplikaateissa.

Tässä ei siis ole kyse samaan yksilöön kohdistuvista monista havainnoista vaan yhden havainnon duplikoitumisesta koska havainnon yksilöivä tunniste ei välity järjestelmien välillä taikka järjestelmät ovat yhteensopimattomia, puuttuu esim kenttä tältä tunnisteelta. Varmasti erittäin haastavia tietoteknisiä ongelmia nämäkin.

En ainakaan kaikkia nätkelmämaamehiläishavaintojani ole ely:yn tosiaan suoraan ilmoittanut, ja kuten eräästä esimerkistäni kävi ilmi että v. 2018 havainnoistani toinen oli GIS:issä, toinen ei, se viittaa enemmän siihen että joku on niitä käynyt erikseen poimimassa ja merkkaamassa.
En sitten tiedä, itse koen kuitenkin hieman ongelmallisena jos joku esim. kerää jotain julkaisua varten tietoja ja nopeasti vaan vilkaisee havaintomäärät tietokannasta. “Nätkelmämaamehiläishavaintoja on tehty silloin ja silloin niin monta”; onhan se hieman harhaanjohtavaa jos niitä onkin sitten todellisuudessa puolet vähemmän.

Ymmärrän kyllä esimerkkiesi valossa ongelmat havaintojen talletuksessa, mutta ainakin kahtena eri päivänä tehty havainto on eri, on se sitten samasta yksilöstä tai ei.
Kakskerrassa esiintyvästä palosirkasta (jonka aikanaan sieltä itse löysin) olen pyrkinyt kirjaamaan vähintään havainnon per vuosi että ainakin tietää lajin yhä paikalla elävän vuodesta toiseen.
Onhan tässä fundeeraamista.

Kyllä, tiedonhallinnallinen ongelma on merkittävä: Jos näytteen määritys muuttuu, kuinka moneen havaintoon ja tietojärjestelmään se pitää käydä korjaamassa? Saadaanko tieto välittymään eteenpäin?

1 tykkäys

Kiitos tiedosta! Otetaan asia esille ja parannetaan käytäntöjä. Esim otetaan mainittu tiedon lähde -muuttuja käyttöön LajiGIS:ssä ja parannetaan tiedonsiirtoa siten, ettei lähteiden tietoja tuplata Lajitietokeskukseen. Oma keskustelunsa on, millä logiikalla ja tavalla toisten havaintoja käydään “kopioimassa/poimimassa” Vihkosta…

1 tykkäys

Tässä on tullut ilmi myös se seikka, että vanhoja havaintoja on ollut jotenkin piilossa jossain niin ettei niistä ole ollut tietoa instanssien välillä.
Tällainen tuli vastaan:

http://tun.fi/KE.921/LGE.313226

Siinä on päälajina palosirkka, josta on Turun Kakskerrassa laskettu 20 koirasta 20.7. 1997. Mutta tästä ei kyllä ole ollut mitään tietoa ennen kuin nyt - itse löysin palosirkat juuri samalta paikalta kymmenen vuotta myöhemmin 2007 ja panin tuulemaan ja tiedottamaan ja paikalle perustettiinkin erkkarialue sen ansiosta. Turun ymp.toimistossakin kummasteltiin kun tästä kerroin ettei heillä ole ollut mitään tietoa tuosta 1997 havainnosta.

Ja siinä sitten on nipussa kolme muutakin erkkaria - nätkelmämaamehiläistä myöten, eikä tätäkään havaintoa ole ollut tiedossa kun luulin ja moni muukin alan kaveri että mun 2017 havainto olisi ollut Kakskerran ensimmäinen. Siinä kyllä ihmetyttää päiväys, palosirkalle se sopii kyllä mutta nätkelmämaamehiläiselle se olisi todella ennätysmyöhäinen.

Joku siis on tai joku projekti näitä lajeja havainnoinut, mutta tieto niistä ei ole sitten kulkenut. Johan noitten perusteella gradatella ja ichneumoniformis vielä lisänä paikalle olisi erkkarialue pitänyt perustaa jo silloin. Kaiken tämänkin takia olisi äärimmäisen kiinnostavaa saada tarkempaa selkoa noista havainnoista. Kuulemma joku tietoturvasäännös ettei havainnontekijän nimeä voi mainita mutta se on toisarvoista. Ei kai havaintojen yksityiskohdat - määrät, kehitysasteet ole salassapidettäviä? Erityisesti nätkelmämaamehiläisen kohdalla tämä tosiaan kiinnostaisi. Onko havainnosta valokuva/näyteyksilö? Koska kokemukseni perusteella se ei enää noin myöhään ole lennossa, kesä 1997 oli vielä aikainen ja lämmin.

Tämä on vain arvailua, mutta veikkaan että 2007 vs 1997 on tallennusvirhe LajiGIS:ssä. Ei-julkisesti näkyvässä kommentissa viitataan sinuun paikan löytäjänä.

Metsähallituksen LajiGIS -järjestelmän vastuuhenkilöt eivät taida lukea näitä foorumeita, joten virheistä kannattaa ilmoittaa havainnon kokoelman metatiedoissa mainituillle henkilöille

LajiGIS: Lajin seurantakohteet http://tun.fi/HR.3553

Jotain sekaannusta siinä kyllä varmaan on… mutta muistan aina oman “uusensihavaintoni” * paikalta ja se oli 22.7. 2007 jolloin havaitsin kaksi, en kaksikymmentä koirasta. Pian sen jälkeen mm. Turun ymp.toimiston kanssa käytiin laskemassa ja löytyikin paljon enemmän.
Kiitos vinkistä, täytyypä kysellä itse tiedon lähteiltä tarkemmin.

  • Tämä siksi että jo lapsena muistan palosirkat Kakskerrasta, jopa omalta niityltä; silloin niitä on täytynyt olla eri puolilla saarta kun laidunnus piti paikat avoimina. Muistan että v. 1986 näin Hevoshaassa yhden ja silloin ajattelin ettei niitä olekaan näkynyt enää paljoa. Ja sen jälkeen kuvittelin kai että pyörätienrakennus ym. hävitti esiintymän, kun sitten vasta parikymmentä vuotta myöhemmin kuulin lentorätinän ohipyöräillessäni ja havahduin siihen.

[quote=“Henri_Koskinen, post:5, topic:12761, full:true”]
Näihin tupliin liittyy muitakin ongelmia, esim museonäytteiden osalta. Havaintomäärät siis tuplaantuvat tai moninkertaistuvat ja muuttuvat virheellisiksi eri listauksissa. [/quote]

Moi.

Tässä tulee vastaan se fakta, että yksilö, havainto ja museonäyte ovat kaikki perusteellisesti eri asioita. Yhteen havaintoon voi liittyä monta yksilöä ja monta näytettä. Yhteen näytteeseen voi liittyä monta yksilöä. Näyte voi sisältää kaikki havainnon yksilöt tai sitten ei.

Onneksi sentään … Kotkassa määritelmän mukaan, käytännössä ei ihan aina … yksi museonäyte liittyy vain yhteen havaintotapahtumaa :slight_smile:

Ideaalia tässä olisi ehkä se, että pystyisimme merkkaamaan, miten näyteyksilöt ja havainnot liittyvät toisiinsa: “näytteet X, Y ja Z liittyvät lajihavaintoon A. Havainto A on sama kuin havanto B.”. Teoriassa aika triviaalia ja toivottavasti pääsemme merkkaamaan näitä riippuvuussuhteita pian!

Tämän yhteenkuuluvuustiedon käyttäminen järkevästi on kuitenkin kaikkea muuta kuin triviaalia.

Esim. mitä tehdään, kun A ja B on merkitty samaksi havainnoksi, mutta niiden löytötiedot ovat erilaisia. Piirretäänkö kartalle A, B ,molemmat vai ei kumpaakaan?

Jos yhdessä on havaitsijana “Kekkonen”, toisessa “P. Kakkonen” ja kolmannessa “P. Kekkonen & K. Paasikivi” millä nimihaulla tämän havaintoryhmän pitäisi löytyä?

Jos yksi havainto on karkeistettu, toista ei, mitä näytetään? Jos yksi on merkitty vääräksi ja toinen varmistetuksi, mitä tehdään?

@EskoP : nykytilassa, jossa tuplatietoja (ja muita yhteenkuuluvuuksia) ei voi dokumentoida, on se huono puoli, että havaintojen deletoinnista tulee houkuttelevaa.

Se houkuttelee myös merkitsemään tietoja vääriksi. Minulla on usein tilanne, jossa sama tieto on tietokannassa kolmesti; Hyönteistietokannassa, näyte Kotkassa, ja karkeistettuna LajiGISissä. Houkutteva, mutta kammottava ratkaisu olisi deletoida Hyönteistietokannan tieto, säilyttää museonäytteen tiedot ja merkitä LajiGISin tieto vääräksi, jotta se ei piirtyisi väärään paikkaan kartassa :poop:.

2 tykkäystä

:poop: tässä siis ajatuksilleni, ei LajiGISille! :smiley:

1 tykkäys