Tuplahavaintojen yhdistäminen?

Onko tuplahavaintojen (tripla, 4x, 5x jne…) tilanteelle tehty mitään kehittämistä?

Havaintoihin pitäisi saada ominaisuus että tämä havainto on sama kuin toi havainto.

Tuore esimerkki:

Facebookin puolella eräässä perhoskeskustelussa tuli esille että nämä kaksi havaintoa ovat oikeasti yksi ja sama havainto. MoIemmat rivit ovat tuotu hyönteistietokannasta.

Kyseessä on harvinainen vaeltajalaji, samanlaisia kenttiä ovat vain lajinimi ja paikka (+maakunta ja kaupunki). Kaikessa muussa löytyy eroja.

Tällaisia vastaavia ilmoituksia on aineistossa reilusti.
Ihan varmaa ratkaisuehdotusta minulla ei ole, mutta jollain tavalla nämä kaksi tulisi linkittää yhteen yhdeksi havainnoksi, kahden erillisen ilmoituksen kautta.

Sami

1 tykkäys

Lisää esimerkkejä:
Daphnis nerii - vuonna 2015 Sipoosta; 6 eri havaintoa ja 12 yksilöä. Samalta havainnoijalta, Luomus kannassa.

Alustavia suunnitelmia duplikaattihavaintojen yhdistämiseen on, mutta toteutusaikataulusta en osaa sanoa. Suunnitteilla on isompia parannuksia havaintojen annotointiin, ja duplikaattien annotointi on tässä mukana.

Tässä yhteydessä duplikaattihavainnoilla tarkoitan teknisestä virheestä, tietokantojen yhdistämisestä tms. johtuvaa tilannetta, jossa aikoinaan yhden kerran tehty havainto on päätynyt Lajitietokeskuksen tietovarastoon useana havaintona. Tätä vähän monimutkaisempi tilanne on jos useampi henkilö on tallentanut havainnon samasta/samoista yksilöistä. (Esim. BirdLifen Tiira-järjestelmässä näitä kutsutaan koontihavainnoiksi.) Tähänkin on parannusajatuksia, mutta ei vielä sen enempää.

No entäs kun on itse tallentanut havainnon aikanaan kahteen paikkaan, ja nyt ne ovat päätyneet samaan kantaan? Omalla kohdallani tällaisia yhdistelmiä ovat hyönteistietokanta + Hatikka sekä kasviatlas + Hatikka/Vihko. Hatikan/Vihon puoleltahan oman havainnon pääsee poistamaan, mutta jos on kirjauksen yhteydessä esim. tallentanut kasvista valokuvan (jota ei voi lähettää kasviatlaksen kautta), ja jota ei sitten pääse liittämään kasviatlaksen havaintoon (kun siihen ei ole muokkausoikeutta), niin ei viitsisi poistaa sitä Hatikan/Vihon havaintoakaan.

Toisaalta tällaisia tapauksia on (ainakin minulla) aika vähän, joten ehkä kehitystyössä kannattaa priorisoida tähdellisemmät hommat.

Toivoisin että duplikaattiongelmaan pidemmällä aikavälillä ja suuremmassa mittakaavassa saataisiin automatisoitu ratkaisu, joka osaisi yhdistellä riittävän samankaltaiset havainnot. Sama ongelma on maailmalla monella muullakin havainto/näytetietokannalla. Mutta tähän on vielä matkaa, joten ensimmäinen vaihe on todennäköisemmin työkalu, jolla duplikaatit voi merkitä käsipelillä.

1 tykkäys

Kaikki tuplahavainnoilta näyttävät eivät välttämättä niin ole. Minä olen tallentanut jokaisen kokoelmayksilön erikseen, jotta saan automaattisesti yksilökohtaisen etiketin luotua. Kannassa on siis tiedoiltaan identtisiä havaintoja vaikka jokainen on erillinen havainto, lisätietoissa on erottavana tekijänä numerointi koska hyönteistietokanta ei hyväksynyt muuten.

1 tykkäys

mulla on sama juttu, joka etiketissä on juokseva numerointi, ko havainnon pystyy täten jälkikäteen jäljittämään aina yksilöön saakka.
Tässä tietokannassa ei siihen ole omaa kenttää, se on nyt lisätiedoissa. Huono puoli on se ettei lisätietoihin ole vielä haku toimintoa; mulla on oma excel se primääri database.

Eli tässä periaatteessa tulisi ennen yhdistämistä kysyä ilmoittajalta - onko tuplahavis kyseessä.
Havainto menisi luokituksena tarkastettaviin.
Oletuksena on tupla, mutta tarkastettu leimalla varustettuna voisi muuttaa eri havainnoksi.

tms. prosessi vaatii pohdintaa; onko muualla tätä tehty kuinka paljon?
Mikä tietokanta on pisimmällä kehityksessä? Artportalen?

Automaatti voi olla tässä vaarallinen. Enintään antaisin automaatin tarjota mahdollisia duplikaatteja ihmisen hyväksyttäväksi/hylättäväksi.

Tämä on tosiaan hankala ja monihaarainen ongelma, josta erillaisia tavalla tai toisella toiseensa liittyviä tietoja on monenlaisia:

  1. puhtaita duplikaatteja eli identtisen tiedon toistoja: tämä on helppo tapaus
  2. epäpuhtaita mutta aitoja duplikaatteja (kuten A. squalida-esimerkkisi): sama tieto taustalla, mutta joko virheiden, erilaisten kirjaustapojen tai eri tarkkuuden vuoksi tiedot poikkeavat toisistaan.
  3. yhteen havaintoon liittyviä erillisiä tietoja (esim. havaintotieto henkilöltä X; havaintotieto henkilöltä Y; havaintoon liittyvät näyteyksilöt 1,2,3 eri kokoelmista; kirjallisuustieto näyteyksilöstä 2; DNA-näyte yksilöstä 3)

Kohdissa 2 ja varsinkin 3 hankalan ongelman muotostaa se, miten nämä eri yhteenkuulumisen pitäisi esittää kaikessa hakutuloksissa. Vaihtoehtoja on paljon ja mikään niistä ei ole kovin hyvä.

Nyt kuumeisena en muista enempää, mutta erilaisia riippuvuussuhteita luetteloitiin joskus enemmänkin.

Kannatan sinänsä sitä, että emme jää jumittamaan datan esittämisen vuoksi vaan teemme mahdollisimman pian edes jonkinlaisen työkalun, jossa eri tyyppisiä yhteenkuuluvuuksia voi merkitä. Eskon tekemän ensimmäisen mockup-version tällaisesta näinkin jo joskus syyspuolella.

Seuraava vaihe olisi ehkä antaa liittäjän suositella priorisoitavaa versiota 2-tyypin tilanteessa.

T: Jere

1 tykkäys

jos ehdottelun voisi tehdä vapaaehtoisvoimin, eli käyttäjät, uskoisin tällöin aika nopeasti tulevan iso kasa ilmoituksia. Vappaehtoisvoimin pystytään saamaan tuntimäärä asian tarkastuksessa isoksi, ku verrataan yhtä henkilöä esim. museolla tämän aiheen kimpussa.

Jollain tapaa pitäisi käyttäjän pystyä linkittämään havainto A ja havainto B toisiinsa.
Kun linkitetty, pitäisi havainnon ilmoittajalle tulla esim. pop up ilmoitus “sinulla on tarkistettavia havaintoja”.
Havainnon ilmoittaja / valtuutettu tarkastaja sitten hyväksyy/ hylkää linkityksen

Päästäisiin alkuun noiden kohtien 1 ja 2 kanssa.

1 tykkäys