Excel tuonti - MIkä maa?

Ilmeisesti tarkastustoiminto ei ole käytössä maan nimen kohdalla?
Havainto on talletettu Finland nimisenä (se mitä etiketissä lukee, eka kuva) ja havainto näkyy kuitenkin SUomi nimisessä valtiossa (kuva 2); sama juttu tuon Viro/Estonia kanssa (kuva 3).

Nythän tässä käy siten että alkuperäistä tietoa muutetaan atomaation avulla, eikä siitä ilmoiteta havainnon tallettajalle. Tämä, eteenkin vanhoissa havossa, ei ole ollenkaan hyvä asia.

Screenshot_258

Screenshot_259

Screenshot_260

1 tykkäys

Olet pistänyt paljon hyvää palautetta. Kiitos siitä!

Syöttämäsi “verbatim” tiedot ovat tallella, Vihko ei ole niitä kadottanut tai muuttanut. (Ja tämä ei erityisesti liity Excel tuontiin)

Lajitietokeskuksen tietovarasto harmonisoi tiedot parhaiden kykyjensä mukaan, ja havaintoerien tarkastelun näkymässä näytetään näitä tulkittuja tietoja. Eli Finland/Suomi, Viro/Estonia liitetään onnistuneesti maatunnisteisiin (esim http://tun.fi/ML.206) ja käyttäjälle näytetään maan nimi käyttäjän kielivalinnasta (fi,sv,en) riippuen omalla kielellään.

Tällä hetkellä havaintoerien tarkastelun näkymä ei näytä verbatim tietoja lainkaan, vaikka pistäisi lisätiedot (silmäikoni) päälle. Pistän työlistalle, että lisätään ilmoitetut verbatim tiedot näkyville.

Ne voisivat tulla näkyville jos lisätiedot pistää päälle. Tai sitten myös karttaikkunan alla olisi tyhjää tilaa, johon minusta voisi aina olla näkyvissä ilmoitetut paikkatiedot, ml. koordinaatit ja myös koordinaatit muutamassa eri formaatissa (ykj kymppiruutu, 1km ruutu, wgs84 min/max,…).

1 tykkäys

Kysyn piruuttain, ovatko maatunnisteet aikariippuvaisia? Onko vuosien 1920-1939 Suomessa eri maatunnus kuin vuosien 1946-2018 Suomella?

Käytännön syistä tuskin ainakaan tällä hetkellä, mutta olisi kyllä hienoa, jos systeemi saataisiin joskus toimimaan näin. Kuntien osalta se olisi vielä hyödyllisempää!

T: Jere

Suomen maan ja kuntien osalta käytetään nykyisiä Suomen rajoja ja nykyisiä kuntarajoja.

Suomen tunnukselle liitetään nykyisten rajojen mukaiset havainnot. Jos maaksi on ilmoitettu Suomi ja koordinaatit tai ilmoitettu kunta eivät ole nykyisten rajojen sisällä, maa jätetään tyhjäksi (tai jos alue on luovutettu, maaksi menee Venäjä). Jos maaksi on ilmoitettu Ruotsi tai Venäjä ja alue on nykyisten Suomen rajojen sisällä, maaksi menee Suomi. Sen sijaan jos on ilmoitettu maaksi Brasilia ja koordinaatit ovat Suomen rajojen sisällä, lopputuloksena on virhe (menee “ongelmalliseksi”).

Kaikkien muiden maiden osalta kuin Suomen käytetään puhtaasti käyttäjän ilmoittamaa tietoa eikä sille tehdä mitään tarkistuksia.

Heips.

Tuo on pikkuisen ongelmallinen malli, sillä tietokannoissa on paljon dataa, jossa on käytetty havaintohetken mukaista maata, ei nykyistä maata: Itse suosin kyllä nykyistä maata tai kysymysmerkkiä maan eteen, jos tarkka paikka ei ole tiedossa, mutta joillain tutkijoilla on tässä asiassa vahva eriävä kanta.

”Suomi, Salla” ennen toista maailmansotaa ilman lisätietoja on käytännössä todennäköisesti, mutta ei varmasti nyky-Venäjää. Sama ongelma on tietty kaikkien rajan molemmin puolin jääneiden kuntien kanssa, mutta varsinkin Kuusamon ja Salla, joista on kerätty paljon ja vanhoista aikoina runsaasti molemmin puolin nykyistä rajaa, mutta enemmän itäpuolelta.

Näiden jaettujen kuntien kohdalla voisi siis olla järkevintä olla hyvin varovainen minkäänlaisen tulkinnan kanssa.

T: Jere K.

Mainitsemasi Suomi, Salla on ongelmallinen ainoastaan jos koordinaatteja ei ole ilmoitettu. Silloin tulkitaan maaksi Suomi, kunnaksi Salla ja koordinaateiksi nykyisen Sallan bounding box. Tämä on parantamisen paikka, johon pitäisi ottaa mukaan ajallinen aspekti.

On olemassa paikkatieto-ontologia Suomen kuntien rajoista eri aikoina, mutta ongelmana on, ettei sitä ylläpidä mikään virallinen taho aktiivisesti.

Jos koordinaatit on ilmoitettu ja ovat Suomen (ja Sallan) sisällä no probelmo. Jos koordinaatit ovat Suomen ulkopuolella ja ovat tarpeeksi lähellä Suomea (ja Sallaa), havainto hyväksytään ilman virheitä (ei mene ongelmalliseksi), mutta maa jää tyhjäksi ja kunta jää tyhjäksi (verbatim tieto säilyy). Jos koordinaatit ovat Suomen ulkopuolella ja ihan liian kaukana, havainto menee ongelmalliseksi.

Hei.

Jatkona laji.fi foorumin puolelta:

Jotain muutakin häikkää systeemissä näiden rajakuntien osalta tuntuu olevan: jos haen Vihkossa ehdoilla ”paikannimi: Kuusamo” ja ”aika: 01.01.1919 - 01.01.1940” saan tuhansia nyky-Suomen puolella olevia havaintoja … mutta en yhtä ainoaa tietoa rajan takaisesta Kuusamosta. Maa ei siis ollut hakuehtona!

Jos haen samalla aikavälillä hakuehtona maa: Venäjä, näen satoja havaintoja rajan takaisesta Kuusamosta. Yhdessäkään niissä ei kuitenkaan ole kuntana ”Kuusamo” (jos kuntakentässä lukee esim. ”Kuusamo Paanajärvi”, havainto näkyy). Oikeasti tausta-aineistossa on tuhansia havaintoja, joiden tiedoissa on on country:Russia, municipality: Kuusamo.

Hah, sain selville, mikä tässä menee pieleen. Valitointi dorkailee ja merkkaa ongelmallisiksi kaikki ne havainnot, joissa kunnan nimi on validi, mutta paikka ei ole nyky-Suomessa. Se tekee noista havainnoista käytännössä näkymättömiä.

Tämä on selvä ja sanoisin vakava virhe validoinnissa. Jaettujen kuntien itäosista kerätty aineisto kunnannimellä EI ole virhe eikä sitä tule merkitä ongelmalliseksi.

Jaettujen kuntien itäosista on paljon dataa ja se on kiinnostavaa dataa, joten sanoisin tätä 1-prioriteetin korjauksen tarpeeksi.

Triviaali, joskaan ei paras ratkaisu on jättää väliin kunta-koordinaattivalidointi, jos maa != Suomi/Finland. Ongelmana tässä on se, että ”maa=Suomi, kunta=Kuusamo, paikka=jossain nykyvenäjällä” on ihan validi arvo datalle ennen vuotta 1945.

Katsoin Kotkasta Sallan ja Kuusamon tilanteen. Sen perusteella näyttää siltä, sotaa edeltävältä ajalta Kotkassa ei ole paljoakaan dataa, jossa maaksi olisi merkitty Suomi, kunnaksi Kuusamo/Salla ja näytteellä olisi koordinaatit nykyrajan takana. Kunta-koordinaattivalidoinnin skippaaminen, jos maa ei ole Suomi, olisi siis siedettävä kompromissi ainakin tällä hetkellä.

Paras kompromissi olisi ehkä validoida havainnointiajalla varustettu data sen havaintohetken mukaisten kunnanrajojen mukaan (jos aika ei ole tiedossa, laajemman mukaan).

Huonompi, mutta silti nykyistä parempi vaihtoehto olisi validoida kaikki data sotaa edeltäneiden kuntien rajojen mukaan.

T: Jere

Siinä (jos puhe on Suomen Aika-Paikka-Ontologia SAPOsta) myös se iso ongelma, että se on vain nyky-Suomen alueelle ulottuva. Eli itärajan taakse jääneitä osia kuunista ei SAPOssa muistaakseni ole ollenkaan; Kuusamo on sen mukaan aina ollut vain nyky-Suomen puolella oleva osa Kuusamoa, mikä ei tietenkään ole totta.

Tämä ei ihan pidä paikkaansa: validointi tehdään jopa tapauksessa Sallan nykyrajojen mukaan. Aineistossa on jonkun verran tapauksia, joissa maa=SUomi, kunta=Salla, aika ennen 2. maailmansotaa ja koordinaatit vaikka Sallan vanhalla kirkolla Kuolajärvellä, kaukana nykyisen itärajan itäpuolella. Silti tuo ei ole väärä tieto; kunta ja koordinaatit ovat ihan oikein. Maakin oli oikein, vaikka se ei ole nykytilanteen mukainen.

Paljon pahempi ongelma on se, että kunta-koordinaattivalidointi ei katso maakenttää! Myös Russia, Salla, Kuolajärvi (66.9745806°N, 29.2504242°E) menee ongelmalliseksi, koska piste ei ole nykyisen Suomen puoleisen Sallan sisällä.

Näitä validointeja on n. 3 viikkoa sitten viilattu kovalla kädellä ja saimme pienennettyä virheellisten määrää oleellisesti (vähemmän virheellisesti virheelliseksi merkittyjä). Tämä kuitenkin on mennyt väärään suuntaan, eli tosiaan ei pidä tällä hetkellä paikkaansa tuo, että havaintoaluetta laajennettaisiin Suomen ulkopuolella olevien osalta katsomaan, onko tarpeeksi lähellä ilmoitettua kuntaa (tehdään vain Suomen sisällä).

Korjataan ja pistetään ongelmalliset uudelleenlataukseen.