Hei.
Jatkona laji.fi foorumin puolelta:
Jotain muutakin häikkää systeemissä näiden rajakuntien osalta tuntuu olevan: jos haen Vihkossa ehdoilla ”paikannimi: Kuusamo” ja ”aika: 01.01.1919 - 01.01.1940” saan tuhansia nyky-Suomen puolella olevia havaintoja … mutta en yhtä ainoaa tietoa rajan takaisesta Kuusamosta. Maa ei siis ollut hakuehtona!
Jos haen samalla aikavälillä hakuehtona maa: Venäjä, näen satoja havaintoja rajan takaisesta Kuusamosta. Yhdessäkään niissä ei kuitenkaan ole kuntana ”Kuusamo” (jos kuntakentässä lukee esim. ”Kuusamo Paanajärvi”, havainto näkyy). Oikeasti tausta-aineistossa on tuhansia havaintoja, joiden tiedoissa on on country:Russia, municipality: Kuusamo.
Hah, sain selville, mikä tässä menee pieleen. Valitointi dorkailee ja merkkaa ongelmallisiksi kaikki ne havainnot, joissa kunnan nimi on validi, mutta paikka ei ole nyky-Suomessa. Se tekee noista havainnoista käytännössä näkymättömiä.
Tämä on selvä ja sanoisin vakava virhe validoinnissa. Jaettujen kuntien itäosista kerätty aineisto kunnannimellä EI ole virhe eikä sitä tule merkitä ongelmalliseksi.
Jaettujen kuntien itäosista on paljon dataa ja se on kiinnostavaa dataa, joten sanoisin tätä 1-prioriteetin korjauksen tarpeeksi.
Triviaali, joskaan ei paras ratkaisu on jättää väliin kunta-koordinaattivalidointi, jos maa != Suomi/Finland. Ongelmana tässä on se, että ”maa=Suomi, kunta=Kuusamo, paikka=jossain nykyvenäjällä” on ihan validi arvo datalle ennen vuotta 1945.
Katsoin Kotkasta Sallan ja Kuusamon tilanteen. Sen perusteella näyttää siltä, sotaa edeltävältä ajalta Kotkassa ei ole paljoakaan dataa, jossa maaksi olisi merkitty Suomi, kunnaksi Kuusamo/Salla ja näytteellä olisi koordinaatit nykyrajan takana. Kunta-koordinaattivalidoinnin skippaaminen, jos maa ei ole Suomi, olisi siis siedettävä kompromissi ainakin tällä hetkellä.
Paras kompromissi olisi ehkä validoida havainnointiajalla varustettu data sen havaintohetken mukaisten kunnanrajojen mukaan (jos aika ei ole tiedossa, laajemman mukaan).
Huonompi, mutta silti nykyistä parempi vaihtoehto olisi validoida kaikki data sotaa edeltäneiden kuntien rajojen mukaan.
T: Jere