Kuvien käyttö tekoälysovelluksissa

Kuvien lisensointi AI -malleille on erittäin rahakasta bisnestä tänä päivänä. En nyt ole varma oletteko kunnolla kartalla tämän bisneksen koosta ja kuvapankkinne arvosta. Esimerkiksi pelkästään Shutterstock lisensoi oman kuvapankkinsa kuvia AI -malleille 2023 yli 100 miljoonalla dollarilla. Shutterstockilla oli 2023 kuvapankissaan 440 miljoonaa kuvaa. Siitä voi haarukoida summia kuvaseteille.

Lajitietokeskuksen kuvakorpuksesta maksetaan varmasti huimia summia koska kuvilla on hyvät lajitunnistetiedot. Tuo on se keskeinen juttu AI -mallien koulutuksessa, hyvä data on arvokasta koska huonolla datalla saa huonoja AI -malleja.

Kun sana leviää että teillä on avointen ovien päivät surraa kuvapalvelimenne kimpussa parvittain hajautettuja ryöstäjiä imuroimassa kuvia. Siellähän on ilmaista rahaa jaossa. Tiedän lajikuvien arvon AI -malleille koska olen itse lisensoinut lajikuviani Adobe Fireflyn koulutukseen.

Vähin mitä voisitte tehdä olisi estää heti kopiosuojattujen All Rights Reserved kuvien imuroinnit kuvapalvelimeltanne.

4 tykkäystä

Minä en paljoa ymmärrä näistä tekoälyjutuista, mutta sen olen hämmästyksekseni huomannut, kun Google Lensin kanssa haen vinkkejä kuvaamieni hyönteisten lajintunnistukseen, että tavan takaa ensimmäiseksi ehdotettu tulos on Laji.fi:stä peräisin. Omia kuviani tulee vastaan myös hyvin usein. Se kyllä kummastuttaa minua. :astonished_face: Eli olet oikealla asialla, Henri!

P.S. Minäkään en juuri nyt näe Laji.fi:n kuvia.

En tunne lainkaan Google Lensin toimintaa enkä tiedä mihin kuvien käyttöoikeus perustuu. Ainakaan lajitietokeskus ei ole voinut myydä Google Lensille käyttöoikeuksia kuviimme koska kuvien lisenssioikeudet ovat kuvaajilla. Ehkä joku muu täällä tai lajitietokeskus tietää mistä on kyse. Voi olla ihan laillistakin käyttöä, itse en siis asiaa tunne.

Valokuvauspiireissä näistä AI -mallien kuvavarkauksista on puhuttu paljon ja oikeusjuttuja on meneillään runsaasti. Esimerkiksi Getty Images, joka on suurimpia kuvatoimistoja, on haastanut isot AI -talot oikeuteen eräänlaisella joukkokanteella kuvaajiensa puolesta. Tämä ei siis ole mikään uusi juttu ja on siis puhuttanut kuvaajapiirejä paljon ja pitkään.

Yksi kaveri keksi kysyä AI chatbotilta analyysiä siitä mitä seuraamuksia tuosta oikeudenkäynnistä voisi olla. Vastaus on ihan hauska taikka kiinnostava ja selittää aika hyvin mistä on kyse. Kopsaan vastauksen tähän vaikka ei nyt suoraan liity lajitietokseskuksen palveluihin millään lailla. On kuitenkin mielestäni yleisesti kiinnostava kuvien tekijänoikeuksien kannalta ja selittää ainakin osaltaan suurta latauspainetta kuviimme.

I asked an AI chatbot: ‘If Getty Images or the US lawsuit wins the case, what will be the repercussions for the industry?’"
and I got this answer:

"You’re asking about the potential “nuclear option” for the AI industry. If Getty Images or the US lawsuit wins a landmark case establishing that training AI models on copyrighted data without a license is infringement, the repercussions would be seismic and reshape the entire generative AI landscape.

Here’s a breakdown of the likely impacts:

  1. Financial Devastation for Many AI Companies:

    Massive Damages: A ruling against AI companies would expose them to colossal damages. The scale of training data (millions to billions of images/texts) means even a small per-item royalty or infringement penalty could amount to billions of dollars, potentially bankrupting many current AI startups and even significantly impacting larger tech giants.

    Licensing Costs Skyrocket: Even if companies aren’t shut down, they would be forced to retroactively and prospectively license the data. This would lead to huge ongoing costs, driving up the price of AI services and potentially making them unaffordable for smaller businesses or individual creators.

    Reduced Investment: Investors would become extremely wary of funding generative AI companies that rely on scraped data, fearing ongoing legal battles and massive liabilities.

  2. Fundamental Shift in AI Model Development:

    “Clean” Datasets Become Paramount: AI companies would pivot immediately to models trained exclusively on:

     Public Domain Content: Works where copyright has expired.
    

Properly Licensed Data: Companies would need to strike explicit licensing deals with content creators, stock agencies (like Getty itself), and publishers. This would create a new, lucrative market for content providers but would be a significant hurdle for AI developers.

Synthetic Data: AI models could potentially train on data that is itself AI-generated or synthetically created, but this has its own challenges regarding quality and diversity.

Retraining and Obsolescence: Many existing, powerful AI models that were trained on vast, uncurated internet datasets might become legally "tainted" and effectively obsolete overnight. Companies would need to retrain new models on compliant data, a time-consuming and expensive process.
  1. Impact on AI Services and Products:

    Higher Costs for Users: If AI companies have to pay significant licensing fees, those costs will inevitably be passed on to end-users through subscriptions, API fees, or other charges.

    Reduced Accessibility: The barrier to entry for using powerful AI models might increase, making them less accessible to hobbyists, small businesses, and non-profits.

    Limited Capabilities (Initially): Until new “clean” models are trained and optimized, the diversity and quality of AI-generated content might temporarily decrease as models adapt to more constrained (but legally compliant) datasets.

    Emphasis on Human-in-the-Loop: There would be an even greater emphasis on AI as a tool for human creativity, where significant human input ensures copyrightability of the final output, rather than purely prompt-generated content.

  2. Empowering Content Creators and Copyright Holders:

    Stronger Bargaining Position: Artists, writers, photographers, musicians, and other creators would gain significant leverage in negotiations with AI companies. They could demand fair compensation and control over how their work is used for training.

    New Revenue Streams: Licensing data to AI companies could become a major new revenue stream for creative industries.

    Renewed Focus on Human Creativity: The legal victory would reinforce the value and protected status of human-authored content, potentially alleviating fears that AI will completely devalue creative professions.

  3. Regulatory and Legislative Scrutiny:

    Global Ripple Effect: A major US ruling would likely influence legal interpretations and potential legislation in other countries, pushing for similar protections for copyright holders worldwide.

    Calls for New Laws: While some argue existing copyright law is sufficient, others might push for specific AI-focused legislation to clarify rules around training data, authorship, and liability.

  4. The “Fair Use” Debate Crystallized:

    The lawsuits are largely about the interpretation of “fair use” in the context of AI training. A win for Getty would mean that courts view such mass, commercial scraping for training as not fair use, directly contradicting the arguments made by many AI developers.

Exceptions and Nuances:

Adobe Firefly's Relative Safety: As discussed, Adobe Firefly, trained on licensed data, would be in a much stronger position. This might give Adobe a significant competitive advantage in the market.

Focus on the "Black Box": The lawsuits primarily target the training data that goes into the AI model (the "input"), not necessarily every single image that comes out (the "output"). However, if the input is deemed infringing, then the resulting model (and potentially its outputs) could also be seen as tainted.

Settlements: Many of these cases could still result in large settlements rather than definitive court rulings, which might involve confidential agreements and licensing deals, still leading to many of the same financial and operational shifts without setting a broad, binding legal precedent through a court decision.

In essence, a win for Getty Images or the US lawsuit in the manner described would signal that AI companies cannot simply ingest the world’s copyrighted content for free. It would force a more ethical, licensed, and potentially more expensive, but ultimately more sustainable, path for the development and commercialization of generative AI."

I truly hope that happens.

Laji.fi:n puolella voi itse määrätä kuvien käyttöoikeudesta. En löytänyt täältä foorumista samanlaista mahdollisuutta. Enkö vain löydä vai eikö sellaista ole? Google Lens hakee jo paljon foorumilla annettuja vastauksia ja näyttää kuvat. Sieltähän niitä voi kuka vaan sitten ladata omaan käyttöönsä.

Just näin, Tarja :heart_exclamation: Saisi Foorumin puolellakin olla valinnan mahdollisuus kuvien käytön suhteen. Muutenkaan ei ole kiva huomata, että Google Lensissä löytyvää kuvaani klikkaamalla koko viesti aukeaa kenen tahansa nähtäväksi. Ei ole enää yksityisyyden suojaa…

(Siirsin tämän tekoälykeskustelun omaan ketjuunsa.)

Lajitietokeskuksen perusperiaate on jakaa lajitietoa avoimesti. Emme ole helposti muuttamassa tätä periatetta, vaikka se voisikin tuoda tuloja. (Lajitietokeskuksen strategia 2025-2030.)

Vihkon ja iNaturalistin havaintojen yhteyteen tallennetuille kuville kuvaaja voi itse määritellä käyttöoikeuslisenssin tai “kaikki oikeudet pidätetään”. Kaikki kuvat kuitenkin näytetään Laji.fi:ssa ja rajapinnoissa, joten lisenssien ja lakien noudattaminen jää kuvan käyttäjän vastuulle.

Foorumilla kuville ei voi valita lisenssiä, joten kaikkien oletetaan olevan “kaikki oikeudet pidätetään”. Omassa profiilissa voi kuitenkin ilmaista, jos haluaa antaa kuvat ja muun sisällön Creative Commons -lisenssillä käytettäväksi. (Tämä vallinnanmahdollisuus tehtiin vuosia sitten, kun Hyönteisfoorumilta tänne siirryttäessä tajuttiin, ettei vanhaa sisältöä voi siirtää tekijänoikeuden vuoksi, vaikka monet sitä toivoivat. Halusimme varautua mahdolliseen seuraavaan siirtymään, jota ei kuitenkaan ole tullut.) Foorumi on julkinen keskustelupaikka, joten sen sisältö joka tapauksessa on kaikille nähtävillä.

EU:n tekoälyasetus myös sääntelee kuvien käyttöä tekoälyn koulutukseen. Sen mukaan koulutus on sallittua, ellei kuvaaja ole sitä nimenomaan kieltänyt. Silloinkin se on sallittua tietynlaisessa tutkimuskäytössä. En ole lakiasiantuntija, joten tämä sillä varauksella.

En tunne Google Lensin toimintaa muuten, kuin että se näyttää Googlen hakutuloksia ja niihin liittyviä kuvia. Lajitietokeskuksen lajisivut ovat usein näissä kärkijoukossa.

Kuvien käytön estämiseen on erilaisia teknisiä keinoja, mutta mikään niistä ei ole täysin luotettava ja kaikki vaativat tekemistä. Helpointa olisi piilottaa “kaikki oikeudet pidätetään”-kuvat kokonaan tai rajata ne vain kirjautuneiden nähtäville. Otan asian puheeksi Lajitietokeskuksen kehityskokouksessa.

Mikko / Lajitietokeskus

3 tykkäystä

Aina jaksan ihmetellä sitä, kuinka tavallisen harrastajankin pitäisi saada rahaa ottamistaan kuvista.
Minusta on mukava tuottaa aineistoa yhteiseksi hyväksi, sehän on jo palkinto sinänsä.
Jos joku saa aineistosta taloudellista hyötyä, niin eihän se minua mitenkään haittaa.

Minua kyllä haittaa. Olen nähnyt kuviani ulkomaisilla kaupallisilla sivustoilla, joilla kuvieni avulla myydään jotakin tuotetta. Jos joku haluaa tienata kuvieni avulla jotakin, niin haluan siitä osani.

Laji.fiin tai foorumille laittamiani kuvia ei kuitenkaan tietääkseni ole missään käytetty luvatta.

3 tykkäystä

Minä ymmärrän, että tekoälyä pitää kouluttaa tunnistustyöhönsä ja olen ylpeä siitä, että ottamiani kuvia pidetään sen arvoisena. En julkaise niitä missään muualla kuin Lajifoorumilla ja se, mikä minua vähän vaivaa, on koko viestin näkyvyys kuvaa klikkaamalla. Eihän täällä salaisuuksia kerrota, mutta alun perin olen pitänyt foorumia meidän luontoharrastajien yhteisenä sivustona, jonne on pääsy vain niille, jotka ovat tänne rekisteröityneet. Nyt kuka tahansa, joka kuvaa netissä klikkaa, näkee myös sanallisen viestin! Hyvä esimerkki nyt on vaikkapa yksi viimeaikaisimmista keskusteluistamme “Viimeinkin pyjamalude!” Kun kysyin Lensiltä näyttäen ihan muuta pyjamaluteen kuvaa, heti ensimmäisenä vaihtoehtona tuli kuvani, jossa on neljä pyjamaludetta. Se on pitkä ketju ja kaikkien meidän jutut näkyvät kelle vain. Olen kirjoittaessani runsassanainen ja kirjoitan omalla nimelläni. Olisin iloinen, jos jotenkin olisi mahdollista rajata ketjujen tekstien näkyvyyttä. Niitä en haluaisi tekoälylle syöttää. Kuvat ovat asia erikseen.

Viestit näkyvät tosiaan kenelle tahansa rekisteröitymättäkin, ja mielestäni hyvä niin. Paljon lajiasiaa ja harrastajien kokemusperäistä tietoa on kadonnut avoimesta verkosta saavuttamattomiin, kun keskustelut ovat siirtyneet rekisteröitymistä vaativien kaupallisten walled garden -palvelujen syövereihin, kuten Facebookiin. Mitä enemmän lajiasiaa pysyisi avoimesti verkossa kaikkien saatavilla, aina parempi. Kaupallisista palveluista kukaan ei voi taata, että keskustelut ja arvokkaat tiedot pysyvät saatavilla tai löytyvät jatkossa niistä hakutoiminnolla, eikä kaupallisilla algoritmisomeilla ole mitään velvollisuutta palvella kaikkia halukkaita vaan käyttäjiä voidaan estää ja tilejä sulkea mielivaltaisesti. Tiedon avoimuuden näen ainakin itse Lajitietokeskuksen toiminnan kovana ytimenä.

Tekoälyn koulutuksen lajikuvilla näen perusteltuna, jos koneoppimista kehitetään lajinmääritystä tai tutkimuskäyttöä varten. Yleisen generatiivisen tekoälyn koulutus kuvilla on huomattavasti ongelmallisempaa, jos se rampauttaa Lajitietokeskuksen servereitä tai kasvattaa ylläpitokustannuksia (myös kuvaongelmien ratkomiseen kuluva aika on kustannus).

Kiitos mielipiteestäsi, Johanna. Kyllä minäkin olen avoimuuden kannalla. En aio lakata osallistumasta täällä foorumilla. Vanhalla vie vaan näköjään aikaa tottua näihin uusiin asioihin… Ja kun meitä koko ajan pelotellaan kaikenlaisilla huijareilla, jotka ottavat selvää asioistamme. :roll_eyes:

1 tykkäys

Jos harrastukseen on panostanut vuosikymmeniä ja sijoittanut valtavasti aikaa ja rahaakin tuhansia (jopa kymmeniätuhansia) euroja kehittyäkseen siinä itse, niin kyllähän se on ainakin meikäläisen käsityksen mukaan röyhkeää hyväksikäyttöä, jos rahakas firma ryöstää työn tulokset ilman mitään korvausta.

Olen itse tuonut foorumille paljon havaintoja lajieista, joista ei löytyne suuria määriä kuvia mistään kuvitellen, että ne ovat täällä turvassa, kun niihin laittaa kaikki oikeudet pidätetään tagin päälle. Valitettavasti olen myös opetustarkoituksessa esitellyt foorumilla harvinaisia lajeja kuvineen, joille ei siis ilmeisesti ole suojaa. Pitänee harkita, teenkö vastaavaa enää.

Kell’ onni on se onnen kätkeköön, kell’ aarre on se aarteen peittäköön…

1 tykkäys

Kuvien näyttäminen on kuitenkin eri asia kuin rajoittamaton kuvien imurointioikeus API:n kautta. Palvelun käyttöehtojen mukaan kuka tahansa saa kyllä kopioida kuvia palvelusta omaan käyttöönsä, oli lisenssi mikä vain. Siksihän kuvissa on download nappi ja tämä on ihan OK.

Nyt kun nämä ulkomaiset kuvavarkaat laittavat kerta toisensa jälkeen Laji.fin polvilleen lataamalla kuvaa niin suurella voluumilla että kuvapalvelimet kaatuvat niin kyse ei varmastikaan ole enää pienimuotoisesta kopioimisesta omaan yksityiseen käyttöön. En näe syytä miksi sallitte sen. Paras ratkaisu ei varmaan ole lisätä kuvapalvelimien määrää jotta varkaat saisivat imuroitua kuvaa entistä tehokkaammin. En nyt tunne tietokantaratkaisujanne mutta onko mahdotonta esim että imageUrl-osoitteet eivät avaisi pelkkää kuvaa, vaan valitun kuvan Laji.fin omalla havaintosivulla. Eikös iNat tee näin?

Kuinkahan tämäkin sovellus toimisi, jos kuvien käyttöä tuolla tavalla rajoitettaisiin.

Kopioit siis public domain kuvia netistä ja julkaiset ne uudelleen omassa sovelluksessasi? Ei kait kopiosuojatuilla kuvilla ole silloin merkitystä sovelluksesi kannalta kun et voi niitä muutenkaan kopioida kuin yksityiseen käyttöön.

Valitettavasti ratkaisu ei ole niin yksinkertainen, että voisimme vain päättää, että kuvia ei voi hakea tiettyyn tarkoitukseen tai tietyllä tavalla. Voimme käyttää aikaa (tai rahaa) siihen, että kuvien hakeminen vaatii niin paljon aikaa (tai rahaa), että botit tyytyvät hakemaan kuvia enintään säällisellä tahdilla. Vaihtoehdot tähän ovat selvitettävänä.

Kuvien ja muun sisällön hakeminen ja käyttö on sinänsä hyväksyttävää (tekijänoikeuden, muun lainsäädännön ja lisenssien asettamissa rajoissa), onhan Lajitietokeskus perustettu saattamaan lajitieto saataville. Myös erilaisiin massa-analyyseihin ja ei-yksityiseen käyttöön. Tämä on tasapainottelua hyväksyttävien ja ei-hyväksyttävien käyttötapojen välillä.

onko mahdotonta esim että imageUrl-osoitteet eivät avaisi pelkkää kuvaa, vaan valitun kuvan Laji.fin omalla havaintosivulla. Eikös iNat tee näin?

Periaatteessa voisimme rajoittaa niiden kuvien saatavuutta, joilla ei ole Creative Commons -lisenssiä. Mutta suurimmalla osalla kuvista on. Käytännössä rajoitukset ovat vaikeita. Laji.fi:n oman havaintosivun pitäisi myös hakea kuva jostain. Tähän tarvitaan taas se suora linkki kuvaan, ja sitä muutkin voisivat käyttää. (iNaturalistin rajapinta näyttää linkin suoraan kuvaan; sitä kautta haemme suomalaisten havaintojen kuvien linkit Laji.fi:hin.)

Valitettavasti olen myös opetustarkoituksessa esitellyt foorumilla harvinaisia lajeja kuvineen, joille ei siis ilmeisesti ole suojaa.

Tekijänoikeus suojaa foorumin sisältöä. Kuvien ja tekstin laittaminen tänne ei muuta niiden käyttö- tai tekijänoikeuksia. Mutta mitään “suojaavaa muuria” sisällön ympärillä ei ole: jos jokin on netissä (missä tahansa) kaikkien nähtävillä, niin kaikilla on myös mahdollisuus sitä käyttää. Mutta en usko että foorumin sisältö olisi kovin kiinnostavaa, koska se ei ole koneluettavaa. Jos viestissä lukee, että “tämä on X ja tuo toinen on Y”, niin tämä tekee kuvien merkityksen tulkinnan vaikeaksi.

Mikko / Lajitietokeskus

On kyllä hankala ongelma. Ymmärrän hyvin että tässä on monia intressejä joita pitää yrittää sovitella yhteen. Itse tein jo vuosia sitten sellaisen ratkaisun että laitan kuvilleni laji.fihin lisenssiksi all rights reserved, laitan kuviini vesileiman ja pienennän ne 600 x 900 kokoon, mikä sekin on vähän harmi koska paljon mielummin sitä tallentaisi hyvää kuvalaatua. Minäkin tallennan tänne kuvia nimenomaan siksi että niistä olisi hyötyä muillekin. Lisäksi olen aina pyydettäessä luovuttanut kuvani korvauksetta tieteelliseen käyttöön. Kuvaan kuitenkin ammattimaisesti monille kuvatoimistoille ja näihin kuviin liittyy jo sopimusteknisesti erilaisia Royalty Free, Rights Managed, exclusive etc. rajoituksia. Rikkoisin sopimusehtoja jos laittaisin kuviini jonkun muun lisenssin kuin all rights reserved. Toivoisin että otatte huomioon että tänne kuvaa myös paljon sellaisia joiden elanto tulee osittain kuvien lisenssituloista.

Tuntuu vähän tyhmältä myydä Adobelle lisenssioikeuksia käyttää all rights reserved kuviani kaupallisessa AI koulutuksessa jos samaan aikaan kuvani voi täältä teidän luvallanne hakea ilmaiseksi samaan tarkoitukseen. En nyt ole varma voitteko pestä kätenne toteamalla vain että lisenssien ja lakien noudattaminen jää kuvan käyttäjän vastuulle. Olette kuitenkin tarjonnut käyttöehdoissanne copyright suojaa kuville ja nyt on kuvien imuroinnissa selvästi kyseessä kaupallinen bottitoiminta eikä mikään avoimen lajitiedon normaali käyttö.

Tämä ongelma ei koske vain all rights reserved kuvia. Aivan samassa tilanteessa ovat kaikki palvelun kuvat joissa kielletään kuvien käyttö kaupalliseen toimintaan. Näitähän on palvelun kuvista leijonanosa. Tässä tuon laji.fin tarjoaman CC BY-NC-SA 4.0 lisenssin käyttöehdot

Lisenssin käyttöehtoja ei voi mielestäni mitenkään lukea niin että satojen miljardien arvoiset AI-talot voisivat tällä lisenssillä suojattuja kuvia käyttää vapaasti omiin kaupallisiin tarkoituksiinsa. Ja siitähän nyt on kyse kun botit kaatavat kuvapalvelimenne, tällä lisenssillä suojattujen kuvien massiivisesta imuroimisesta kaupallisiin tarkoituksiin - teidän luvallanne.

Näkisin myös sellaisen mahdollisuuden että voisitte pyytää kuvaajilta ruksia kohtaan jossa sallittaisiin kuvien lisensoiminen AI -koulutukseen. Varmaan suurin osa tämän hyväksyisi ja sitten saisitte itsellenne ne lisensointitulot jotka menevät nyt boteille. Itse ainakin tukisin mielelläni tällä tavoin lajitietokeskuksen toimintaa.

Toivottavasti löydätte jonkin ratkaisun bottiongelmaanne, se ei varmaan tule itsekseen katoamaan mihinkään.

1 tykkäys

Tämä on ongelma koko tietojen käsittelyn alalla. Uusien asioiden edessä ollaan ensin polvillaan ja lait ja tiedon käsittelyn säännöt ja sovellusten muuttaminen tulevat kaukana perässä. Niin se oli Y2K:n ja GDPR:nkin kanssa, jos muistatte. AI tulee vaan niin ryminällä ja suurella rahalla, että perässä on lähes mahdoton pysyä.

AI-botit ovat tulleet ongelmaksi kaupallisille sisältöä tuottaville sivustoille,
koska niiden takia liikenne sivuille on vähentynyt ja mainostulot pienentyneet.

Vierastan kyllä ajatusta, että laji.fi julkisena palveluna alkaisi harjoittamaan sisältöönsä perustuvaa liiketoimintaa.

Tämän kuun alussa Cloudflare julkisti seuraavan uutisen:

‘The internet infrastructure company Cloudflare announced today that it will now default to blocking AI bots from visiting websites it hosts. Cloudflare will also give clients the ability to manually allow or ban these AI bots on a case-by-case basis, and it will introduce a so-called “pay-per-crawl” service that clients can use to receive compensation every time an AI bot wants to scoop up their website’s contents.’

Tässä voisi olla yksi ratkaisu, jos nyt ehdottomasti on tarvetta jotain tehdä.