Istorijska presuda Regionalnog suda u Minhenu u slučaju GEMA protiv OpenAI o autorskim pravima i obuci veštačke inteligencije
Organizacija za kolektivno ostvarivanje autorskih prava muzičkih autora Nemačke (GEMA) podnela je tužbu Regionalnom sudu u Minhenu protiv kompanije OpenAI, optužujući je da je neovlašćeno koristila zaštićene tekstove devet popularnih nemačkih pesama u procesu treniranja svojih velikih jezičkih modela GPT-4 i GPT-4o. Među tim pesmama su „Atemlos“ Kristine Bach, „Männer“ Herberta Grönemeyera i „Über den Wolken“ Reinharda Meya.
GEMA je tvrdila da su ti tekstovi sačuvani u parametrima modela i da se mogu gotovo identično reprodukovati, što bi predstavljalo neovlašćeno beleženje i umnožavanje u skladu sa odredbama nemačkog Zakona o autorskom pravu.
Sa druge strane, OpenAI je isticao da ti modeli ne čuvaju konkretne tekstove ili podatke, već odražavaju statističke obrasce naučene tokom analize celokupnog skupa podataka. Po njihovom tumačenju, sadržaj koji generišu rezultat je korisničkih upita, a kontrola nad tim sadržajem nije na njihovoj strani.
OpenAI je takođe naveo da njihovi postupci podležu izuzecima iz Direktive o autorskom i srodnim pravima na jedinstvenom digitalnom tržištu (EU) 2019/790 (CDSM direktiva), koji regulišu suspenziju prava za rudarenje teksta i podataka, odnosno da ti izuzeci pokrivaju aktivnost treniranja AI modela.
Šta je odlučio Regionalni sud u Minhenu?
Prvostepena presuda u ovom slučaju od velike je važnosti jer je u značajnoj meri usvojila tužbeni zahtev GEMA-e, uključujući zabranu daljeg umnožavanja, javnog saopštavanja sadržaja i naknadu štete.
Sud je naveo da jednostavni korisnički unosi dovode do toga da ChatGPT reprodukuje veće delove originalnih tekstova gotovo identično. Iako su u nekim odgovorima primećene „halucinacije“, sud smatra da to ne umanjuje prepoznatljivost originalnih tekstova. Memorisani sadržaji nisu se bitno menjali, dok su razlike uglavnom postojale u uvodnim ili završnim delovima tekstova.
Obim i složenost generisanog sadržaja pokazali su da se ne radi o slučajnosti. Inače, stranke su se u ovom postupku složile da su tekstovi pesama korišćeni u obuci modela, ali su se razilazile u oceni da li to sa pravnog aspekta predstavlja autorskopravno ovlašćenje beleženja, umnožavanja i javnog saopštavanja dela.
Memorisanje sadržaja kao oblik reprodukcije autorskog dela
Sud se oslonio na naučne studije iz oblasti informacionih tehnologija koje ukazuju da podaci za obuku mogu postojati u parametrima modela i ostati dostupni – fenomen koji je GEMA nazvala memorisanjem.
Naime, po nalazu suda, ukoliko se sadržaj može matematički fiksirati, bilo putem numeričkih vrednosti verovatnoće ili na drugi tehnički način, takvo fiksiranje (beleženje) može biti smatrano reprodukcijom, odnosno umnožavanjem dela.
Sud je dalje utvrdio da jednostavni korisnički zahtevi, poput „Koji je tekst pesme [naslov]“ ili „Koji je refren pesme [naslov]“, mogu dovesti do reprodukcije sadržaja. Ta činjenica presudno je uticala na zaključak da aktivnosti OpenAI predstavljaju i čin beleženja autorskog dela.
Odbacujući tvrdnju OpenAI-ja da GEMA mora identifikovati konkretne delove teksta unutar modela, sud je istakao da je dovoljno da model može generisati statistički verovatne sekvence koje prepoznatljivo reprodukuju tekst pesme na osnovu naučenih obrazaca tokom obuke.
Kao što je već rečeno, sud je na osnovu ovih nalaza zaključio da je memorisanje tekstova pesama u parametrima modela veštačke inteligencije ekvivalentno pojmu beleženja dela, te da reprodukcija takvog sadržaja putem ChatGPT-a predstavlja radnju umnožavanja i javnog saopštavanja.
S obzirom na to da OpenAI nije pribavio dozvole od nosilaca prava, njegove aktivnosti u procesu treniranja AI modela, kao i dalja upotreba tih modela od strane korisnika, predstavljaju neovlašćeno umnožavanje i javno saopštavanje autorskih dela.
Da li se na obuku AI modela primenjuju izuzeci za rudarenje teksta i podataka?
Kao što smo na početku naveli, OpenAI je svoju odbranu zasnivao i na izuzecima iz CDSM direktive, tvrdeći da treniranje AI modela podleže suspenziji prava za rudarenje teksta i podataka.
Naime, u praksi, u nedostatku druge regulative, za obuku veštačke inteligencije često se koristi pravilo o suspenziji autorskog prava u svrhu rudarenja teksta i podataka (Text and Data Mining – TDM).
TDM je proces automatskog ili poluautomatskog analiziranja velikih količina tekstova ili podataka s ciljem otkrivanja obrazaca, informacija ili znanja koja nisu odmah očigledna i koja mogu dati korisne uvide za potrebe naučnih i drugih istraživanja.
Članom 3 Direktive predviđeno je da istraživačke organizacije i institucije poput univerziteta i muzeja mogu u naučne svrhe bez dozvole nosilaca prava vršiti rudarenje teksta i podataka. Član 4 proširuje ovu mogućnost i na komercijalno rudarenje, pod uslovom da se radi o legalno pribavljenim sadržajima i da nosioci prava nisu izričito zabranili takvu upotrebu, na primer putem mašinski čitljivih uslova.
Ukratko, ovi članovi omogućavaju naučno, istraživačko, ali i komercijalno rudarenje teksta i podataka uz određene uslove i uz poštovanje prava vlasnika sadržaja.
Zašto sud nije prihvatio pozivanje na TDM izuzetke?
Međutim, sud je zaključio da se suspenzija prava za rudarenje teksta i podataka ne može primeniti u ovom slučaju, jer obuka velikih jezičkih modela ne predstavlja samo analizu podataka, već i njihovu direktnu reprodukciju.
Izuzeci u zakonodavstvu namenjeni su procesima istraživanja i analize informacija, a ne beleženju i umnožavanju konkretnih zaštićenih dela, što je prema stavu suda ovde bio slučaj.
Memorija sistema veštačke inteligencije koja omogućava reprodukovanje autorskih dela pomoću jednostavnih upita prelazi granice uloge koju imaju ti izuzeci, pa sud smatra da njihova primena nije opravdana.
Odgovornost OpenAI-ja i moguće mere za sprečavanje povreda autorskih prava
Takođe je istaknuto da odgovornost za takve aktivnosti ne može pasti na korisnike modela, već na razvojne timove i kompanije koje te modele razvijaju.
Uz to, naglašeno je da je teško ukloniti specifične podatke iz već obučenih modela, ali da je ipak potrebno uspostaviti mere za sprečavanje budućih povreda. Takve mere mogu uključivati interne smernice, filtere, dodatne licence ili retreniranje modela.
Značaj presude za budućnost veštačke inteligencije i autorskog prava
Na osnovu ovih pravnih tumačenja, očekuje se da će presuda uticati na pravne okvire za razvoj i upotrebu veštačke inteligencije u budućnosti, posebno kada je reč o korišćenju zaštićenih sadržaja bez dozvole.
Ipak, situacija je i dalje neizvesna i daleko od konačne, jer je OpenAI najavio žalbu. Istovremeno, GEMA vodi još jedan sudski postupak protiv kompanije Suno AI, koji se odnosi na muziku generisanu veštačkom inteligencijom.