Koodi kirjutamine tehisintellekti abil: autoriõiguste ja privaatsusega seotud keerukused

Mõeldes tagasi 2023. aasta algusele, mil hüppeliselt kerkis esile tehisintellekti (TI) teema, on viimase aasta jooksul ilmselt enamust programmeerijatest jälitanud igal sammul artiklid ja sotsiaalmeediapostitused, mis käsitlevad TI kasutamist koodi kirjutamise vahendina. Väidetavalt kiirendab tehisintellekti kasutamine koodi genereerimiseks oluliselt tarkvaraarendusprotsesse ja suurendab nende tõhusust.  

Sellegipoolest kaasneb tehisintellekti abil koodi genereerivate tööriistade tulekuga teatavaid ohte, millele tuleb tähelepanu pöörata. Tehisintellekt suudab iseseisvalt toota koodi, mis põhineb suurtel andmekogumitel ja olemasolevatel koodibaasidel, hägustades nii piirid inimese ja masina loovuse vahel. See tõstatab põhiküsimuse: keda võib pidada tehisintellekti loodud koodi loojaks ja seega ka autoriõiguste omanikuks? 

Lähtekoodi autoriõigustest üldiselt

Tarkvaraarendajad on oma loomingu kaitsmiseks juba pikka aega toetunud autoriõiguse kaitsele. Programmi lähtekood on Eesti autoriõiguse seaduse (AutÕS) alusel sarnaselt kirjandusteosega autorsuse õigusega kaitstud teos. Autoriõigused annavad loojatele ainuõigused, sealhulgas õiguse teose taasesitamiseks, levitamiseks ja üldsusele näitamiseks ning õiguse luua tuletatud teoseid. Autoriõigus võimaldab arvutiprogrammi autoril takistada oma lähtekoodi loata kasutamist, kopeerimist või levitamist teiste isikute poolt. 

Tehisintellekti loodud koodi autoriõigused 

Kui inimene kirjutab koodirea, suunab ta oma loomingulise ja intellektuaalse vabaduse ühtse ja kasutatava teose ehk lähtekoodi loomiseks. Tegelikult laieneb enamikus riikides autoriõiguste kaitse inimautoritele, mitte aga masinatele või tehisintellekti süsteemidele. Põhjus tuleneb sellest, et ainult inimene saab olla loominguline, samas kui tehisintellekt toimib algoritmide abil ega ole seetõttu loov. Sel põhjusel ei kuulu tehisintellekti loodud kood autoriõigusliku kaitse alla nagu inimese loodud kood. Kuna inimene ei ole loomingulises protsessis osalenud, on tehisintellekti loodud koodile autorsuse omistamine keeruline. 

Autorsus ja tehisintellekti tööriistade kasutamine koodi loomiseks 

Järgnev on eriti oluline selliste tööriistade puhul nagu OpenAI GPT ja GitHubi Copilot, kus kasutaja sisestab käskluse ja saab tehisintellektilt lähtekoodi. Kasutaja sisestab üleskutseks ainult üldise kirjelduse või ettekujutuse oodatavast tulemusest. Ideed, erinevalt teostest, on abstraktsemad ja ei kuulu autoriõigusega kaitstavate teoste alla. Seetõttu leitakse, et kasutaja sisestatud üleskutse ei ole autoriõigusega kaitstav. Täpsemalt ei ole saadud lähtekood autoriõigusega kaitstav, kuna kasutajal ei ole kontrolli saadud lähtekoodi üle – kasutaja väljendab ainult oma ideed. Tulemus sõltub siiski sellest, kuidas tehisintellekti mudelit on treenitud. Ei kasutajal, OpenAI-l ega GitHubil ole otsest loomingulist kontrolli tehisintellekti genereeritud koodi üle ning koodil ei ole autorit ega  autoriõigustega kaasnevat kaitset. 

Tehisintellekti loodud koodi lisamine olemasolevatesse projektidesse 

Kui tehisintellekti loodud kood on integreeritud laiemasse koodibaasi, kus projekti looja kasutab loomingulist vabadust, siis on lähtekood tervikuna AutÕSi alusel kaitstud. Tehisintellekti koodigeneraatorite kasutajad peavad siiski olema ettevaatlikud, sest koodilõikude kasutamine ei välista täielikult autoriõiguse rikkumise võimalust. Mõnel juhul on tehisintellekti generaatori antud kood juba autoriõigustega kaitstud. 

Kas tehisintellekti loodud kood võib kattuda mõne autoriõigustega kaitstud koodiga? 

Autoriõigused annavad autorile ainuõiguse oma loomingu üle ja ta võib keelata oma teose kasutamise teiste inimeste poolt. Isik, kes kasutab autoriõigustega kaitstud teoseid ebaseaduslikult, rikub autori õigusi. Kuna tehisintellekti mudeleid treenitakse tohutute andmekogumite, sealhulgas autoriõigustega kaitstud materjalide põhjal, on oht, et tehisintellekti loodud kood võib ilma selgesõnalise loata jäljendada või sarnaneda autoriõigusega kaitstud koodiga. Sellest tulenevalt on võimalik, et algsed autorid esitavad tehisintellekti abil loodud koodi kasutajate vastu autoriõiguste rikkumisega seotud nõudeid.  

Tehisintellekti abil loodud koodi kasutamine ja litsentsimise küsimused 

Mõnel juhul on lähtekoodi autorid laadinud oma koodi üles GitHubi ja lisanud lähtekoodile GPLv3 litsentsi. Mõned tehisintellekti mudelid on koolitatud GitHubi koodivaramutes leiduva materjali põhjal. Tehisintellekt võib väljastada koodi, mis on identne olemasoleva koodiga. Kuigi kood pärineb avalikust allikast ja seda võib kopeerida, on GPLv3 litsentsis sätestatud, et kasutaja peab enda loodud programmi ka täielikult GPLv3 litsentsi alusel avaldama. Sellisel juhul on kasutajal oht saada autoriõiguslik nõue, kui ta ei lisa enda programmile GPLv3 litsentsi. 

Kuidas vähendada autoriõiguste rikkumise riski 

Võimalike autoriõigustega seotud probleemide leevendamiseks peavad arendajad olema valvsad tehisintellekti mudelite treenimiseks kasutatavate andmete suhtes. Nad peaksid tagama, et andmekogumid on hoolikalt kureeritud, vältides autoriõigusega kaitstud materjale, millele puuduvad nõuetekohased load või litsentsid. Kahjuks ei ole tehisintellekti genereerimisteenuste pakkujad rakendanud piisavalt kindlaid mehhanisme, et tuvastada ja välistada autoriõigustega kaitstud sisu koodi loomise ajal. Mõnel tööriistal, näiteks Copilotil, on lüliti, mis võrdleb väljundit avalikes hoidlates leitud koodiga, Copilot ei paku teile koodi, mis kattub olemasoleva koodivaramus avaldatud koodiga. Kasutaja peaks selle lüliti sisse lülitama, et minimeerida rikkumise riski. 

Andmekaitseprobleemid tehisintellekti loodud koodi kasutamisel 

Isegi hoolikate jõupingutuste korral võib isiku- või konfidentsiaalsete andmete edastamine koodi loova tehisintellekti teenusepakkujatele tekitada privaatsus- ja turvaprobleeme. Kui arendajad kasutavad kolmanda osapoole tehisintellekti teenuseid, jagavad nad sageli märkimisväärseid koguseid tundlikku teavet, näiteks privaatseid algoritme või kasutajaandmeid. Selline tegevus kujutab endast andmete rikkumise või volitamata juurdepääsu ohtu, mis võib ohustada kogu tarkvaraarendusprotsessi turvalisust. 

Nende probleemide lahendamiseks peaksid arendajad hoolikalt hindama tehisintellekti teenusepakkujaid, kellega nad koostööd teevad, tagades, et kasutusel on piisavad andmekaitsemeetmed. Tehisintellekti teenusepakkujatega sõlmitavates lepingutes ja kokkulepetes tuleks selgelt kirjeldada andmete kasutamist ja turvameetmeid, et kaitsta konfidentsiaalset teavet. 

Kokkuvõte 

Tehisintellekti abil loodud koodi levikuga kaasnevad tarkvaraarendajate jaoks riukalikud autoriõiguslikud tagajärjed. Kuna tehisintellekt muutub üha enam arendusprotsessi lahutamatuks osaks, muutub tehisintellekti loodud koodi autoriõiguste selgitamine eluliselt tähtsaks. Kuigi tehisintellekti süsteemidel puudub autoriõiguslik kaitse, peavad arendajad võimalike rikkumiste vältimiseks õigusmaastikuga hoolikalt ja ennetavalt arvestama. Lisaks sellele tuleb vastutustundlikult hallata isikuandmete või konfidentsiaalsete andmete vastutustundlikku kasutamist ja edastamist tehisintellekti teenusepakkujatele, et kaitsta nii arendajate huve kui ka andmete enda turvalisust. 

Ole kursis Hedmani uudiste ja üritustega

Hedman

Meie kuuluvused:
FinanceEstonia, Lexing®,
Teenusmajanduse Koda,
Eesti Kaubandus-Tööstuskoda,
EstVCA, EstBan, FECC,
IBA & IBA European regional Forum