Koodi kirjutamine tehisintellekti abil: autoriõiguste ja privaatsusega seotud keerukused

Mõeldes tagasi 2023. aasta algusele, mil hüppeliselt kerkis esile tehisintellekti (TI) teema, on viimase aasta jooksul ilmselt enamikke programmeerijaid jälitanud igal sammul artiklid ja sotsiaalmeediapostitused, mis käsitavad TI kasutamist koodi kirjutamise vahendina. Väidetavalt kiirendab tehisintellekti kasutamine koodi genereerimiseks oluliselt tarkvaraarendusprotsesse ja suurendab nende tõhusust. 

Tehisintellekt suudab iseseisvalt toota koodi, mis põhineb suurtel andmekogumitel ja olemasolevatel koodibaasidel, hägustades piire inimese ja masina loovuse vahel. Sellegipoolest kaasneb tehisintellekti abil koodi genereerivate tööriistade tulekuga teatavaid ohte, millele tuleb tähelepanu pöörata. See tõstatab põhiküsimuse: keda võib pidada tehisintellekti loodud koodi loojaks ja seega ka autoriks?

Tehisintellekti loodud koodi autoriõigused 

Tarkvaraarendajad on oma loomingu kaitsmiseks juba pikka aega toetunud autoriõigusele. Programmi lähtekood on Eesti autoriõiguse seaduse (AutÕS) alusel sarnaselt kirjandusteosega kaitstud teos. Autoriõigused annavad loojatele ainuõigused, sealhulgas õiguse teose kopeerimiseks, levitamiseks ja üldsusele näitamiseks ning õiguse luua tuletatud teoseid. Autoriõigus võimaldab arvutiprogrammi autoril takistada oma lähtekoodi loata kasutamist, kopeerimist või levitamist teiste isikute poolt.

Kui inimene kirjutab koodirea, suunab ta oma loomingulise ja intellektuaalse vabaduse lähtekoodi kirjutamiseks, mille käigus ta eelduslikult loob autoriõigusega kaitstud teose. Tegelikult laieneb enamikus riikides autoriõiguste kaitse inimautoritele, mitte aga masinatele või tehisintellekti süsteemidele. Põhjus tuleneb sellest, et ainult inimene saab olla loominguline, samas kui tehisintellekt toimib algoritmide abil ega ole seetõttu loov. Sel põhjusel ei kuulu tehisintellekti loodud kood autoriõigusliku kaitse alla nagu inimese loodud kood.

Kuna inimene ei ole loomingulises protsessis osalenud, on tehisintellekti loodud koodile autorsuse omistamine keeruline. Eelnev on eriti oluline selliste tööriistade puhul nagu OpenAI GPT ja GitHubi Copilot, kus kasutaja sisestab päringu ja saab vastuseks koodilõigu. Selle protsessi käigus sisestab kasutaja ainult üldise kirjelduse või ettekujutuse oodatavast tulemusest. Ideed on aga abstraktsed ja ei ole autoriõigusega kaitstavad. Seetõttu ei ole TI genereeritud koodilõiked autoriõigusega kaitstavad, kuna kasutajal puudub kontroll saadud lähtekoodi üle.

Kasutaja väljendab päringus ainult oma ideed, saades vastuseks koodilõigu, mis eeldatavasti vastab päringule. Saadud koodilõiked koostatakse automaatselt, lähtudes tehisintellekti mudeli parameetritest ja treeningandmetest. Ei kasutajal ega OpenAI-l ega GitHubil ei ole otsest loomingulist kontrolli tehisintellekti genereeritud koodi üle, mistõttu kood on autorita ja ei ole lõppkokkuvõttes autoriõigusega kaitstav.

Tehisintellekti loodud koodi lisamine olemasolevatesse projektidesse

Kuigi tehisintellekti vahenditega genereeritud koodilõiked ei ole iseenesest autoriõigusega kaitstavad, võib neid integreerida ja tavaliselt ka integreeritakse suurematesse projektidesse. Kui tehisintellekti abil genereeritud kood lisatakse laiemasse koodibaasi, kus arendaja kasutab loomingulist vabadust, on programmi lähtekood tervikuna autoriõigusega kaitstud. Autoril on seega ainuõigus kogu lähtekoodile ja ta võib keelata teistel isikutel seda kasutada.

Kas tehisintellekti loodud kood võib kattuda mõne autoriõigustega kaitstud koodiga? 

Tehisintellekti koodigeneraatorite kasutajad peavad siiski olema ettevaatlikud, sest koodilõikude kasutamine ei välista täielikult autoriõiguste rikkumise võimalust. Lühidalt öeldes annab autoriõigus autorile ainuõiguse oma teose üle, sh keelata teistel teose loata kasutamise. Isik, kes kasutab autoriõigusega kaitstud teoseid ebaseaduslikult, rikub autori õigusi.

Kuna tehisintellekti mudeleid treenitakse tohutute andmekogumite, sealhulgas autoriõigusega kaitstud materjalide põhjal, on oht, et tehisintellekti loodud kood võib reprodutseerida või sarnaneda autoriõigusega kaitstud koodile ilma autori selgesõnalise loata. See avab võimaluse, et algsed loojad esitavad tehisintellekti abil loodud koodi kasutajate vastu autoriõiguste rikkumise nõudeid.

Mõnel juhul on lähtekoodi autorid laadinud oma koodi üles GitHubi ja lisanud lähtekoodile GPLv3 või sarnase tugeva copyleft-litsentsi. Kuigi copyleft-litsents lubab luua tuletatud teoseid, on litsents „nakkav“, mis tähendab, et iga programm, mis on ehitatud litsentseeritud tarkvara peale, peab sisaldama sama GPLv3-litsentsi.

Mõned tehisintellekti mudelid on koolitatud GitHubi või sarnaste koodihoidlate põhjal ning on oht, et tehisintellekti generaator väljastab koodi, mis on identne olemasoleva copyleft-litsentsiga koodiga. Kuigi avatud lähtekoodi võib kopeerida, on GPLv3 litsentsis sätestatud, et kasutaja peab programmile ka GPLv3 litsentsi lisama. Sellisel juhul on kasutajal oht saada autoriõiguse rikkumise nõue, kui ta programmi kommertsialiseerib, selle asemel et lisada programmile kohustuslik GPLv3 litsents.

Tehisintellekti abil loodud koodi kasutamine ja litsentsimise küsimused 

Mõnel juhul on lähtekoodi autorid laadinud oma koodi üles GitHubi ja lisanud lähtekoodile GPLv3 litsentsi. Mõned tehisintellekti mudelid on koolitatud GitHubi koodivaramutes leiduva materjali põhjal. Tehisintellekt võib väljastada koodi, mis on identne olemasoleva koodiga. Kuigi kood pärineb avalikust allikast ja seda võib kopeerida, on GPLv3 litsentsis sätestatud, et kasutaja peab enda loodud programmi ka täielikult GPLv3 litsentsi alusel avaldama. Sellisel juhul on kasutajal oht saada autoriõiguse nõue, kui ta ei lisa enda programmile GPLv3 litsentsi.

Kuidas vähendada autoriõiguste rikkumise riski 

Võimalike autoriõigusega seotud probleemide leevendamiseks peavad arendajad olema valvsad projektides kasutatava koodi suhtes, vältides autoriõigusega kaitstud materjalide kasutamist ilma nõuetekohaste lubade või litsentsideta. Kahjuks ei ole tehisintellekti genereerimisteenuse pakkujad rakendanud jõulisi mehhanisme, et tuvastada ja välistada autoriõigusega kaitstud sisu koodi genereerimise ajal. Üks lähenemisviis oleks käsitsi kontrollida tehisintellekti genereeritud koodi avalike repositooriumidega, tuvastades kõik kattuvused.

Mõnel tööriistal, näiteks Copilotil, on aga lüliti, mis kontrollib väljundit avalikes repositooriumides leitud koodi suhtes. Selle lüliti rakendamisel ei paku Copilot kasutajale lähtekoodi, mis vastab olemasolevale lähtekoodi repositooriumile. Kasutaja peaks selle lüliti sisse lülitama, et minimeerida autoriõiguste rikkumise ohtu.

Andmekaitseprobleemid tehisintellekti loodud koodi kasutamisel 

Isikuandmete või konfidentsiaalsete andmete edastamine tehisintellekti-generaatorite teenusepakkujatele võib tekitada probleeme seoses eraelu puutumatuse ja turvalisusega. Kui arendajad kasutavad kolmanda osapoole tehisintellekti teenuseid, jagavad nad sageli märkimisväärses koguses tundlikku teavet, näiteks konfidentsiaalseid algoritme või kasutajaandmeid. Selline praktika kujutab endast andmete rikkumise või volitamata juurdepääsu ohtu, mis võib ohustada kogu tarkvaraarendusprotsessi turvalisust.

Nende probleemide lahendamiseks peaksid arendajad hoolikalt hindama tehisintellekti teenusepakkujaid, kellega nad koostööd teevad, tagades, et kasutusel on piisavad andmekaitsemeetmed. Tehisintellekti teenusepakkujatega sõlmitavates lepingutes ja kokkulepetes tuleks selgelt kirjeldada andmete kasutamist ja turvaprotokolle, et kaitsta konfidentsiaalset teavet. Näiteks GPT treenib oma tehisintellekti mudelit vaikimisi kasutaja päringute alusel. Selle seadistuse väljalülitamine rakenduses võib aidata kaasa eraelu puutumatuse kaitsmisele, kuna tehisintellekti mudelite treenimiseks ei kasutata tundlikke andmeid, mis välistab andmete avaldamise võimaluse teistele teenuse kasutajatele.

Mõne projekti puhul võib GPT või Copiloti kasutamine rangete konfidentsiaalsusnõuete tõttu olla täielikult keelatud. Sellistel juhtudel peaksid arendajad üldse loobuma tehisintellekti koodi genereerimisest. Teise võimalusena võivad nad püüda kasutada privaatseid LLM-lahendusi, näiteks andmete eraldamist ettevõttesiseselt või eraldi virtuaalses serveris. See vähendab riske veelgi, tagades, et konfidentsiaalsed või tundlikud andmed ei satuks ohtu.

Kokkuvõte 

Tehisintellekti abil loodud koodi levikuga kaasnevad tarkvaraarendajate jaoks riukalikud autoriõiguslikud tagajärjed. Kuna tehisintellekt muutub üha enam arendusprotsessi lahutamatuks osaks, muutub tehisintellekti loodud koodi autoriõiguste selgitamine eluliselt tähtsaks. Kuigi tehisintellekti süsteemidel puudub autoriõiguslik kaitse, peavad arendajad võimalike rikkumiste vältimiseks õigusmaastikuga hoolikalt ja ennetavalt arvestama.

Lisaks sellele tuleb vastutustundlikult hallata isikuandmete või konfidentsiaalsete andmete vastutustundlikku kasutamist ja edastamist tehisintellekti teenusepakkujatele, et kaitsta nii arendajate huve kui ka andmete enda turvalisust.

Ole kursis Hedmani uudiste ja üritustega

Hedman

Meie kuuluvused:
FinanceEstonia, Lexing®,
Teenusmajanduse Koda,
Eesti Kaubandus-Tööstuskoda,
EstVCA, EstBan, FECC,
IBA & IBA European regional Forum