Modeli umetne inteligence so dobri le toliko, kolikor so dobri podatki, ki so v njih. Zaradi tega so ti podatki potencialna tarča napadov.
Napredek umetne inteligence je pomembno vplival na različna področja. To je kar nekaj tehnoloških navdušencev vzbudilo razlog za zaskrbljenost. Ko se te tehnologije širijo v različne aplikacije, lahko povzročijo povečanje kontradiktornih napadov.
Kaj so kontradiktorni napadi v umetni inteligenci?
Kontradiktorni napadi izkoriščajo specifikacije in ranljivosti znotraj modelov AI. Poškodujejo podatke, iz katerih so se učili modeli AI, in povzročijo, da ti modeli ustvarijo netočne rezultate.
Predstavljajte si, da šaljivec spremeni scrabble ploščice, razporejene kot ananas, v "jabolčne". To je podobno tistemu, kar se zgodi pri kontradiktornih napadih.
Pred nekaj leti je bilo pridobitev nekaj napačnih odgovorov ali rezultatov iz modela AI norma. Zdaj je ravno obratno, saj so netočnosti postale izjema, pri čemer uporabniki umetne inteligence pričakujejo skoraj popolne rezultate.
Ko se ti modeli umetne inteligence uporabijo v realnih scenarijih, so lahko netočnosti usodne, zaradi česar so kontradiktorni napadi zelo nevarni. Nalepke na prometnih znakih lahko na primer zmedejo avtonomni samovozeči avtomobil in povzročijo, da se zapelje v promet ali neposredno v oviro.
Vrste kontradiktornih napadov
Obstajajo različne oblike kontradiktornih napadov. z vse večjo integracijo umetne inteligence v vsakodnevne aplikacije, bodo ti napadi verjetno postali hujši in bolj zapleteni.
Kljub temu lahko kontradiktorne napade grobo razvrstimo v dve vrsti glede na to, koliko akter grožnje ve o modelu AI.
1. Napadi bele škatle
notri napadi bele škatleakterji groženj popolnoma poznajo notranje delovanje modela AI. Poznajo njegove specifikacije, podatke o usposabljanju, tehnike obdelave in parametre. To znanje jim omogoča, da zgradijo kontradiktorni napad posebej za model.
Prvi korak pri napadu z belo škatlo je spreminjanje izvirnih podatkov o usposabljanju, ki jih pokvari na najmanjši možni način. Spremenjeni podatki bodo še vedno zelo podobni izvirnikom, a dovolj pomembni, da bo model AI dal netočne rezultate.
To še ni vse. Po napadu akter grožnje oceni učinkovitost modela tako, da mu posreduje kontradiktorne primere –popačeni vhodi, ki so zasnovani tako, da povzročijo napake v modelu—in analizira rezultat. Bolj ko je rezultat nenatančen, uspešnejši je napad.
2. Napadi črne skrinjice
Za razliko od napadov z belo škatlo, kjer akter grožnje ve za notranje delovanje modela AI, storilci napadi črne skrinjice nimam pojma, kako model deluje. Preprosto opazujejo model iz mrtve točke, spremljajo njegove vhodne in izhodne vrednosti.
Prvi korak pri napadu s črno skrinjico je izbira vhodnega cilja, ki ga želi model AI klasificirati. Akter grožnje nato ustvari zlonamerno različico vnosa z dodajanjem skrbno oblikovanega šuma, motenj podatkov, ki so človeškemu očesu nevidne, vendar lahko povzročijo, da model AI motnja.
Zlonamerna različica se vnese v model, izhod pa se opazuje. Rezultati, ki jih daje model, akterju grožnje pomagajo, da še naprej spreminja različico, dokler ni dovolj prepričan, da bi napačno razvrstil vse podatke, ki so vanj vneseni.
Tehnike, ki se uporabljajo pri kontradiktornih napadih
Zlonamerni subjekti lahko uporabljajo različne tehnike za izvajanje kontradiktornih napadov. Tukaj je nekaj teh tehnik.
1. zastrupitev
Napadalci lahko manipulirajo (zastrupijo) majhen del vhodnih podatkov modela AI, da ogrozijo njegove nabore podatkov za usposabljanje in točnost.
Poznamo več oblik zastrupitve. Eden od pogostih se imenuje zastrupitev z zadnjimi vrati, kjer je prizadetih zelo malo podatkov o usposabljanju. Model AI še naprej daje zelo natančne rezultate, dokler se ob stiku z določenimi sprožilci ne »aktivira« in ne deluje pravilno.
2. Izmikanje
Ta tehnika je precej smrtonosna, saj se izogne odkrivanju tako, da sledi varnostnemu sistemu AI.
Večina modelov z umetno inteligenco je opremljenih s sistemi za zaznavanje nepravilnosti. Tehnike izogibanja uporabljajo kontradiktorne primere, ki neposredno sledijo tem sistemom.
Ta tehnika je lahko še posebej nevarna za klinične sisteme, kot so avtonomni avtomobili ali medicinski diagnostični modeli. To so področja, kjer imajo lahko netočnosti resne posledice.
3. Prenosljivost
Akterji groženj, ki uporabljajo to tehniko, ne potrebujejo predhodnega znanja o parametrih modela AI. Uporabljajo kontradiktorne napade, ki so bili v preteklosti uspešni proti drugim različicam modela.
Na primer, če kontradiktorni napad povzroči, da model klasifikatorja slik zamenja želvo za puško, lahko natančen napad povzroči, da drugi modeli klasifikatorjev slik naredijo enako napako. Drugi modeli bi lahko bili usposobljeni na drugem naboru podatkov in bi imeli celo drugačno arhitekturo, vendar bi lahko še vedno postali žrtev napada.
4. Nadomestno materinstvo
Namesto da bi zasledoval varnostne sisteme modela z uporabo tehnik izogibanja ali predhodno uspešnih napadov, bi akter grožnje lahko uporabil nadomestni model.
S to tehniko akter grožnje ustvari identično različico ciljnega modela, nadomestni model. Rezultati, parametri in vedenje nadomestka morajo biti identični izvirnemu modelu, ki je bil kopiran.
Nadomestek bo zdaj izpostavljen različnim kontradiktornim napadom, dokler eden ne povzroči netočnega rezultata ali izvede napačno klasifikacijo. Nato bo ta napad uporabljen na prvotni ciljni AI.
Kako ustaviti kontradiktorne napade
Obramba pred nasprotniškimi napadi je lahko zapletena in dolgotrajna, saj akterji groženj uporabljajo različne oblike in tehnike. Vendar pa lahko naslednji koraki preprečijo in ustavijo kontradiktorne napade.
1. Adversarial Usposabljanje
Najučinkovitejši korak, ki lahko prepreči kontradiktorne napade, je kontradiktorno usposabljanje, usposabljanje modelov AI in strojev z uporabo kontradiktornih primerov. To izboljša robustnost modela in mu omogoča, da je odporen na najmanjše vhodne motnje.
2. Redna revizija
Treba je redno preverjati slabosti v sistemu za odkrivanje nepravilnosti modela AI. To vključuje namerno hranjenje modela z kontradiktornimi primeri in spremljanje vedenja modela glede na zlonameren vnos.
3. Sanitizacija podatkov
Ta metoda vključuje preverjanje zlonamernih vnosov v model. Po identifikaciji jih je treba takoj odstraniti.
Te podatke je mogoče identificirati s preverjanjem vnosa, ki vključuje preverjanje podatkov glede vzorcev ali podpisov predhodno znanih kontradiktornih primerov.
4. Varnostne posodobitve
Z varnostnimi posodobitvami in popravki bi težko zgrešili. Večplastna varnost, kot so požarni zidovi, programi proti zlonamerni programski opremi in sistemi za odkrivanje in preprečevanje vdorov lahko pomaga blokirati zunanje motnje akterjev groženj, ki želijo zastrupiti model AI.
Kontrastni napadi so lahko vreden nasprotnik
Koncept kontradiktornih napadov predstavlja težavo za napredno učenje in strojno učenje.
Posledično morajo biti modeli AI oboroženi z obrambo, kot so kontradiktorno usposabljanje, redno preverjanje, sanacija podatkov in ustrezne varnostne posodobitve.