Zero-shot učenje rešuje več težav pri strojnem učenju, toda kako deluje in kako izboljša AI?

Ključni zaključki

  • Posploševanje je bistvenega pomena pri poglobljenem učenju, da se zagotovijo natančne napovedi z novimi podatki. Zero-shot učenje pomaga doseči to tako, da omogoča AI, da uporabi obstoječe znanje za natančne napovedi novih ali še nevidenih razredov brez označenih podatkov.
  • Zero-shot učenje posnema, kako se ljudje učijo in obdelujejo podatke. Z zagotavljanjem dodatnih semantičnih informacij lahko vnaprej usposobljeni model natančno prepozna nove razrede, tako kot se lahko človek nauči prepoznati kitaro z votlim telesom z razumevanjem njenih značilnosti.
  • Zero-shot učenje izboljšuje umetno inteligenco z izboljšanjem generalizacije, razširljivosti, zmanjšanjem prekomernega opremljanja in je stroškovno učinkovito. Omogoča urjenje modelov na večjih naborih podatkov, pridobitev več znanja s prenosom učenja, boljše kontekstualno razumevanje in zmanjšanje potrebe po obsežnih označenih podatkih. Ko bo umetna inteligenca napredovala, bo zero-shot učenje postalo še pomembnejše pri reševanju kompleksnih izzivov na različnih področjih.
    instagram viewer

Eden največjih ciljev globokega učenja je usposobiti modele, ki so pridobili splošno znanje. Posploševanje je bistvenega pomena, ker zagotavlja, da se je model naučil pomembnih vzorcev in lahko daje natančne napovedi ali odločitve, ko se sooča z novimi ali nevidenimi podatki. Usposabljanje takih modelov pogosto zahteva veliko količino označenih podatkov. Vendar pa so takšni podatki lahko dragi, delovno intenzivni in včasih nemogoči.

Za premostitev te vrzeli je uvedeno učenje ničelnega strela, ki AI omogoča uporabo obstoječega znanja za dokaj natančne napovedi kljub pomanjkanju označenih podatkov.

Kaj je Zero-Shot učenje?

Zero-shot učenje je posebna vrsta tehnike prenosnega učenja. Osredotoča se na uporabo vnaprej usposobljenega modela za prepoznavanje novih ali še nikoli videnih razredov preprosto z zagotavljanjem dodatnih informacij, ki opisujejo podrobnosti novega razreda.

Z uporabo splošnega znanja modela o določenih temah in dodajanjem dodatne semantike o tem, kaj naj išče, mora biti sposoben precej natančno določiti, katero temo mora identificirati.

Recimo, da moramo prepoznati zebro. Vendar pa nimamo modela, ki bi lahko identificiral takšne živali. Tako dobimo že obstoječi model, usposobljen za prepoznavanje konj, in modelu povemo, da so konji s črno-belimi črtami zebre. Ko začnemo sklepati na model z zagotavljanjem slik zeber in konjev, obstaja velika verjetnost, da bo model pravilno identificiral vsako žival.

Kot mnoge tehnike poglobljenega učenja tudi zero-shot učenje posnema, kako se ljudje učijo in obdelujejo podatke. Znano je, da se ljudje po naravi ne moremo učiti. Če ste dobili nalogo, da v glasbeni trgovini poiščete kitaro z votlim telesom, boste morda imeli težave pri iskanju. Ko pa vam povem, da je votlo telo v bistvu kitara z luknjo v obliki črke f na eni ali obeh straneh, jo boste verjetno takoj našli.

Za primer iz resničnega sveta uporabimo aplikacijo za razvrščanje brez strela odprtokodno spletno mesto za gostovanje LLM Hugging Face z uporabo modela clip-vit-large.

Ta fotografija prikazuje podobo kruha v vrečki z živili, pritrjeno na visok stol. Ker je bil model učen na velikem naboru podatkov slik, lahko model verjetno prepozna vsak predmet na fotografiji, kot so kruh, živila, stoli in varnostni pasovi.

Zdaj želimo, da model razvrsti sliko z uporabo prej nevidenih razredov. V tem primeru bi bili novi ali nevideni razredi "sproščeni kruh", "varen kruh", "sedeči kruh", "vožnja v trgovini" in "varna trgovina z živili".

Upoštevajte, da smo namenoma uporabili neobičajne nevidne razrede in slike, da bi prikazali učinkovitost razvrščanja zero-shot na sliki.

Po sklepanju modela je lahko s približno 80-odstotno gotovostjo razvrstil, da je najprimernejša razvrstitev za slika je bila "Varen kruh." To je verjetno zato, ker model meni, da je visok stol bolj za varnost kot za sedenje, sprostitev ali vožnja.

super! Osebno bi se strinjal z rezultatom modela. Toda kako natančno je model prišel do takšnega učinka? Tukaj je splošen pogled na to, kako deluje učenje brez strela.

Kako deluje Zero-Shot učenje

Zero-shot učenje lahko vnaprej usposobljenemu modelu pomaga prepoznati nove razrede brez zagotavljanja označenih podatkov. V svoji najpreprostejši obliki se zero-shot učenje izvede v treh korakih:

1. Priprava

Zero-shot učenje se začne s pripravo treh vrst podatkov

  • Videni razred: Podatki, uporabljeni pri usposabljanju predhodno usposobljenega modela. Model že ponuja videne razrede. Najboljši modeli za brezhibno učenje so modeli, usposobljeni na razredih, ki so tesno povezani z novim razredom, za katerega želite, da ga model identificira.
  • Neviden/noven razred: Podatki, ki niso bili nikoli uporabljeni med usposabljanjem modela. Te podatke boste morali pripraviti sami, ker jih ne morete pridobiti iz modela.
  • Semantični/pomožni podatki: Dodatni podatki, ki lahko pomagajo modelu identificirati nov razred. To je lahko v besedah, frazah, vdelavah besed ali imenih razredov.

2. Semantično preslikavo

Naslednji korak je načrtovanje značilnosti nevidnega razreda. To se naredi z ustvarjanjem besednih vdelav in semantičnim zemljevidom, ki povezuje atribute ali značilnosti nevidnega razreda z zagotovljenimi pomožnimi podatki. Prenos učenja AI naredi postopek veliko hitrejši, saj je veliko atributov, povezanih z nevidnim razredom, že preslikanih.

3. Sklepanje

Sklepanje je uporaba modela za ustvarjanje napovedi ali rezultatov. Pri zero-shot klasifikaciji slik se vdelave besed ustvarijo na danem vnosu slike in se nato narišejo ter primerjajo s pomožnimi podatki. Stopnja gotovosti bo odvisna od podobnosti med vhodnimi in zagotovljenimi pomožnimi podatki.

Kako Zero-Shot Learning izboljša AI

Zero-shot učenje izboljšuje modele umetne inteligence z obravnavanjem več izzivov v strojnem učenju, vključno z:

  • Izboljšana generalizacija: Zmanjšanje odvisnosti od označenih podatkov omogoča učenje modelov v večjih nizih podatkov, s čimer se izboljša posploševanje in naredi model bolj robusten in zanesljiv. Ko modeli postanejo bolj izkušeni in posplošeni, mogoče je celo mogoče, da se modeli naučijo zdrave pameti namesto običajnega načina analiziranja informacij.
  • Razširljivost: Modele je mogoče nenehno usposabljati in pridobiti več znanja s prenosnim učenjem. Podjetja in neodvisni raziskovalci lahko nenehno izboljšujejo svoje modele, da bodo v prihodnosti zmogljivejši.
  • Zmanjšana možnost prekomernega opremljanja: Prekomerno opremljanje se lahko zgodi, ker se model uri na majhnem naboru podatkov, ki ne vsebuje dovolj raznolikosti, da bi predstavljal vse možne vnose. Usposabljanje modela z učenjem z ničelnim strelom zmanjša možnosti za prekomerno opremljanje z usposabljanjem modela za boljše kontekstualno razumevanje predmetov.
  • Stroškovno učinkovito: Zagotavljanje velike količine označenih podatkov lahko zahteva čas in sredstva. Z uporabo učenja zero-shot prenosa je mogoče usposobiti robusten model z veliko manj časa in označenih podatkov.

Z napredkom umetne inteligence bodo tehnike, kot je učenje brez strela, postale še bolj pomembne.

Prihodnost Zero-Shot učenja

Zero-shot učenje je postalo bistveni del strojnega učenja. Modelom omogoča prepoznavanje in razvrščanje novih razredov brez izrecnega usposabljanja. Z nenehnim napredkom v arhitekturah modelov, pristopih, ki temeljijo na atributih, in večmodalni integraciji lahko učenje brez udarca znatno pripomorejo k temu, da so modeli veliko bolj prilagodljivi pri reševanju zapletenih izzivov v robotiki, zdravstvu in računalniku vizija.