Še pred nekaj meseci, če ste želeli ustvariti sliko nečesa, ste morali biti sposobni skicirati, slikati ali uporabiti eno od orodij za fotošopiranje, o katerih drugi kar naprej govorijo. Po letu 2022 pa se je vse spremenilo, vse po zaslugi umetne inteligence – da, kot v »umetni inteligenci«.
Namesto da bi poskušali prevladovati nad svetom, lahko umetniško nagnjena orodja AI spremenijo vse, kar jim opišete, v sliko.
Pojdite z nami, ko vstopamo v svet vizualizacije besedila, ki ga poganja umetna inteligenca, in si oglejte, kako lahko s takšnimi orodji pretvorite svoje misli v dejanske slike tako, da preprosto vtipkate, kar imate v mislih.
Dall-E: Umetniška stran GPT-3 OpenAI
Prva orodja, ki jih poganja umetna inteligenca in so postala priljubljena, so temeljila na GPT-3 OpenAI. Eden od razlogov je bila odprtost projekta za zunanji dostop, kar je vodilo do nekaterih predlogov, da GPT-3 je prihodnost kreativnega dela.
Danes lahko uporabljate uradna orodja, ki jih najdete na Spletno mesto OpenAI beta
ali rešitve tretjih oseb, ki izkoriščajo njegove jezikovne supermoči. GPT-3 lahko na primer prosite, da pripravi osnutek objave, odgovori na preprosta vprašanja ali celo popravi ali prevede neko besedilo.Leta 2022 je OpenAI razkril, da je bil GPT-3 enako dober pri ustvarjanju slik. Projekt DALL-E, poigravanje Pixarjevega filma WALL-E in Dalijevega imena, ne uporablja GPT-3 za delo z besedilom, ampak kot mehanizem za ustvarjanje slik.
Tako kot pri GPT-3 in besedilu tudi DALL-E v resnici ni ustvarjalni genij, ki materializira slike iz nič. Namesto tega je bil "izurjen" na milijonih slik, ki že obstajajo na spletu. Njegove moči umetne inteligence so v analizi teh slik, jemanju elementov iz njih, prilagajanju, preoblikovanju, prilagajanju in končnem združevanju v nove podobe.
To je vsaj poenostavljena različica dogajanja v ozadju. Večino ljudi bo zanimalo samo tisto, kar vidijo pred seboj, in to je polje z besedilom, kamor lahko vnesete nekaj in vidite, da se po nekaj minutah spremeni v sliko.
Googlov odgovor Imagen
Google je eden od treh najboljših "igralcev" v raziskavah AI. Kljub temu njihov napredek ni zlahka zaznaven, niti njegove implementacije v izdelke niso tako dostopne kot ponudbe OpenAI.
Ena od prvih široko dostopnih izvedb Googlovega umetne inteligence je bila v Google Dokumentih in Gmailu v obliki bolj inteligentnega samodokončanja in predlogov, znanih kot pametno sestavljanje. Ne bomo se spuščali v podrobnosti, saj smo jih že obravnavali Pametno sestavljanje (in kako ga lahko uporabite).
Ko so te funkcije aktivne, Googlove spletne aplikacije primerjajo, kar uporabnik tipka, s tem, kar so v preteklosti napisali milijoni drugih. Nato predlaga, kaj so vnesli pozneje.
To je dokaz, da kljub temu, kar radi verjamemo, nismo tako različni. Če 99 od 100 ljudi za besedo "se vidiva" vtipka "kasneje", bi to verjetno tudi mi nadaljevali.
Vsi smo že uporabljali neko obliko samodokončanja, celo iz časa "dumbphone" sistema T9 za predvidevanje besedila. Zato se Googlova orodja AI niso zdela tako inteligentna kot GPT-3 OpenAI. Niso se počutili toliko bolj v uporabi kot boljši sistem T9, izboljšan za 21. stoletje. In tudi zato je bilo Imagenovo razkritje nekoliko šokantno.
Tako kot DALL-E na steroidih je Imagen orodje za vizualizacijo besedila. Na podlagi tega, kar je danes na voljo, lahko Imagen ustvari "čistejše" in bolj žive slike, hkrati pa ve, kako ravnati z naprednimi funkcijami, kot sta difuzija in prosojnost.
Na žalost je v času pisanja tega članka dostop do Imagena še vedno omejen, zato ga nismo mogli preizkusiti.
DALL-E Mini in prijatelji: odprto za poslovanje
Do DALL-E in Imagen še ne morete prosto dostopati. Kljub temu je veliko alternativ že na voljo, če se želite norčevati z ustvarjanjem besedilnih slik, ki jih poganja AI.
Upoštevajoč, da so to zgodnji dnevi in da rezultati ali uporabniška izkušnja, ki jo ponujajo, morda še zdaleč niso optimalni, je vseeno vredno preveriti nekaj od naslednjega.
Ustvarjanje memov z Dall-E Mini
Zahvaljujoč kombinaciji več kot ustreznih rezultatov in uporabniku prijaznega vmesnika, kar je še pomembneje, njegove široke razpoložljivosti, je DALL-E mini postal eden najbolj priljubljenih vizualizatorjev besedila z umetno inteligenco.
Daleč od popolnosti, včasih so lahko rezultati DALL-E mini bolj abstraktni, kot je bilo predvideno.
Včasih morda ne bo uspelo ustvariti tistega, kar ste imeli v mislih, vendar se lahko precej približa.
Po eksploziji priljubljenosti so ga ustvarjalci DALL-E mini preselili v nov dom pod novo blagovno znamko. Zdaj lahko najdete najnovejšo različico DALL-E mini kot Barvica na svojem spletnem mestu.
Uporaba Craiyona danes je tako enostavna kot iskanje obstoječe slike na spletu. Lahko obiščete njegovo spletno mesto, v besedilno polje vnesete opis svoje slike in pritisnete Enter. Čez nekaj časa boste na zaslonu videli rezultate.
Presenetljivo je, kako dobri so Craiyon in podobna orodja pri posnemanju vizualnih slogov. Na primer, prosili smo ga, naj pričara podobe kužka na rolki:
Nato smo uporabili natančen izraz, vendar smo za njim dodali "Pixarjev slog". Čez nekaj časa je Craiyon pokazal mrežo bolj "risanih" slik, ki so bližje temu, kar dojemamo kot Pixarjevo grafiko s sledjo žarkov v njihovih ljubljenih filmih.
Craiyon nam je dal še boljše rezultate, ko smo v istem pozivu zamenjali »Pixarjev slog« z »anime slog«.
Anime je v svojem videzu bolj stiliziran kot bolj realistične Pixarjeve podobe, kar je očitno pomagalo Craiyonu ustvariti nekaj slik, skoraj pripravljenih za uporabo.
Norčati z latentno difuzijo
Model latentne difuzije, učen na naboru podatkov LAION-400M, je še en zanimiv vizualizator besedila z umetno inteligenco. Vendar pa je tudi bolj zapletena pri uporabi. Zagnati ga morate na spletu v virtualnem stroju in se igrati z njegovimi različnimi parametri, namesto da zgolj vnašate besedilno polje. Kljub temu je lažje, kot se sliši.
- Obiščite Prostor za sodelovanje Google Latent Diffusion to je trenutno njegov dom.
- Pomaknite se nekoliko navzdol in opazite Poziv polje pod Parametri. Zamenjajte privzeti poziv s tem, kar želite, da prikazuje vaša slika.
- Izberite Zaženi vse Iz Runtime meni ali pritisnite CTRL + F9.
- Če želite imeti možnost izvoza ustvarjenih slik neposredno iz orodja, odgovorite pozitivno na vprašanje, ali ga želite povezati s svojim računom Google Drive. Orodje traja nekaj časa, da dokonča svojo konfiguracijo in mora med postopkom prenesti nekaj datotek.
Povečanje vrednosti za Koraki, Ponovitve, in Vzorci_vzporedno, lahko vodi do podrobnejših rezultatov. Je pa orodje izjemno zahtevno glede sredstev na Googlovih strežnikih. Posledično se lahko zruši, če te vrednosti preveč povečate ali pa postane postopek ustvarjanja določene slike bolj zapleten, kot je bilo pričakovano.
Zanimive alternative
Precej časa smo porabili za testiranje DALL-E mini in Latent Diffusion. Naša znanstvena metoda je bila sestavljena iz dveh ločenih delov. Najprej smo morali pripraviti koncepte, ki bi jih lahko natančno opisali kot norce. Nato prosite tiste vizualizatorje z umetno inteligenco, naj jih spremenijo v slike. Pogosteje kot pričakovano jim je uspelo in se približali splošni postavitvi, ki smo si jo zamislili.
Preizkusili smo tudi nekaj razpoložljivih alternativ za ta članek. Še vedno čakamo na dostop do drugih. Nekatere od tistih, ki jih je vredno preveriti, so (brez posebnega vrstnega reda):
- Midjourney
- MindsEye beta
- StarryAI
- Sanje
- Disco difuzija
Bo umetnost, ustvarjena z umetno inteligenco, nadomestila vizualne umetnosti?
Obilje in nenehno naraščajoča priljubljenost orodij za ustvarjanje slik, ki jih poganja umetna inteligenca, mnoge vodi k sklepu, da bo vizualna umetnost kmalu umrla. Kakšen smisel ima vlaganje časa in energije, da se naučite risati ali uporabljati zapleteno programsko opremo za vizualizacijo stvari, ko lahko AI to naredi hitreje (in kmalu bolje) kot vi?
Če ste opazili, so vsa ta orodja "usposobljena za nabore podatkov". V navadni angleščini to pomeni, da počnejo, kar počnejo, zahvaljujoč ljudem, ki so že storili isto stvar prej.
To je namig, zakaj ta orodja ne morejo nadomestiti človeške umetnosti, ustvarjalnosti in iznajdljivosti. So posnemovalci, pametni replikatorji. Brez človeško proizvedenih izvirnikov, na katerih so usposobljeni, ne bi mogli ustvariti nobenega rezultata.
Kljub temu je to zdaj in priznamo, da ne vemo, kaj prinaša prihodnost. Zaenkrat lahko vizualni umetniki mirno spijo. Glede na hitrost razvoja umetne inteligence pa se mnogi strokovnjaki za to temo strinjajo, da ni vprašanje, ali bo kdaj nadomestila delo ljudi, kot je vaše. Samo vprašanje je kdaj.
Ampak hej, ni vse pogubno in mračno. Medtem ko se Skynet pripravlja, da bo prevzel naše službe, si lahko vsaj polepšamo razpoloženje z brez težav ustvarjanjem podob kužkov na rolkah!