Ta velik jezikovni model je bil usposobljen na temnem spletu za ocenjevanje groženj kibernetski varnosti. Tukaj je tisto, kar morate vedeti.
Priljubljenost velikih jezikovnih modelov (LLM) strmo narašča, na sceno pa nenehno vstopajo novi. Ti modeli, kot je ChatGPT, se običajno usposabljajo na različnih internetnih virih, vključno s članki, spletnimi mesti, knjigami in družbenimi mediji.
S potezo brez primere je skupina južnokorejskih raziskovalcev razvila DarkBERT, LLM, ki je bil usposobljen za nabore podatkov, vzete izključno iz temnega spleta. Njihov cilj je bil ustvariti orodje AI, ki prekaša obstoječe jezikovne modele in pomaga raziskovalcem groženj, organom kazenskega pregona in strokovnjakom za kibernetsko varnost pri boju proti kibernetskim grožnjam.
Kaj je DarkBERT?
DarkBERT je transformatorski model kodirnika, ki temelji na arhitekturi RoBERTa. LLM se je usposabljal na milijonih temnih spletnih strani, vključno s podatki iz hekerskih forumov, prevarantskih spletnih mest in drugih spletnih virov, povezanih z nezakonitimi dejavnostmi.
Izraz "temni splet" se nanaša na skriti internetni del nedostopna prek standardnih spletnih brskalnikov. Pododdelek je znan po skrivanju anonimnih spletnih mest in tržnic, ki so zloglasne zaradi nezakonitih dejavnosti, kot je trgovina z ukradenimi podatki, drogami in orožjem.
Da bi usposobili DarkBERT, so raziskovalci pridobili dostop do temnega spleta prek omrežja Tor in zbiral neobdelane podatke. Te podatke so skrbno filtrirali s tehnikami, kot so deduplikacija, uravnoteženje kategorij in predhodna obdelava ustvariti izpopolnjeno zbirko podatkov temnega spleta, ki je bila nato v približno 15 dneh posredovana RoBERTa za ustvarjanje DarkBERT.
Možne uporabe DarkBERT v kibernetski varnosti
DarkBERT izjemno razume jezik kibernetskih kriminalcev in se odlično znajde pri odkrivanju specifičnih potencialnih groženj. Raziskuje lahko temni splet ter uspešno prepozna in označi grožnje kibernetski varnosti, kot so uhajanje podatkov in izsiljevalska programska oprema, zaradi česar je potencialno uporabno orodje za boj proti kibernetskim grožnjam.
Da bi ocenili učinkovitost DarkBERT-a, so ga raziskovalci primerjali z dvema priznanima modeloma NLP, BERT in RoBERTa, ki ocenjuje njihovo uspešnost v treh ključnih primerih uporabe, povezanih s kibernetsko varnostjo, raziskavo, Objavljeno na arxiv.org, označuje.
1. Spremljajte temne spletne forume za morebitne škodljive niti
Spremljanje temnih spletnih forumov, ki se običajno uporabljajo za izmenjavo nedovoljenih informacij, je ključnega pomena za prepoznavanje potencialno nevarnih niti. Vendar pa je lahko ročni pregled le-teh zamuden, zaradi česar je avtomatizacija postopka koristna za varnostne strokovnjake.
Raziskovalci so se osredotočili na potencialno škodljive dejavnosti v hekerskih forumih in oblikovali smernice za opombe za omembe vredne niti, vključno z deljenjem zaupnih podatkov in distribucijo kritične zlonamerne programske opreme oz ranljivosti.
DarkBERT je presegel druge jezikovne modele v smislu natančnosti, priklica in ocene F1 ter se izkazal kot najboljša izbira za prepoznavanje omembe vrednih niti na temnem spletu.
2. Zaznajte spletna mesta, ki gostijo zaupne informacije
Hekerji in skupine izsiljevalske programske opreme uporabljajo temni splet za ustvarjanje spletnih mest, kjer objavljajo zaupne podatke, ukradene organizacijam, ki nočejo izpolniti zahtev po odkupnini. Drugi kibernetski kriminalci preprosto naložijo razkrite občutljive podatke, kot so gesla in finančni podatki, v temni splet z namenom, da jih prodajo.
Raziskovalci so v svoji študiji zbrali podatke iz zloglasne skupine izsiljevalskih programov in analizirali spletna mesta z odkrivanjem izsiljevalske programske opreme, ki objavljajo zasebne podatke organizacij. DarkBERT je presegel druge jezikovne modele pri prepoznavanju in razvrščanju takšnih spletnih mest, s čimer je pokazal svoje razumevanje jezika, ki se uporablja v podzemnih hekerskih forumih na temnem spletu.
DarkBERT izkorišča funkcijo polnilne maske, ki je del jezikovnih modelov družine BERT, za natančno prepoznavanje ključnih besed, povezanih z nezakonitimi dejavnostmi, vključno s prodajo mamil na temnem spletu.
Ko je bila beseda "MDMA" zamaskirana na strani za prodajo drog, je DarkBERT ustvaril besede, povezane z drogami, medtem ko so drugi modeli predlagali splošne besede in izraze, ki niso povezani z drogami, kot so različni poklici.
Zmožnost DarkBERT-a za prepoznavanje ključnih besed, povezanih z nedovoljenimi dejavnostmi, je lahko dragocena pri sledenju in obravnavi nastajajočih kibernetskih groženj.
Ali je DarkBERT dostopen širši javnosti?
DarkBERT trenutno ni na voljo javnosti, vendar so raziskovalci odprti za prošnje za uporabo v akademske namene.
Izkoristite moč umetne inteligence za odkrivanje in preprečevanje groženj
DarkBERT je bil predhodno usposobljen za podatke temnega spleta in prekaša obstoječe jezikovne modele v več primerih uporabe kibernetske varnosti, s čimer se postavlja kot ključno orodje za napredovanje raziskav temnega spleta.
Umetna inteligenca, usposobljena za temni splet, se lahko uporablja za različne naloge kibernetske varnosti, vključno z identifikacijo spletnih mest, ki prodajajo razkrite podatke. zaupnih podatkov, spremljanje temnih spletnih forumov za odkrivanje nezakonite izmenjave informacij in prepoznavanje ključnih besed, povezanih s kibernetskimi grožnje.
Vedno pa si morate zapomniti, da je tako kot drugi LLM tudi DarkBERT v teku in da je njegovo delovanje mogoče izboljšati z nenehnim usposabljanjem in finim prilagajanjem.