Internet Movie Database (IMDb) je največja spletna zbirka podatkov, ki vsebuje informacije o filmih, televizijskih serijah, domačih videoposnetkih, video igrah in pretočnih vsebinah. Spletna zbirka podatkov vsebuje na milijone natančnih zapisov, ki jih lahko uporabite za analizo podatkov.
Cinemagoer (prej znan kot IMDbPY) je knjižnica Python za upravljanje in pridobivanje podatkov filmske zbirke podatkov IMDb. Dostopate lahko do podatkov o filmih, ljudeh in podjetjih, ki jih lahko uporabite za nadaljnje analize.
Namestitev zahtevanih knjižnic
Namestiti morate gledalec kina Knjižnica Python za dostop do IMDb zbirka podatkov. Zaženite naslednji ukaz v ukaznem pozivu, da namestite knjižnico:
pip namestite gledalec kina
Morate imeti pip nameščen v vašem sistemu za namestitev zunanjih knjižnic Python.
Koda, uporabljena v tem projektu, je na voljo v a Repozitorij GitHub in je brezplačen za uporabo pod licenco MIT.
Ekstrahiranje podatkov IMDb z uporabo Pythona
Knjižnico cinemagoer morate uvoziti, preden jo uporabite v svoji kodi.
od imdb uvoz Cinemagoer
ia = Cinemagoer()
Zgornja koda uvozi knjižnico cinemagoer in ustvari primerek razreda cinemagoer.
Iskanje filmov
Iščete lahko filme z določenim (ali podobnim) naslovom z uporabo search_movie() metoda. Na primer, če želite iskati filme z naslovom "rock", morate zagnati naslednjo kodo:
od imdb uvoz Cinemagoer
# Ustvarjanje primerka razreda Cinemagoer
ia = Cinemagoer()
# Iskanje filmov, ki imajo v imenu rock
filmi = ia.search_movie('rock')
tiskanje(filmi[0])
To bi moralo natisniti prvi film, ki ga najde, na primer:
Film lahko dobite po njegovem IMDb ID-ju. Nato lahko izvlečete dodatne informacije, kot so imena režiserjev in žanri. Moraš brskajte po seznamu za pridobitev individualnih informacij.
od imdb uvoz Cinemagoer
# Ustvarjanje primerka razreda Cinemagoer
ia = Cinemagoer()# Pridobivanje filma z ID-jem IMDb
film = ia.get_movie('0468569')
tiskanje(film)# Tiskanje imen režiserjev filma
natisni('Režiserji:')za režiserja v filmu['direktorji']:
tisk (režiser['ime'])# tiskanje zvrsti filma
natisni('Žanri:')
za žanr v filmu ['zvrsti']:
tiskanje(žanr)
V izhodu bi morali videti ime danega filma, režiserja(-e) in žanr(e):
Iskanje osebe
Osebe lahko iščete z search_person() metoda. Na primer, če želite iskati "Heath", morate zagnati to kodo:
od imdb uvoz Cinemagoer
# Ustvarjanje primerka razreda Cinemagoer
ia = Cinemagoer()
# Iskanje ljudi, ki imajo v imenu Heath
osebe = ia.search_person('Heath')
tiskanje(osebe [0])
Videli boste ime prve ujemajoče se osebe, ki jo najde iskanje:
Iskanje podjetij
Podjetja lahko iščete z search_company() metoda. Na primer, če želite iskati "Universal", morate zagnati to kodo:
od imdb uvoz Cinemagoer
# Ustvarjanje primerka razreda Cinemagoer
ia = Cinemagoer()
# Iskanje podjetij, ki imajo v imenu Universal
podjetja = ia.search_company('Univerzalni')
tiskanje(podjetja)
Dobili boste seznam vseh podjetij, ki imajo v imenu Universal.
Podatke o osebi in podjetju lahko pridobite tudi z uporabo ID-ja.
od imdb uvoz Cinemagoer
# Ustvarjanje primerka razreda Cinemagoer
ia = Cinemagoer()# Pridobivanje osebnih podatkov po ID-ju
oseba = ia.get_person('0005132')
natisni (oseba['ime'])
natisni (oseba['rojstni datum'])
# Pridobivanje podatkov o podjetju po ID-ju
podjetje = ia.get_company('0005073')
tisk (podjetje['ime'])
Izhod bo pokazal podrobnosti o osebi in ime podjetja:
Iskanje zgornjih in spodnjih filmov
Podatke za najboljših 250 in najmanj 100 filmov lahko pridobite z get_top250_movies() in get_bottom100_movies() metode oziroma:
od imdb uvoz Cinemagoer
# Ustvarjanje primerka razreda Cinemagoer
ia = Cinemagoer()# Iskanje najboljših 250 filmov
top = ia.get_top250_movies()
tiskanje(vrh[0])
# Iskanje spodnjih 100 filmov
bottom = ia.get_bottom100_movies()
tiskanje(spodaj[0])
V odgovoru boste videli ime najboljšega filma in ime najslabšega:
Knjižnica cinemagoer ponuja tudi nekatere druge metode, kot je get_top250_tv(), get_popular100_movies(), in get_top250_indian_movies().
Analiza podatkov je vrednotenje podatkov z uporabo analitičnih ali statističnih orodij za pridobivanje informacij. Priljubljenost analize podatkov je vsak dan večja. Zdaj ga uporabljajo podjetja, tržna podjetja in športne ekipe. Celoten proces podatkovne analitike vključuje definiranje ciljev, zastavljanje vprašanj, zbiranje podatkov, čiščenje podatkov, analizo podatkov in sklepanje rezultatov.
Nabore podatkov za svoje projekte lahko pridobite s knjižnicami Python, kot je Cinemagoer, ali prek spletnih platform, kot je Kaggle. Poleg polnih jezikov, kot sta Python in R, lahko za izvajanje analize podatkov uporabite druga orodja, kot so Microsoft Excel, Tableau in Stata.