Kako ekstrahirati besedilo iz datotek PDF in slik v sistemu Linux z uporabo gImageReader

Če ste študent ali vaše delo vključuje delo s številnimi slikami in datotekami PDF, ste na neki točki začutili potrebo po izvlečku besedila iz slike ali dokumenta.

Na srečo ekstrakcija besedila to omogoča. Obstaja več orodij, ki jih lahko uporabite za to. gImageReader je eno izmed mnogih orodij. Je brezplačen za uporabo in deluje tako s slikovnimi datotekami kot dokumenti PDF.

Poglobimo se, da podrobno preverimo gImageReader in si ogledamo, kako ga lahko uporabite za pridobivanje besedila iz slik in PDF-jev.

Kaj je gImageReader?

gImageReader je aplikacija, ki vam omogoča ekstrahiranje besedila iz slik in datotek PDF v sistemu Linux. To je v bistvu GUI ali sprednji del za motor Tesseract OCR, an odprtokodno motor, ki ga je razvil Hewlett-Packard in velja za enega najboljših razpoložljivih motorjev OCR.

Z gImageReaderjem lahko enostavno in precej natančno izvlečete besedilo iz slik ali dokumentov PDF z nekaj preprostimi kliki. Izvlečeno besedilo lahko nato izvozite v besedilno ali PDF datoteko za nadaljnjo uporabo.

instagram viewer

Lastnosti programa gImageReader

gImageReader vsebuje naslednje funkcije:

Uvoz dokumentov PDF in slik iz različnih virov (disk, naprave za skeniranje, odložišče in posnetek zaslona)
Paketna obdelava slik ali dokumentov, tj. ekstrahiranje besedila iz več slik ali dokumentov hkrati
Prepoznajte delčke besedila kot navadno besedilo ali dokumente hOCR
Vgrajen črkovalnik
Samodejno zaznavanje področja besedila
Osnovno urejanje slik/dokumentov
Shranite izhod kot besedilno datoteko

Kako namestiti gImageReader v Linux

gImageReader je na voljo na večina večjih distribucij Linuxa. Toda preden nadaljujete z njegovo namestitvijo, morate v sistem namestiti motor Tesseract OCR.

Če želite to narediti, odprite Upravitelj programske opreme v vašem sistemu in poiščite teserakt. Ko vrne seznam rezultatov, namestite teserakt-okr in tesseract-ocr-eng paketi. Za namestitev paketa lahko uporabite tudi upravitelje paketov v ukazni vrstici, če vam terminal bolj ustreza.

Po tem si oglejte navodila za namestitev v naslednjih razdelkih, da namestite gImageReader v svoj računalnik.

Če uporabljate Debian ali Ubuntu, odprite terminal in zaženite spodnje ukaze, da namestite gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-dobiti nadgradnja
sudo apt namestite gimagereader

V sistemu Fedora, CentOS ali Red Hat Enterprise Linux (RHEL):

sudo dnf namestite gimagereader-qt

Vklopljeno Arch Linux ali Manjaro:

sudo pacman -S gimagereader

Uporabniki openSUSE lahko namestijo gImageReader z uporabo:

sudo zypper namestite gimagereader

Če uporabljate katero koli drugo distribucijo Linuxa, lahko gImageReader sestavite iz vira tako, da sledite navodilom na gImageReader's GitHub.

Kako uporabljati gImageReader v sistemu Linux

gImageReader je precej enostaven za uporabo in deluje z vsemi vrstami slikovnih datotek ter dokumentov PDF. Sledite spodnjim navodilom za ekstrahiranje besedila iz slik ali datotek PDF v sistemu Linux.

Odprite meni aplikacij, poiščite gImageReaderin zaženite aplikacijo. Udari Povečaj v oknu gImageReader, da ga odprete v celozaslonskem pogledu.

Zdaj kliknite na Dodajte slike v levem podoknu pod orodno vrstico in z brskalnikom datotek izberite sliko(e) ali PDF(e), iz katerih želite izvleči besedilo.

Kliknite V redu za uvoz slik ali PDF-jev v gImageReader. Ali pa, če želite izvleči besedilo iz tega, kar je prikazano na zaslonu, kliknite spustni meni poleg Dodajte slike gumb in izberite Naredite posnetek zaslona. gImageReader bo posnel posnetek zaslona vsebine zaslona.

Ko dodate sliko v gImageReader, kliknite Preklop izhodnega podokna gumb (eden z ikono beležnice), da prikažete izhodno podokno. Tukaj se prikaže besedilo, ki ga izvlečete iz slik ali datotek PDF.

Odvisno od tega, kako želite nadaljevati, imate zdaj možnost samodejno ali ročno prepoznati besedilo na sliki ali PDF-ju. Če želite to narediti samodejno, kliknite na Samodejno zaznaj postavitev in označil bo vse besedilne bloke v izbrani sliki ali dokumentu PDF.

Po tem tapnite Prepoznaj izbor > Trenutna stran za začetek postopka ekstrakcije besedila.

Če želite besedilo izbrati ročno, premaknite miškin kazalec nad besedilo, ki ga želite izvleči, in s križcem narišite okvir okoli območja, iz katerega želite izvleči besedilo. Nato pritisnite Prepoznajte izbor gumb za nadaljevanje.

Če gre za dokument PDF in želite izvleči besedilo z različnih strani, tapnite Plus (+) za obračanje strani.

Za vrnitev pritisnite minus (-) gumb. Nato izberite besedilo, ki ga želite izvleči, in pritisnite Prepoznajte izbor gumb, da ga izvlečete.

Čeprav redko, se lahko zgodi, da gImageReader vrne izvlečeno besedilo v jeziku, ki ni angleščina. Ko se to zgodi, preprosto tapnite spustni gumb poleg Prepoznajte izbor in izberite eno od angleških možnosti.

Na koncu, da shranite izvlečeno besedilo, kliknite na Shrani izpis gumb. To bo prikazalo okno Shrani. Tukaj dajte ime datoteki in pritisnite V redu.

Kaj še lahko storite z gImageReaderjem?

Kot smo že omenili, vam gImageReader ponuja tudi možnost spreminjanja določenih vidikov uvoženih slik ali dokumentov, kot so njihova svetlost, kontrast in ločljivost. Poleg tega lahko po potrebi tudi obrnete barve ali zasukate slike ali dokumente.

Večina teh možnosti se lahko izkaže za uporabno, kadar besedilo na sliki ali dokumentu ni berljivo za gImageReader in zato orodju preprečuje prepoznavanje besedila.

Za dostop do katere koli od teh možnosti urejanja kliknite Kontrolniki slike in pod glavno orodno vrstico se prikaže mini orodna vrstica. Tukaj izberite ustrezne gumbe za izvedbo želenega postopka urejanja slike ali dokumenta.

Ekstrakcija besedila v sistemu Linux je preprosta z gImageReader

Ekstrakcija besedila pogosto zahteva pravo orodje: orodje, ki uporablja zanesljiv in natančen mehanizem OCR, ki omogoča učinkovito prepoznavanje besedila na sliki ali dokumentu, tako da ga lahko učinkovito ekstrahirate brez kakršnega koli težave.

gImageReader to odlično doseže, zahvaljujoč motorju Tesseract OCR, ki ga uporablja v ozadju. Glede na enostavnost uporabe je gImageReader nedvomno eno najboljših orodij za črpanje besedila, ki so na voljo za Linux.

Če pa iščete enostavnejšo rešitev, si lahko ogledate TextSnatcher, ki je hiter in precej enostaven za uporabo.

About Technology - denizatm.com

Kako ekstrahirati besedilo iz datotek PDF in slik v sistemu Linux z uporabo gImageReader

Kaj je gImageReader?

Lastnosti programa gImageReader

Kako namestiti gImageReader v Linux

Kako uporabljati gImageReader v sistemu Linux

Kaj še lahko storite z gImageReaderjem?

Ekstrakcija besedila v sistemu Linux je preprosta z gImageReader

Kategorije

Recent Post

Kako prenesti antenske ohranjevalnike zaslona Apple TV na vaš Mac

Kako odpraviti napako »Mscoree.dll ni bilo mogoče najti« v sistemu Windows 11

Vaš strežnik je mogoče vdreti: Evo kako