Optilise tähtede tuvastamine (OCR) viitab tarkvarale, mis loob trükitud, trükitud või käsitsi kirjutatud dokumendi digitaalse versiooni, mida arvutid saavad lugeda, ilma et oleks vaja käsitsi teksti sisestada või sisestada. OCR-i kasutatakse tavaliselt PDF- vormingus skannitud dokumentides, kuid see võib ka luua arvutipilditava teksti versiooni pildifailis.
Mis on OCR?
OCR, mida nimetatakse ka tekstide tuvastamiseks, on tarkvaratehnoloogia, mis teisendab trükitud või kirjalikest dokumentidest elektroonilisel kujul kergemini tuvastatud ja lugemiseks arvutite ja muude tarkvaraprogrammide abil selliseid tähemärke nagu numbrid, tähed ja kirjavahemärgid (nn glüüfid). Mõned OCR-i programmid teevad seda dokumendina skaneerituna või pildistatakse digitaalkaameraga, teised võivad seda protsessi rakendada dokumentidele, mida on varem skaneeritud või fotografeerituna ilma OCR-ita. OCR võimaldab kasutajatel otsida PDF-dokumentides, redigeerida teksti ja vormindada dokumente uuesti.
Mis on OCR-i kasutamiseks?
OCR-iga kiire ja igapäevane skannimisvajadus ei pruugi olla suur asi. Kui teete suurt hulka skaneerimist, suudab PDF-failides otsida täpset teavet, mida vajate, võib salvestada üsna pikka aega ja muudab teie skanneriprogrammi OCR-funktsionaalsuse tähtsamaks. Siin on mõned muud asjad, mida OCR aitab:
- Automatiseeritud andmetöötlus ja andmesisestus (Näide: taotlejate jälgimise süsteemid jätkamiseks)
- Skannitud raamatud on otsitavad
- Käsitsi kirjutatud skaneeringute konvertimine arvutile loetavas tekstis
- Nägemispuudega inimeste abistamiseks mõeldud lugejate programmide abil saab dokumente kasutada rohkem
- Ajalooliste dokumentide ja ajalehtede säilitamine, muutes need otsitavaks
- Andmete kogumine ja ülekandmine raamatupidamisprogrammidesse (Näide: laekumised ja arved)
- Dokumentide indekseerimine otsingumootorites kasutamiseks
- Juhilubade numbrite tunnustamine kiiruskaamera ja punase tulega kaameratarkvaraga
- Speech synthesizers inimestele, kes ei oska rääkida - teoreetiline füüsik Stephen Hawking on kõne süntesaatoriprogrammi kõige tuntum kasutaja
Miks kasutada OCR-i?
Miks mitte lihtsalt pildistada, eks? Sest te ei saa midagi muuta ega otsida teksti, kuna see oleks lihtsalt pilt. Dokumendi skaneerimine ja OCR-tarkvara töötamine võib muuta selle faili midagi, mida saate redigeerida ja otsida.
OCR-i ajalugu
Kuigi 1914. aastal kasutusel olnud tekstide tunnustamine on juba varem kõige enam kasutusel, hakkas OCR-tehnoloogiaga seotud tehnoloogiaid laialdaselt arendama ja kasutama 1950-ndatel, eriti lihtsustatud fontide loomiseks, mida digitaalselt loetavaks tekstiga hõlpsamini teisendada. Esimene neist lihtsustatud fontidest loodi David Shepard ja üldtuntud kui OCR-7B. OCR-7B on täna kasutusel finantstööstuses krediitkaartide ja deebetkaartide jaoks kasutatava standardfriidi jaoks. 1960. aastatel hakkasid paljudes riikides postiteenused kasutama OCR-tehnoloogiat, et oluliselt kiirendada posti sorteerimist, sealhulgas Ameerika Ühendriike, Suurbritanniat, Kanadat ja Saksamaad. OCR on endiselt põhitehnoloogia, mida kasutatakse postiteenuste sortimiseks kogu maailmas. 2000. aastal kasutati OCR-tehnoloogia tehnoloogiate piirangute ja võimaluste põhiteadmisi, et töötada välja robotprogrammide ja rämpsposti saatjate kasutamise peatamiseks mõeldud CAPTCHA-programmid .
Aastakümnete jooksul on OCR-i kasutamine muutunud täpsemaks ja keerukamaks tänu edusammudele seotud tehnoloogiavaldkondades, nagu tehisintellekt , masin õppe ja arvutite nägemine. Tänapäeval kasutab OCR tarkvara dokumentide teisendamiseks kiiremaid ja täpsemaid võtteid kui kunagi varem.