Qual è il miglior programma gratuito OCR o ICR per la trascrizione dei manoscritti?

Qual è il miglior programma gratuito OCR o ICR per la trascrizione dei manoscritti? / Chiedi agli esperti

Javier chiede:

Sono uno scrittore di racconti e racconti. Sto cercando un programma Optical Character Recognition (OCR) o Intelligent Character Recognition (ICR) per scansionare i miei vecchi manoscritti da immagini o fotografie, così posso convertirli in file Microsoft Word.

Esistono programmi gratuiti e precisi in grado di farlo? Sfortunatamente, non ho uno scanner, ma ho accesso a una fotocamera digitale con una risoluzione di 20 megapixel.

La risposta di Kannon:

Come hai già detto, esistono diversi tipi di tecnologie di riconoscimento dei caratteri che possono convertire automaticamente la scrittura scritta a mano o digitato in caratteri digitali. Il livello di accuratezza di questi tipi di software varia notevolmente tra le diverse implementazioni. Alcuni convertono in base lettera per lettera e altri possono convertire intere parole. Esistono tre categorie generali di questo software:

  • Optical Character Recognition (OCR)
  • Intelligent Character Recognition (ICR)
  • Intelligent Word Recognition (IWR)

Riconoscimento ottico dei caratteri

In realtà, l'OCR è un termine generico e spesso tutti i metodi descritti in questo articolo sono indicati come OCR - Wikipedia, tuttavia, fornisce all'OCR la propria classificazione, ma le implementazioni moderne tendono a raggruppare insieme più metodi. Quindi, cosa fa? OCR converte lettere individuali o scritte a mano in caratteri digitali. Quindi il software guarda un documento e poi tenta di convertirlo in testo normale indovinando cosa sia ciascun personaggio.

Il software non è perfetto. Il software OCR può interpretare erroneamente i singoli caratteri con aspetti simili, risultando in parole errate e output imprecisi. Nella maggior parte dei casi, gli utenti possono copiare il testo generato da un programma OCR in un elaboratore di testi e correggere automaticamente gli errori di ortografia. Spesso gli errori appariranno come caratteri simili. Ad esempio la lettera “d” potrebbe essere rappresentato come “cl”.

Ma quando si tratta di testi scritti a mano, l'OCR non funziona molto bene. Almeno, la maggior parte delle implementazioni gratuite sono tragicamente cattive. Ci sono alcuni prodotti commerciali che possono veramente trascrizione manoscritta, ma il loro prezzo li pone completamente fuori portata per il pubblico in generale. Ad esempio, c'è il software ReadSoft OCR di Lexmark. Questo software di sola impresa costa migliaia di dollari.

Intelligent Character Recognition

ICR è un sottoinsieme di OCR specializzato nella conversione di testo scritto a mano in singoli caratteri digitali. Dato che i tuoi appunti e manoscritti sono scritti a mano, un programma ICR è il più utile. Tuttavia, non sono sicuro di quanto accuratamente possano convertire testi scritti in lingue straniere, come lo spagnolo. Come con l'OCR, gli utenti possono migliorare la qualità dei testi emessi copiandoli in un elaboratore di testi con correzione ortografica attivata e quindi rilegiando a mano.

Intelligent Word Recognition

L'ultima evoluzione di OCR e ICR è il software Intelligent Word Recognition. Piuttosto che riconoscere i singoli caratteri, tenta di tradurre intere parole scritte a mano. Come l'OCR e l'ICR, l'Intelligent Word Recognition spesso traduce erroneamente le parole e richiede all'utente di correggere manualmente eventuali errori commessi.

Qual è il miglior software OCR gratuito?

Tesseract

Ci sono molte opzioni disponibili. Tesseract è probabilmente il migliore open source (e gratuito) software OCR là fuori. A mia conoscenza, guarda solo i singoli caratteri e non le parole intere.

Perché stai usando Microsoft Word (che ha il miglior controllo ortografico più personalizzabile Come eseguire il controllo ortografico e grammaticale in Microsoft Word Come eseguire il controllo ortografico e grammaticale in Microsoft Word Puoi personalizzare gli strumenti di controllo ortografico e grammaticale di Microsoft Word integrati per soddisfare Puoi anche usare la Correzione automatica per velocizzare la digitazione Leggi di più nelle aziende), puoi semplicemente copiare l'intero testo in Word e poi eseguire un controllo ortografico per ripulire gli errori ortografici.

Tesseract è in realtà un motore OCR che viene eseguito dalla riga di comando. A meno che tu non sia disposto ad affrontare la difficoltà di maneggiare uno strumento da riga di comando, probabilmente vorrai installare qualcosa di più user-friendly. C'è un download “fine frontale” (o un'interfaccia grafica utente) che consente di utilizzare Tesseract come strumento di trascinamento della selezione: PDF OCR X. Innanzitutto, installare il pacchetto software, quindi eseguirlo. Vedrai quindi una finestra:

Quindi basta trascinare e rilasciare il file immagine sulla finestra. Una volta caricata l'immagine, esegui il software di trascrizione OCR. Potrebbe volerci un minuto o così.

Sfortunatamente, è risultato del tutto inadeguato per gestire il tuo testo. Ecco come appare dopo aver estratto il testo dal documento:

Microsoft OneNote

Poiché sembra che tu stia già utilizzando Microsoft Office, l'opzione migliore è probabilmente anche di Microsoft. Immagino di possedere una copia di Microsoft Office, che include OneNote. Questo è dotato di una tecnologia OCR piuttosto avanzata.

Inoltre, sia su iOS che su Android, c'è anche l'obiettivo Microsoft Office completamente gratuito, che può convertire il JPEG (e altri formati di immagine) direttamente nel testo. Ciò che rende le versioni mobili così meravigliose è che puoi scattare un'immagine, caricarla sul sistema di cloud computing di Microsoft e quindi eseguire l'estrazione del testo da OneNote su un desktop.

Il processo è abbastanza semplice. Per prima cosa, scatta una foto del tuo testo. Se hai deciso di utilizzare l'app OneNote, dovrai solo salvare il file sul tuo account OneDrive. Altrimenti, trasferisci l'immagine sul tuo computer e trascinala su OneNote.

Quindi fare clic con il tasto destro sull'immagine e selezionare copia Testo dalla foto dal menu di scelta rapida.

Quindi fare clic con il pulsante destro del mouse su una porzione vuota di OneNote (o in un'applicazione di lettura del testo) e incolla il testo dentro. Il testo emesso dal tuo documento è simile al seguente:

Sfortunatamente, i risultati di OneNote non funzionano in qualunque posto vicino a un buon lavoro, producendo sciocchezze. Ciò potrebbe essere causato da una combinazione di fattori, ad esempio un'immagine distorta o scritta non eseguita in linea retta, o semplicemente perché il software non è abbastanza buono.

Google Keep

Al momento la soluzione migliore per l'OCR su documenti scritti a mano riguarda l'apprendimento automatico: in particolare, l'apprendimento profondo. Il deep-learning è un metodo sofisticato di formazione di un computer per eseguire compiti che in precedenza erano solo umani, come il riconoscimento facciale (Picasa fa riconoscimento facciale Come utilizzare il riconoscimento facciale in Picasa Web Album Come utilizzare il riconoscimento facciale in Picasa Web Album Ulteriori informazioni , credici o no). Google ha recentemente acquistato DeepMind, che sviluppa tecnologia di deep learning Progetti di ricerca interessanti che potrebbero cambiare il futuro Progetti di ricerca interessanti che potrebbero cambiare il futuro Le mega-società come Google, Microsoft, IBM e Intel continueranno a dare alle generazioni future il mondo che possiamo solo immaginare ora? Questi interessanti progetti di ricerca dicono che è una promessa che manterranno. Leggi di più . Questa acquisizione chiave ha avuto un grande effetto: Microsoft perde su Google in OCR Microsoft contro Google - Chi guida l'Intelligence Artificial Race? Microsoft vs Google - Chi guida la gara di Intelligenza Artificiale? I ricercatori di intelligenza artificiale stanno facendo progressi tangibili e la gente sta iniziando a parlare seriamente di AI. I due titani che guidano la corsa all'intelligenza artificiale sono Google e Microsoft. Leggi di più . Al momento Google offre uno dei metodi più avanzati (e gratuiti): Google Keep.

Google Keep (che abbiamo esaminato per la prima volta nel 2013 Simple Notes On The Go: Google Keep per Android Recensione di semplici appunto in movimento: Google Keep per Android Recensione Ci sono alcune app incredibili per prendere appunti, ma eccone uno che merita un'occhiata più ravvicinata : Google Keep, un custode di appunti che ha sia un'app per Android dall'aspetto accattivante che un'app trasparente Web. Altre informazioni) offre anche una versione mobile della loro app per Android. Come con OneNote, puoi scattare l'immagine e trasferirla direttamente nel cloud di Google. Trascina l'immagine nella finestra di Google Keep. Quindi fare clic sul pulsante del menu (tre punti verticali) e selezionare Afferra il testo dell'immagine dal menu di scelta rapida.

Ecco come appare dopo aver estratto il testo:

Google Keep Wins

Come puoi vedere, Google Keep domina la concorrenza. I risultati possono essere ulteriormente migliorati utilizzando uno strumento di modifica delle immagini 10 Strumenti di Photo Photo Editor per sfruttare al massimo i tuoi scatti 10 Strumenti di Photo Editor gratuiti per ottenere il massimo dai tuoi scatti Qualunque cosa sia successo a tutte le istantanee che hai scattato in passato ? Se hai piani e idee, ecco alcuni ottimi strumenti Windows e alcuni strumenti multipiattaforma per elaborarli. Leggi altro per aumentare il contrasto e raddrizzare l'immagine.

Speriamo che queste opzioni aiutino. Se hai bisogno di più opzioni OCR, consulta i 5 migliori strumenti OCR I 5 migliori strumenti OCR per estrarre il testo dalle immagini I 5 migliori strumenti OCR per estrarre il testo dalle immagini Quando hai una risma di carta, come ottenere tutto ciò che è stampato testo convertito in qualcosa che un programma digitale sarà in grado di riconoscere e indicizzare? Tieni un buon software OCR vicino. Leggi di più, per maggiori informazioni.

Scopri di più su: OCR, Trascrizione.