Gli svantaggi dell'OCR
Il servizio postale degli Stati Uniti utilizza la tecnologia di riconoscimento ottico dei caratteri (OCR) per leggere gli indirizzi sui pezzi di posta. Affinché la posta sia leggibile da uno smistatore di posta OCR, tuttavia, gli indirizzi e i caratteri devono essere formattati in un determinato modo. Il software OCR è utile per convertire le immagini scansionate di documenti digitati o scritti a mano in testo elettronico ricercabile, ma presenta degli svantaggi che ne limitano le applicazioni.
Documenti limitati
L'OCR funziona meglio con documenti digitati di buona qualità. I documenti scritti a mano non possono essere letti facilmente dal software OCR. Allo stesso modo, i caratteri digitati che assomigliano alla scrittura a mano, così come i caratteri non latini, creano molti errori durante il processo OCR. Se il documento ha uno scarso contrasto, è sgualcito o sporco o se il testo e lo sfondo sono simili nell'oscurità, l'OCR potrebbe non funzionare correttamente. L'OCR ha difficoltà con i documenti che contengono sia immagini che testo. I fogli di lavoro produrranno anche più errori.
Precisione
Nessun software OCR è accurato al 100%. Il numero di errori dipende dalla qualità e dal tipo di documento, compreso il carattere utilizzato. Gli errori che si verificano durante l'OCR includono la lettura errata di lettere, il salto di lettere illeggibili o la combinazione di testo da colonne adiacenti o didascalie di immagini. Se è richiesta un'elevata precisione, come per la conversione di libri digitali in formato elettronico, sarà necessaria una pulizia del testo elettronico.
Soluzioni alternative
L'OCR ha difficoltà a distinguere i caratteri, come il numero zero e la "O" maiuscola. Per ovviare a questo problema, è possibile utilizzare uno speciale carattere OCR, ad esempio scrivere zero. Tuttavia, questo funziona solo per i documenti creati tenendo presente l'OCR, come i questionari. Durante la creazione di questionari che verranno scritti a mano, i ricercatori utilizzano anche le caselle per ogni lettera.
Lavoro aggiuntivo
Anche se l'immagine scansionata del documento originale è di alta qualità, è necessario eseguire ulteriori passaggi per ripulire il testo OCR. È molto laborioso correggere gli errori creati dall'OCR. Una persona deve confrontare manualmente il documento originale e il testo elettronico. Le persone commettono errori anche durante la digitazione del testo da un documento, ma a volte è più veloce saltare il passaggio dell'OCR.