Aide avec Canon CanoScan LiDE numérisé PDF Documents

Question

Je viens de commencer à travailler avec Ubuntu au cours des 10 derniers jours, avec l'intention d'arrêter définitivement l'utilisation de Windows. Jusqu'à présent, cela a été génial. J'ai remplacé presque toutes mes applications Microsoft par des applications Ubuntu disponibles et une aide de Google Docs.

Je rencontre un problème avec mon scanner Canon CanoScan LiDE 110. Lorsque j'utilise le scanner dans Windows 7 et que j'enregistre les pages numérisées d'un livre au format PDF, je peux ouvrir la page PDF numérisée et copier directement le texte à coller dans Google Docs ou tout document LibreOffice . J'ai essayé de faire la même chose dans Ubuntu en utilisant l'application Simple Scan. J'ai numérisé la page sous forme de texte dans Simple Scan et l'ai enregistrée au format PDF. Cependant dans Ubuntu lorsque j'ouvre le numérisé PDF page, il s'ouvre OK, mais je ne peux pas copier les textes.

C'est assez important pour mon flux de travail, car je suis médecin et j'ai besoin d'étudier beaucoup de livres.

J'apprécierais vraiment que vous puissiez m'aider avec cela.

Registered User · Accepted Answer

OCR Tesseract

Tesseract était l'un des 3 meilleurs OCR en 1995. Le développement est maintenant géré par google depuis 2006. Il peut numériser des images, convertir en texte et reconnaître 40 langues.

Pour installer Tesseract

Sudo apt-get install tesseract-ocr

Cunéiforme

Cuneiform est un autre système OCR qui reconnaît 23 langues, dont l'anglais, l'allemand, le russe, le français, etc.

Pour installer Cuneiform

Sudo apt-get install cuneiform

Autres applications qui peuvent être utiles

Ocradjvu
Ocrad
gocr
ocrfeeder
pdf studio 8 series