Ocr en linux. #RevistaTino

Autor: MsC. Higinia Mayeta Padrón / higinia.mayeta @cha.jovenclub.cu

How to use technology OCR in Linux?

La opción de tecnología OCR (en español reconocimiento óptico de caracteres), es un proceso dirigido a la digitalización de textos. Esta identifica automáticamente, y a partir de una imagen, símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. De esta forma es posible interactuar mediante un programa de edición de texto o similar. Dicha tecnología se halla en el repositorio oficial de Ubuntu 20.04. Es confiable y constituye uno de los motores OCR libres con mayor precisión, disponible actualmente.

¿Cómo usar la Tecnología OCR?

tecnología OCR.- #RevistaTino
Fig. 1. La tecnología OCR para extraer texto de una imagen

Para su uso se necesitan dos aplicaciones:

  • Tesseract OCR: uno de los tres mejores motores OCR en cuanto a precisión, que puede procesar en idiomas como inglés, francés, italiano, alemán, español, catalán, portugués brasileño y neerlandés. Además puede ser entrenado para funcionar con otros idiomas. Se selecciona el idioma que se desea según las iniciales, ng para idioma inglés (por defecto), spa para idioma español entre otros.
  • Gimagereader: que es la parte visual que permite escanear imágenes que contengan textos para extraerlos y convertirlos en editables. Para su instalación se recomienda el gestor Synaptic.

Pasos para usar la tecnología OCR

  1. Seleccionar el idioma en la lista disponible en el botón Recognize all.
  2. Hacer clic en la opción Toggle Output Panel (Panel de salida lateral), para que muestre el texto editable en el panel vertical de la derecha.
  3. Cliquear en la opción Recognize (reconocer).
  4. Exportar al formato de texto deseado (seleccionar a txt, pdf u odt).
  5. Seleccionar dónde guardar el documento que se genere.

Valor práctico inestimable

La tecnología OCR tiene un valor práctico inestimable, ya que permite al usuario automatizar la introducción de caracteres evitando la entrada por teclado, significando un importante ahorro de recursos humanos y un aumento de la productividad y la eficiencia del proceso.

Palabras Claves: Ubuntu 20. 04, tecnología OCR, Tesseract OCR, Gimagereader

Keywords: Ubuntu 20. 04, technology OCR, Tesseract OCR, Gimagereader

Referencias Bibliográficas

Enlaces Relacionados

Recomendaciones generales acerca de los procesadores de textos en Número 57 de la Revista Tino

El cibertexto. Un abordaje necesario en Número 62 de la Revista Tino

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *