Herramientas o programas OCR para extraer texto de imágenes o PDF
En diversos momentos tenemos archivos en formato PDF o en algún formato de imagen y por alguna tarea de gestión requerimos extraer el texto de dicha imagen o archivo y no contamos con alguna herramienta practica que nos brinde la oportunidad de extraerlo de forma correcta.
La extracción del texto de este tipo de archivos es importante cuando debemos trabajar sobre el texto ya sea copiando, editando o eliminando el contenido de la misma y tener este contenido en otro archivo editable. Para este tipo de tarea existe una tecnología llamada OCR la cual es efectiva cuando se trata de convertir los archivos PDF o imágenes como JPEG, PNG, etc, en un documento editable y hoy Solvetic analizara como podemos usar esta tecnología para siempre convertir a texto editable nuestros archivos.
Este proceso está basado en cuatro pilares fundamentales que son:
- Binarizacion: La mayoría de los algoritmos desarrollados en OCR están basados en dos colores (Negro y blanco) por lo cual OCR se encarga de convertir la imagen o el archivo a unja escala de negros y blancos para analizar en detalle cada pixel.
- Fragmentación: Este proceso es vital en la tarea de reconocer los caracteres, y esta segmentación se encarga de detectar mediante un etiquetado los contornos de la imagen y a partir de allí iniciar el respectivo análisis.
- Adelgazamiento del componente: Este proceso consiste en ir borrando de forma continua los puntos de los contornos del archivo para conservar la tipología del mismo.
- Comparación con los patrones de caracteres: En este punto se hará una comparación entre los caracteres obtenidos con otros caracteres almacenados en una base de datos y a partir de allí desplegar el resultado.
Como podemos ver esta técnica es bastante profunda en la tarea de convertir a texto plano o editable nuestras imágenes o archivos ODF.
- Ahorro de espacio ya que un archivo en formato de imagen consume más espacio
- Posibilidad de convertir un texto digital a uno editable
- Ahorro de tiempo ya que OCR puede tener una velocidad de lectura hasta de 1.200 caracteres por segundo.
- Existen herramientas que, combinadas con OCR, permiten convertir el archivo a audio o braile para personas con algún tipo de discapacidad.
Ahora veremos las diversas herramientas con las cuales contamos para hacer uso efectivo de OCR en la conversión de nuestros documentos.
Existen dos opciones para esto: Herramientas online o herramientas para instalar en el equipo.
Esta es una herramienta online gratuita que nos ofrece grandes alternativas para la conversión de nuestros archivos usando OCR. Podemos i a la siguiente dirección para hacer un uso adecuado de ella.
- Reconoce más de 60 lenguajes
- Soporta diversos formatos de imagen entre los cuales están JPG, PNG, BMP, TIF, PBM, PGM, etc.
- Totalmente gratuito
- Permite exportar el archivo editado a formatos como Microsoft Word, Texto, etc.
- I2OCR cuenta con la capacidad de analizar diversas columnas dentro del archivo.
- Es posible convertir una página web a imagen
El funcionamiento de i2OCR es sencillo y consta de 3 pasos:
- Elegir el idioma a usar
- Seleccionar el archivo o imagen a convertir
- Ingresar el captcha para proceder con la conversión
Una vez realizado este proceso pulsamos en la opción Extract Text para que i2OCR inicie su proceso de conversión.
Una vez complete el proceso podemos ver el resultado obtenido:
En este punto podemos decidir en qué formato descargar la imagen convertida. Una vez descargado podremos editarlo según sea la necesidad.
Free Online OCR es otra de las grandes herramientas en line a que serán bastante útiles a la hora de trabajar en la conversión de nuestros archivos digitalizados. Podemos visitar la siguiente dirección para usar Free Online OCR.
- Escanea archivos PDF y los convierte a archivos DOC
- Totalmente en línea, no es necesario instalar programas en el sistema
- Soporta archivos PDF, GIF, BMP, JPEG, TIFF y PNG.
- De manera automática rota las paginas en caso de estar en forma horizontal
- Conserva el formato del archivo
- Cuida los datos personales
- Conserva las capas de los archivos PDF
El uso de Free Online OCR es sencillo, requerimos lo siguiente:
- Seleccionar el archivo a convertir
- Definir el formato de salida (Word, PDF. RTF o TXT)
Una vez definido el archivo pulsamos en la opción Convert para iniciar el proceso de conversión.
De esta manera convertimos cualquier imagen o archivo PDF en texto editable usando Free Online OCR.
Online OCR es una de las alternativas más usadas para convertir imágenes a texto plano. Podemos ir al siguiente enlace para su uso:
- Soporta múltiples lenguajes
- Soporta múltiples formatos de entrada como BMP, PCX, PNG, GIF y PDF.
- Permite exportar los archivos convertidos a Microsoft Word, PDF, TRF, archivos de texto o Microsoft Excel.
El uso de Online OCR es sencillo, debemos realizar lo siguiente:
- Seleccionar el archivo
- Definir el idioma
- Establecer el formato de salida
- Ingresar el captcha para iniciar el proceso
New OCR es otra de las herramientas en línea que son valiosas a la hora de convertir archivos a texto editable usando OCR. Podemos hacer uso de ella en la siguiente dirección:
- Multilenguaje
- Soporta diversos formatos de imagen
- Posibilidad de ver una vista previa del archivo
- Diversas opciones de salida como Microsoft Word, PDF o archivos de texto.
- Conversión ilimitada de archivos
- Soporta imágenes en baja resolución
- Reconoce ecuaciones matemáticas
- Conserva la privacidad de los datos
El uso es sencillo:
- Seleccionar el archivo
- Podemos obtener una vista previa del archivo
De esta forma contamos con diversas herramientas OCR gratuitas totalmente en línea.
Quizás no a todas las personas les agrada usar las herramientas OCR en línea por temas de seguridad, rendimiento o estabilidad. Solvetic te trae algunas de las herramientas OCR que pueden ser descargadas de forma gratuita para ser instaladas y contar siempre con una herramienta OCR a la mano.
FREE OCRTOWORD, como su nombre lo indica, nos da la posibilidad de convertir nuestros archivos digitalizados en formato de Microsoft Word para su posterior edición. Podemos descargarla desde el siguiente enlace.
- Puede extraer el texto de diversos formatos como JPG, BMP, PNG, GIF, TIF.
- Convierte las imágenes escaneadas y archivos PDF en documentos Word editables.
- Esta herramienta es compatible con diversos tipos de escáneres lo cual permite escanear directamente desde la aplicación.
- FREE OCRTOWORD tiene un margen de conversión del 98%
- Veloz y seguro
- Gratuito
El proceso de instalación de FREE OCRTOWORD es sencillo y una vez lo ejecutemos esta será su interfaz. Allí basta con acceder a la selección del archivo desde el botón Open, o bien escanearlo directamente usando la opción Scan. Una vez carguemos el archivo tenemos la posibilidad de convertir todo el documento o solo una parte de el:
Una vez seleccionemos el área pulsamos en el botón OCR y en el panel derecho veremos la respectiva conversión seleccionada. Podemos ver que la herramienta nos ofrece diversas alternativas para el trabajo con el archivo convertido, podemos rotar la imagen, reducir o ampliar su tamaño, etc. Para guardar el texto convertido damos clic sobre el área donde se encuentra el texto convertido y allí seleccionamos la opción Export text into Microsoft Word
Podemos verla gran ayuda ofrecida por esta aplicación.
FreeOCR es una herramienta gratuita y muy práctica que puede ser descargada desde el siguiente enlace:
- Soporta todas las ediciones de Windows
- Gratuito
- Soporta múltiples formatos de archivos a convertir
- Podemos importar los archivos directamente desde un escáner
El proceso de instalación de FreeOCR es sencillo y esta será su interfaz una vez accedamos. Allí podemos escanear el archivo directamente o buscarlo en el equipo. Una vez accedamos al archivo veremos lo siguiente:
Allí podemos usar los iconos en la barra central para ejecutar las tareas necesarias para la conversión de nuestra imagen o archivo, podemos convertir el archivo a Word, RFT o TXT.
El enfoque de VueScan está pensado más para entornos de sistemas operativos macOS pero también contamos con los archivos para Windows 10 los cuales pueden ser descargados desde el siguiente enlace:
El trabajo de VueScan está enfocado a los escáneres, ya que para su funcionamiento se requiere tener conectado un escáner al equipo.
- Detección automática de color
- Soporta sistemas operativos Windows y Mac
- Podemos reducir el tamaño de los archivos
- Puede descifrar de manera automática los archivos
- Podemos escanear múltiples tipos de archivos
Al ejecutar la herramienta tenemos múltiples opciones para la edición de los archivos:
Desde este menú podremos gestionar todo lo relacionado a nuestros documentos.
gImageReader es una sencilla pero gran herramienta que nos brindara la posibilidad de escanear archivos directamente desde el dispositivo o tomar screenshots de lo que deseamos convertir. Esta herramienta puede ser descargada desde el siguiente enlace:
- Posibilidad de importar archivos en PDF para su conversión
- Posibilidad de gestionar múltiples imágenes en un solo archivo
- Es posible establecer el área de selección de forma manual o automática
- Gratuito
- Solo puede ser usado en arquitecturas de 64 bits
Podemos tomar un screen de la imagen a convertir:
Seleccionamos el texto que deseamos convertir y pulsamos en el botón Recognize selection y podremos ver que el texto seleccionado se ha convertido en formato de texto editable en el costado derecho.
Ahora desde allí podremos exportar este texto en formato PDF, Microsoft Word, etc.
Esta es una herramienta propia de Windows y puede ser descargada e instalada desde el siguiente enlace:
- Soporta reconocimiento de voz
- Gratuito
- Multilenguaje
- Es posible importar imágenes directamente desde la web
- Es posible personalizarlo según nuestro gusto
- Soporta Windows 10
Una vez descargado desde la tienda de Windows veremos varias posibilidades. Allí podemos buscar el archivo a extraer el texto, pegar la imagen, usar la cámara, etc. Una vez carguemos el archivo de manera automática se extraerá el texto de dicha imagen:
Desde allí podremos guardarlo en formato de TXT, HTML, etc.
Tenemos múltiples opciones para convertir todos los archivos digitalizados en texto editable para realizar las gestiones que sean necesarias usando estas diversas herramientas según nuestro gusto, ya sea en línea o directamente instalando la aplicación en el equipo.