Los sistemas operativos están basados en líneas de comandos que nos ofrecen múltiples opciones para aumentar las capacidades de la distribución al poder ejecutar búsquedas, acciones de administración, soporte y mucho más.
Justamente una de estas opciones está ligada a la posibilidad de buscar determinados tipos de archivos en Linux y así acceder fácilmente a su contenido y por ello hoy hablaremos de pdfgrep la cual está enfocada en la búsqueda de archivos PDF.
Algunas de sus características son:
- Compatible con Grep, podremos ejecutar muchos parámetros de grep como -r, -i, -n o -c.
- Capacidad de buscar texto en múltiples archivos PDF
- Colores destacados, esta opción de color de GNU Grep es compatible y está habilitada por defecto.
- Admite el uso de expresiones regulares.
- Software libre
1. Instalar Pdfgrep en Linux
En este caso usaremos Ubuntu por lo cual basta con ejecutar la siguiente línea. Allí ingresamos la letra S para aceptar la descarga e instalación de los paquetes.
sudo apt install pdfgrep
Otras opciones de instalación son:
- Descargar el archivo .TAR.GZ en el siguiente enlace.
- O ejecutar el siguiente comando:
git clone https://gitlab.com/pdfgrep/pdfgrep.git
Posteriormente ingresar cada una de las siguientes líneas en su orden:
./configure make sudo make install
2. Usar Pdfgrep en Linux
Una vez instalado pdfgrep esta será la sintaxis a usar:
pdfgrep [OPCION...] PATTERN [ARCHIVO]
Cada uno de los elementos son:
- Opción: Indica los atributos que podemos añadir en la búsqueda, por ejemplo -i o --ignore-case, los cuales ignoran la distinción de letras mayúsculas y minúsculas entre el patrón que hemos indicado y el que debe coincidir con el archivo.
- Pattern: Indica una expresión regular extendida.
- Archivo: Es el archivo PDF donde se ha de ejecutar la búsqueda.
Iniciaremos con una búsqueda simple, por ejemplo, buscaremos la palabra Solvetic en el archivo Solvetic.pdf, para ello ejecutamos lo siguiente:
pdfgrep Solvetic Solvetic.pdf
En este caso solo existe una vez este término en dicho archivo, pero, ahora buscaremos el término Windows en un archivo PDF oficial de Microsoft y este será el resultado que veremos:
Podemos ver que la palabra buscada esta resaltada lo cual nos facilita su ubicación. Ahora, si añadimos el parámetro -in, será posible ver los resultados con el número de página donde se ha detectado dicho termino:
Otra de las opciones que podemos usar con pdfgrep es listar el o los archivos PDF que contengan un determinado término, para ello ejecutamos lo siguiente:
pdfgrep Solvetic *pdf
De esta forma será listado el archivo PDF donde se encuentra el término Solvetic:
Si deseamos abrir el archivo PDF podemos ejecutar el siguiente comando:
xdg-open (Archivo.PDF)
Las opciones generales que nos ofrece pdfgrep son:
Con esto pdfgrep se convierte en una solución ideal a la hora de trabajar con archivos PDF en ambientes Linux.