Detectado JavaScript desactivado

Actualmente tienes JavaScript deshabilitado. Varias funciones pueden no funcionaran. Por favor, vuelva a habilitar Javascript para acceder a la funcionalidad completa.

Cómo clonar cualquier sitio web con HTTrack

En este tutorial aprenderás a clonar o descargar cualquier sitio web utilizando el programa HTTrack.

jul 15 2016 11:15

Sergio Culoccioni

Avanzado

jul 15 2016 22:15

HTTrack es una un software libre y gratuito y multiplataforma cuyo fin es la captura web, es decir se descarga todo o parte de un sitio web, para posteriormente poder navegar por él fuera de línea. Existe una versión para Linux se llama WebHTTrack, y su versión para Windows se llama WinHTTrack. Podernos descargar el software HTTrack desde su página oficial:

DESCARGAR HTTRACK

En caso de Linux también podemos instalarlo desde los repositorios, mediante el siguiente comando.

sudo apt-get install httrack

Este software se utiliza mucho para hacer copia de sitios web y luego subirlas a otro servidor y utilizarlas para redirigir tráfico hacia la página copia, enviando visitantes a una página falsa. También lo utilizan quienes desean ver el código o el funcionamiento de una web en particular. Veamos un ejemplo con el sitio web httrack.com, que es donde se aloja la aplicación.

httrack “httrack.com”

Este comando descargara los archivos de la web en una carpeta www.httrack.com, que podremos ver en forma local.

HTTrack toma cualquier sitio web y hace una copia en la carpeta o unidad donde estemos posicionados. Esto puede ser útil para la búsqueda de datos en el sitio web en forma offline, tales como direcciones de correo electrónico, información útil para seo o estructura de una web. HTTrack viene tanto en Windows como en una versión para Linux, y la utilización es la misma solo que en Windows dispone de intergaz visual.

Podemos utilizar Httrack para pruebas de penetración y test de seguridad, ya que al hacer una réplica de un sitio web permite analizar el contenido completo y que archivos se descargan, para determinar que ningún archivo crítico sea visto por un atacante. Cuando recabemos los datos y la información, podemos realizar pruebas, buscar y analizar código o palabras claves, también podemos recolectar datos que podrán ser luego utilizados.

También de esta manera los hackers utilizan las copias realizadas para subirla a un servidor con un dominio similar a la web copiada para emular los sitios web y luego utilizarlos mediante phishing para robar datos a usuarios desprevenidos o para realizar ataques de ingeniería social. Httrack tiene muchas opciones y parámetros para utilizar para mejorar la descarga para ello se utiliza el comando:

httrack --help

Algunos parámetros importantes que podemos utilizar con la herramienta Httrack son:

-m: indica el tamaño máximo de archivo en bytes a descargar, por ejemplo -m 20000000 equivalente a 20 mb.

-mime: sirve para que se descargue solo un tipo determinado de archivo que indicaremos con su extensión por ejemplo con el comando

httrack  www.WEB.com -mime:application/* +mime:application/pdf

Utilizar httrack es sencillo, debemos añadir el dominio del sitio web que queremos copiar y luego comenzar el escaneo posicionados en un directorio de nuestro disco duro en el que vamos a almacenar el sitio web. Deberemos tener en cuenta que cantidad de enlaces o contenido puede tener una web debido a la cantidad de información a descargar. Explorar la copia de la web puede servir para buscar fallos y vulnerabilidades que pueden poner en riesgo la navegación también para determinar que partes es conveniente cifrar o aumentar la seguridad.

Si el objetivo de la descarga es encontrar información sobre una empresa o listados de usuarios, teléfonos u otros datos en particular para la ingeniería social o tratando de suplantar un sitio web o un login para obtener datos de los usuarios, HTTrack es una excelente herramienta para ambas tareas.

Interfaz Gráfica con WebHTTrack

WebHTTrack es una interfaz gráfica para httrack que se utiliza desde un navegador web y permite copias de sitios web completos para acceso sin conexión y modifica los enlaces automáticamente. Herramientas como WebHTTrack pueden ayudar, y permitir la actualización de la copia sin tener que recordar los parámetros para realizar la descarga o copia de una web y de su contenido. Podemos instalarlo con el comando:

sudo apt-get install webhttrack

Luego para ejecutarlo escribiremos el mismo comando:

webhttrack

Para iniciar la interfaz gráfica, podremos ir al directamente a través del menú de aplicaciones y buscamos la aplicación Browse Mirrored Websites.

Otra opción es simplemente, como dijimos anteriormente desde la ventana de terminal escribir el comando webhttrack para poner en marcha un servidor web local en el puerto 8080, a continuación abrimos el navegador teniendo en cuenta que no esté en modo incógnito o privado y en el navegador escribimos la dirección localhost:8080.

Esto nos mostrara el asistente gráfico que nos ayudara a trabajar con httrack, para comenzar deberemos configurar el idioma y pulsar Siguiente. A continuación configuraremos un Nuevo Proyecto, la ventaja de tener la interfaz gráfica es que podemos guardar en un archivo de texto los datos de los sitios web descargados y los parámetros utilizados.

A continuación asignaremos el sitio web que vamos a copiar:

Luego en Definir opciones configuraremos los parámetros y filtros mediante un asistente:

A continuación luego de configurar los filtros, en la próxima pantalla comenzaremos con el escaneo.

Desventajas de utilizar Httrack

Utilizar la herramienta Httrack para realizar este tipo de escaneo y descarga de una web tiene algunas desventajas como las siguientes:

No captura contenido dinámico ni páginas generadas con scripts.

Si se descargan sitios demasiado grandes o con archivos de gran tamaño se puede colapsar el servidor.

Si utilizamos httrack en demasiadas conexiones simultáneas a la misma web podríamos ralentizar el servidor o dejarlo fuera de servicio.

Puede ser de tu interés el tutorial dónde se hace un código para rastrear enlaces:

Rastrear enlaces web con Python

¿Te ayudó este Tutorial?

1 Comentarios

Fede Robles
jul 16 2016 09:43

Interesante sistema, lo había oido pero no lo he probado para testing de sites propios.

Denunciar

No esperes más y entra en Solvetic

Deja tus comentarios y aprovecha las ventajas de la cuenta de usuario ¡Únete!

Crear Cuenta

Regístrate GRATIS para tener tu cuenta Solvetic
Registrar una Cuenta
Identificarse

¿Tienes ya cuenta? Identifícate aquí
Identificarme en mi Cuenta

Últimos Tutoriales Seguridad

Ver más de Seguridad

Hola! Si no encuentras algún tutorial en el buscador de Solvetic, Solicítalo Aquí