Introducción
Veamos hasta qué punto es legal utilizar esta técnica de extracción de datos, la cual nos facilita más nuestra labor al manipular gran cantidad de información.
El objetivo del Web Scraping es transformar esos datos no estructurados que nos interesan en una web, en datos estructurados que puedan ser almacenados y analizados en una base de datos local o en una hoja de cálculo. Lo mejor de esta técnica es que no necesitas tener algún conocimiento previo o saber de programación para poder aplicarla.
Es por estas ventajas que a las Startups les encanta el Web Scraping, porque es una forma económica, rápida y eficaz de recopilar datos sin la necesidad de establecer asociaciones o grandes inversiones. Hoy en día grandes empresas lo aplican para su propio beneficio y a su vez buscan protección para que no les sea aplicada.
Con la finalidad de evitar cualquier tipo de inconvenientes, te recomendamos que verifiques si ésta es una práctica legal en tu país antes de aplicarla; Así como también que consideres programar de forma tal que tu información no sea de fácil acceso para un robot, con la finalidad de proteger tu web.
Aspectos a considerar:
- Si los datos que necesitas se encuentran solo en una página web y estos se encuentran ubicados en muchas tablas, te recomendamos que utilices la herramienta Google Spreadsheets.
- En el caso en que los datos cautivos posean una estructura de paginación y no sea necesario automatizar su captura, Table Capture es la mejor opción.
- Si los datos poseen paginación y necesitas automatizar su captura periódicamente, Import.io es la herramienta para hacer este tipo de trabajo.
- Verifica si son varias páginas, con múltiples tablas. En caso de que no posea paginación, es mejor usar ScraperWiki.
A continuación detallaremos la funcionalidad de cada una de estas herramientas poniendo en práctica algunos ejemplos.
Empecemos!