Web Scraping

Web Scraping, traducido al español literalmente sería algo como "raspado del contenido Web", consiste en una aplicación que hace un recorrido interno del HTML de un sitio web con la intención de extraer los datos y manipularlos para un fin en particular, como por ejemplo crear un índice de contenido, conocer si una página maneja texto no permitido, etc. Estas aplicaciones son de gran utilidad, expondremos las más usadas.




martes, 23 de noviembre de 2010

Screen Scraping

Screen scraping es el nombre en inglés de una técnica de programación que consiste en tomar una presentación de una información (normalmente texto, aunque puede incluir información gráfica) para, mediante ingeniería inversa, extraer los datos que dieron lugar a esa presentación. Por ejemplo:

  • Extraer de la página web de un diario el tiempo meteorológico previsto.


  • Extraer los datos originales a partir de la imagen de una gráfica elaborada.


  • Hacer una consulta automática a la página de gestión de nuestro banco para verificar si el saldo es inferior a un umbral.


  • Extraer los datos de un informe en PDF para volcarlos en una hoja de cálculo.



Screen scraping es una técnica en la cuál un programa de ordenador extrae datos de texto de la salida que ofrece otro programa, ignorando otros datos como imágenes y datos multimedia. Lo que distingue al Screen Scraping del análisis regular es que la salida normalmente no está documentada, ni estructurada ni sirve para la transmisión de los datos. Existe un tipo de scraping visual que es el software de reconocimiento óptico de caracteres (OCR).



El screen scraping ha sido diseñado para procesar datos de texto de interés pero también para reconocer y descartar datos no deseados. Está considerada como una técnica ad-hoc, poco elegante y a menudo usada sólo como un recurso cuando no hay otra elección. A parte del alto y elevado proceso de programación, la visualización de la salida visible para las personas puede cambiar y las personas son capaces de adaptarse a este cambio pero los programas no, por lo que rompen o producen fallos. Requiere intensivos algoritmos de análisis de texto. Los lenguajes de programación que tiene un fuerte soporte para las expresiones regulares y otro procesamiento de texto son una buena elección para escribir programas screen scraping.



A continuacion, una imagen de un aplicativo para realizar barridos de pantallas:





By Oswaldo Viera















No hay comentarios:

Publicar un comentario