Web Scraping

Web Scraping, traducido al español literalmente sería algo como "raspado del contenido Web", consiste en una aplicación que hace un recorrido interno del HTML de un sitio web con la intención de extraer los datos y manipularlos para un fin en particular, como por ejemplo crear un índice de contenido, conocer si una página maneja texto no permitido, etc. Estas aplicaciones son de gran utilidad, expondremos las más usadas.




martes, 23 de noviembre de 2010

Programando un web scraper (Internet Explorer)

Por Joel José García Rengifo.
Una buena parte de los Web scrapers se basan en el DOM de los browsers. Otros, como el presente ejemplo, recuperan directamente el contenido despachado vía HTTP. El código de abajo hace uso del objeto HTTPREQUEST y JSCRIPT para hacer scraping del contenido de la página inicial de AMA, del curso de TI. Una vez obtenido el contenido, se despliega dinámicamente una réplica propia utilizando DHTML.

Si lo deseas, puedes bajar el código y ejecutarlo en tu PC desde la siguiente dirección.
http://dt-ip.com/downloads/demo_scraper_ama_ti.zip


Para lograr esto se utilizan las siguientes líneas de código JS:

function ExtraeryCopiarContenidodeAMA(cbou)
{
var xmlhttp;
try
{
xmlhttp = new ActiveXObject("Msxml2.XMLHTTP");
}
catch (e) {
try
{

xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}
catch (E)
{
xmlhttp = false;
}
}

if (typeof xmlhttp!='undefined')
{
xmlhttp.open("GET", "http://iutfrp.com.ve/ama/login/index.php",true);
xmlhttp.onreadystatechange=function()
{
if (xmlhttp.readyState==4)
{
ContenidoRecibido(xmlhttp.responseText);
}
}
xmlhttp.send(null)
}
}

function ContenidoRecibido(contenido)
{

alert("A punto de mostrar el contenido extraído dinámicamente de AMA IUT");

document.write(contenido);
}

ExtraeryCopiarContenidodeAMA();



No hay comentarios:

Publicar un comentario