Web Scraping: Programando un web scraper (Internet Explorer)

Por Joel José García Rengifo.
Una buena parte de los Web scrapers se basan en el DOM de los browsers. Otros, como el presente ejemplo, recuperan directamente el contenido despachado vía HTTP. El código de abajo hace uso del objeto HTTPREQUEST y JSCRIPT para hacer scraping del contenido de la página inicial de AMA, del curso de TI. Una vez obtenido el contenido, se despliega dinámicamente una réplica propia utilizando DHTML.

Si lo deseas, puedes bajar el código y ejecutarlo en tu PC desde la siguiente dirección.
http://dt-ip.com/downloads/demo_scraper_ama_ti.zip

Para lograr esto se utilizan las siguientes líneas de código JS:

function ExtraeryCopiarContenidodeAMA(cbou)
{
var xmlhttp;
try
{
xmlhttp = new ActiveXObject("Msxml2.XMLHTTP");
}
catch (e) {
try
{

xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}
catch (E)
{
xmlhttp = false;
}
}

if (typeof xmlhttp!='undefined')
{
xmlhttp.open("GET", "http://iutfrp.com.ve/ama/login/index.php",true);
xmlhttp.onreadystatechange=function()
{
if (xmlhttp.readyState==4)
{
ContenidoRecibido(xmlhttp.responseText);
}
}
xmlhttp.send(null)
}
}

function ContenidoRecibido(contenido)
{

alert("A punto de mostrar el contenido extraído dinámicamente de AMA IUT");

document.write(contenido);
}

ExtraeryCopiarContenidodeAMA();

Web Scraping

martes, 23 de noviembre de 2010

Programando un web scraper (Internet Explorer)

No hay comentarios:

Publicar un comentario