Por Joel José García Rengifo.
Una buena parte de los Web scrapers se basan en el DOM de los browsers. Otros, como el presente ejemplo, recuperan directamente el contenido despachado vía HTTP. El código de abajo hace uso del objeto HTTPREQUEST y JSCRIPT para hacer scraping del contenido de la página inicial de AMA, del curso de TI. Una vez obtenido el contenido, se despliega dinámicamente una réplica propia utilizando DHTML.
Si lo deseas, puedes bajar el código y ejecutarlo en tu PC desde la siguiente dirección.
http://dt-ip.com/downloads/demo_scraper_ama_ti.zip
Para lograr esto se utilizan las siguientes líneas de código JS:
function ExtraeryCopiarContenidodeAMA(cbou)
{
var xmlhttp;
try
{
xmlhttp = new ActiveXObject("Msxml2.XMLHTTP");
}
catch (e) {
try
{
xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}
catch (E)
{
xmlhttp = false;
}
}
if (typeof xmlhttp!='undefined')
{
xmlhttp.open("GET", "http://iutfrp.com.ve/ama/login/index.php",true);
xmlhttp.onreadystatechange=function()
{
if (xmlhttp.readyState==4)
{
ContenidoRecibido(xmlhttp.responseText);
}
}
xmlhttp.send(null)
}
}
function ContenidoRecibido(contenido)
{
alert("A punto de mostrar el contenido extraído dinámicamente de AMA IUT");
document.write(contenido);
}
ExtraeryCopiarContenidodeAMA();
No hay comentarios:
Publicar un comentario