Web Scraping

Web Scraping, traducido al español literalmente sería algo como "raspado del contenido Web", consiste en una aplicación que hace un recorrido interno del HTML de un sitio web con la intención de extraer los datos y manipularlos para un fin en particular, como por ejemplo crear un índice de contenido, conocer si una página maneja texto no permitido, etc. Estas aplicaciones son de gran utilidad, expondremos las más usadas.




lunes, 22 de noviembre de 2010

Modelo de objetos de Datos - DOM

 El modelo de Objeto de Datos (DOM), por sus siglas en inglés (Document Object Model) es un modelo de objetos estandard para documentos HTML y XML que define la estrucutra lógica de los mismos. Este modelo contiene una estructura abstracta del documento XML, de esta manera, un programa que pueda acceder a esta estructura puede entonces modificar el contenido, el estilo o la presentación del documento.
 Según la W3C, uno de los objetivos importantes del Modelo de Objetos del Documento es proporcionar una interfaz estándar de programación que pueda utilizarse en una amplia variedad de entornos y aplicaciones. El DOM se ha diseñado para utilizarse en cualquier lenguaje de programación como Java o ECMAScript (un lenguaje de scripts industrial basado en JavaScript y JScript), etc.

El estándard DOM está organizado en tres partes:
  • DOM Nivel 1 Core (definiciones fundamentales)
  • DOM Nivel 1 HTML
  • DOM Nivel 1 XML
 A continuación se muestran referencias del árbol DOM para Internet Explorer y Mozilla:
DOM Mozilla

DOM Internet Explorer
Para acceder a cada nodo y ajustar alguna propiedad sobre el mismo se realiza como se hace en la programación orientada a objetos:
nombre_objeto.nombre_propiedad
Igualmente para acceder a un método:
nombre_objeto.nombre_metodo().







Entrada realizada por María Marchena.

No hay comentarios:

Publicar un comentario