¿Cómo se obtiene la información de un sitio Web a una hoja de Excel?
La respuesta es screenscraping. Hay una serie de programas y Plattformas (como OutWit Hub, Google Docs y Scraping Wiki) que le ayuda a hacer esto, pero ninguno de ellos son - en mi opinión - tan fácil de utilizar como la extensión Google Chrome scraper.
Que es Screen Scrapping?
El Screen Scrapping o “respaldo de pantalla”, es una técnica usada para extraer automáticamente información de un documento, un documento puede ser una página web, un archivo PDF, un archivo de Word, etc.
Google Chrome's Scraper puede ser instalado gratis desde aquí: link
Ahora que ya la tenemos instalada procedemos a realizar las pruebas, en cualquier pagina web da click derecho sobre el texto y debería salir algo así entre las opciones:
Manos a la obra: Sacar los nombres de los diputados de la bancada nacional de Honduras con laURL de la imagen. (url: http://www.congresonacional.hn/images/bancadaN/PN.html )
Damos click derecho sobre el nombre de uno de los diputados, y escogemos la opción "Scrape similar...", en donde nos saldrá este ventana:
Si nos fijamos solamente obtuvimos la url de la imagen de los diputados, nos falta el nombre en el campo de XPath donde dice @tittle lo cambiamos por @alt quedando así y veremos que ya sale el nombre de los diputados:
Y veremos en la esquina inferior derecha el botón "Export to Google Docs" click ahi y veremos que ya tenemos nuestros datos.
0 comentarios :
Publicar un comentario