Captura de dades d’una web amb Scraper

novembre 29, 2016

A l’assignatura de Mètodes de captura i emmagatzematge de la informació ens proposen una pràctica per capturar les dades d’una pàgina web,  és a dir, practicar Web Scrable una tècnica per extreure informació.

Per fer-ho utilitzarem Scraper, un pluguin per chrome. Anem a les extensions,busquem Scraper i l’instal·lem. També ho podem fer des de la web del pluguin a: http://mnmldave.github.io/scraper/

scraper

Un cop instal·lada anem a recuperar la informació d’un llistat de pel·lícules de filmaffinity del 2016:Llistat pelicules 2016

Entrem a la pàgina, seleccionem el títol, botó dret i “scrape similar “. La interfície és molt simple:

web scrapre

scrpe5

Aquí recull tots els títols de les pel·lícules, perquè el que en realitat esta cercant, tal i com posa en el XPath son tots els elements que tenen l’etiqueta “h3“.

Per tant com el llenguatge html és estructurat, si volem tenir tota la informació, haurem d’agafar tot el div. Seleccionem – botó dret “Inspeccionar element” i la classe del div és:”movie-card movie-card-21

Div class

scraper7

Com es veu en el XPath hem seleccionat el div class=”movie-card movie-card-21“.

Ara tenim tota la informació en una única columna,però també es pot fer seleccionant cada element en una columna, afegint el Xpath com a columnes, dels diferents elements dins del div de la classe que els conté:

resum_scraper

I ara ja tenim tots els camps en la seva columna corresponent, ja podem exportar-ho a un excel.

A baix a la dreta “export to google docs”  i si tenim la sessió oberta de gmail ens ho guardarà en el drive, si no ens demanarà prèviament que obrin la sessió:

scraper_drive

Feel free to share...Share on Facebook
Facebook
Share on Google+
Google+
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin


Deixa un comentari

L'adreça electrònica no es publicarà.