Scrapy - Python

Scrapy - Python - Slides

Scrappy Doo

Despues de ver este capitulo de mejorando.la , senti curiosidad por Scrapy , un framework para scraping y crawling , algo asi como "raspar y arrastrarse" en sitios web y obtener informacion incluidas en las paginas que componen el sitio.

Hace poco tiempo, necesite este framework, porque me encontraba buscando presentaciones sobre Oracle Weblogic 11g y el sitio, que tenia una presentacion bueno, no me permitia bajarla. Asi que se me prendio la lamparita y comence a buscar , en el codigo HTML informacion que me sirviera para obtener las SLIDES.

Requerimientos:

-Scrapy
-Python
-Distrubucion de linux que te guste. (Use Linux Mint)

Codigo Fuente: spiders/slideshareWeb/slideshareWeb/spiders/slideshareWeb_spider.py

Para Arrancar el codigo se usa:
scrapy crawl slideshareWeb (Enter)
Estando en el directorio de la applicacion que contruyeron; pero mas claro este en el Tutorial que adjunte como link externo.

 import urllib2  
 import tarfile  
 import os  
 from os.path import basename  
 from urlparse import urlsplit  
 from scrapy.spider import BaseSpider  
 from scrapy.selector import HtmlXPathSelector  
 from slideshareWeb.items import SlidesharewebItem  
 class slideshareWebSpider(BaseSpider):  
   name = "slideshareWeb"  
   allowed_domains = ["slideshare.net"]  
   start_urls = [  
       "http://es.slideshare.net/JustinKestelyn/oracle-weblogic-server-12c-developer-overview"  
   ]  
   def messages(self, msg_text):  
     print "--------------------------------------------------------------------------------------"  
     print msg_text  
     print "--------------------------------------------------------------------------------------"  
   def delete_file(self, file_name):  
     os.remove(file_name)  
   def make_tar(self, tar_filename, files_compress):  
     self.messages( "Building Tar File..."+ tar_filename)  
     tar = tarfile.open(tar_filename, "w:gz")  
     for name in files_compress:  
       tar.add(name)  
       #Delete image file  
       self.delete_file(name)  
     tar.close()  
     return  
   def parse(self, response):  
     hxs = HtmlXPathSelector(response)  
     title = hxs.select('//title/text()').extract()  
     self.messages("Extracting slides from : " + title[0])  
     link_slides = hxs.select('//link[contains(@media, "handheld")]/@href').extract()  
     fileTar = basename(urlsplit(link_slides[0])[2])+'.tar'  
     stats = hxs.select('//img[@class="slide_image"]')  
     count = 0  
     items = []  
     files_comp = []  
     for stat in stats:  
       l_normal = stat.select('@data-normal').extract()  
       l_full = stat.select('@data-full').extract()  
       item = SlidesharewebItem()  
       item['number'] = count  
       item['link_normal'] = l_normal[0]  
       item['link_full'] = l_full[0]  
       items.append(item)  
       count +=1     
       try:  
         imgData = urllib2.urlopen(l_full[0]).read()  
         fileName = basename(urlsplit(l_full[0])[2])  
         print "Downloading : ", fileName  
         output = open(fileName,'wb')  
         output.write(imgData)  
         output.close()  
         files_comp.append(fileName)  
       except:  
         pass  
     if count>0:  
       try:  
         self.delete_file(fileTar)  
       except:  
         pass  
       self.make_tar(fileTar, files_comp)  
     else:  
       self.messages("NO Slides in " + title[0] + " maybe SWFObject :-( ")  
     return items

PD: Debo armar a futuro un Tutorial, para instalar todos los Requerimientos de Scrapy ;-)
Por ahora una "receta rapida"
Install PIP Python
scrapy.org
Scrapy Tutorial
Scraping Web Pages

IT Consulting

Buscar este blog

Scrapy - Python - Slides

Etiquetas

Comentarios

Entradas más populares de este blog

Warp 11

Free as in Freedom

Como recupero un Pen Drive que use para instalar OS X?