Ir al contenido principal

Scrapy - Python - Slides

Scrappy Doo



Despues de ver este capitulo de mejorando.la  , senti curiosidad por Scrapy , un framework para scraping y crawling , algo asi como "raspar y arrastrarse" en sitios web y obtener informacion incluidas en las paginas que componen el sitio.



Hace poco tiempo, necesite este framework, porque me encontraba buscando presentaciones sobre Oracle Weblogic 11g y  el sitio, que tenia una presentacion bueno, no me permitia bajarla.  Asi que se me prendio la lamparita y comence a buscar , en el codigo HTML informacion que me sirviera para obtener las SLIDES.

Requerimientos:

-Scrapy
-Python
-Distrubucion de linux que te guste. (Use Linux Mint)


Codigo Fuente: spiders/slideshareWeb/slideshareWeb/spiders/slideshareWeb_spider.py

Para Arrancar el codigo se usa:
scrapy crawl slideshareWeb (Enter)
Estando en el directorio de la applicacion que contruyeron; pero mas claro este en el Tutorial que adjunte como link externo.
PD: Debo armar a futuro un Tutorial, para instalar todos los Requerimientos de Scrapy ;-)
Por ahora una "receta rapida"
Install PIP Python
scrapy.org
Scrapy Tutorial
Scraping Web Pages

Comentarios

Entradas más populares de este blog

Bajar contenido de ISSUU.COM [Autom]

Mientras navegaba por la red encontré este sitio: www.issuu.com   es un sitio donde las personas suben distintas publicaciones de toda índole. Y me puse a revisar algunas revistas que encontré ahí, con buen material, pero me resultaba torpe tener que bajar pagina por pagina o suscribirme para bajarlas.  Así que empece a buscar una manera de bajar todas las paginas a la vez, leyendo este post y con algunos conocimientos de python (no son muchos ;-) me las arregle para hacer un script para bajar las publicaciones en formato JPG. (las paginas) y aquí subiré el código fuente. #!/usr/local/bin/python """Extract pages of ISSUU.COM in JPG images This few lines of python code are for U to get JPGs files with the pages of the books/magazines/something posted in issuu.COM Enjoy, Share or Destroy THIS CODE! ;-) """ __author__ = "Jose Rey (me@kirkjoserey.com)" __date__ = "$Date: 2011/02/19 $" __copyright__ = "Copyleft 2011 b...

¿Sabéis?

Fue San Benito el que escribió el libro sobre las virtudes monásticas: obediencia, pobreza, castidad… Y fue esta última, la castidad, la que le hizo bastante infeliz. Parece que no podía sacarse de la cabeza a cierta chica de su pueblo. Y en una ocasión, cuando su deseo por ella era tan enorme, se saltó la tradicional ducha fría. En su lugar se quitó la ropa y se tiró desnudo a unas zarzas. Se revolcó en las esquinas hasta que su piel se desgarró y sangró. Eso es compromiso . – Chris Stevens desde la K.OSO ( Doctor en Alaska , 1990)

Para Siempre

La eternidad es un periodo de tiempo muy grande. Especialmente hacia el final. – Stephen Hawking , físico y cosmólogo (Vía Rienzie ) N.R. : Esto confirma lo que decian los Heroes del Silencio: