IT Consulting

Una bitacora hecha ensalada, como mi mente!

Archivos

Scrappy Doo



Despues de ver este capitulo de mejorando.la  , senti curiosidad por Scrapy , un framework para scraping y crawling , algo asi como "raspar y arrastrarse" en sitios web y obtener informacion incluidas en las paginas que componen el sitio.



Hace poco tiempo, necesite este framework, porque me encontraba buscando presentaciones sobre Oracle Weblogic 11g y  el sitio, que tenia una presentacion bueno, no me permitia bajarla.  Asi que se me prendio la lamparita y comence a buscar , en el codigo HTML informacion que me sirviera para obtener las SLIDES.

Requerimientos:

-Scrapy
-Python
-Distrubucion de linux que te guste. (Use Linux Mint)


Codigo Fuente: spiders/slideshareWeb/slideshareWeb/spiders/slideshareWeb_spider.py

Para Arrancar el codigo se usa:
scrapy crawl slideshareWeb (Enter)
Estando en el directorio de la applicacion que contruyeron; pero mas claro este en el Tutorial que adjunte como link externo.
PD: Debo armar a futuro un Tutorial, para instalar todos los Requerimientos de Scrapy ;-)
Por ahora una "receta rapida"
Install PIP Python
scrapy.org
Scrapy Tutorial
Scraping Web Pages