Ir al contenido principal

Entradas

Mostrando las entradas de agosto, 2013

Scrapy - Python - Slides

Despues de ver este capitulo de mejorando.la  , senti curiosidad por Scrapy , un framework para scraping y crawling , algo asi como "raspar y arrastrarse" en sitios web y obtener informacion incluidas en las paginas que componen el sitio.



Hace poco tiempo, necesite este framework, porque me encontraba buscando presentaciones sobre Oracle Weblogic 11g y  el sitio, que tenia una presentacion bueno, no me permitia bajarla.  Asi que se me prendio la lamparita y comence a buscar , en el codigo HTML informacion que me sirviera para obtener las SLIDES.

Requerimientos:

-Scrapy
-Python
-Distrubucion de linux que te guste. (Use Linux Mint)


Codigo Fuente: spiders/slideshareWeb/slideshareWeb/spiders/slideshareWeb_spider.py

Para Arrancar el codigo se usa:
scrapy crawl slideshareWeb (Enter)
Estando en el directorio de la applicacion que contruyeron; pero mas claro este en el Tutorial que adjunte como link externo.
import urllib2 import tarfile import os from os.path impo…