Ir al contenido principal

Entradas

Mostrando las entradas de agosto, 2013

Scrapy - Python - Slides

Scrappy Doo Despues de ver este capitulo de mejorando.la   , senti curiosidad por Scrapy , un framework para scraping y crawling , algo asi como "raspar y arrastrarse" en sitios web y obtener informacion incluidas en las paginas que componen el sitio. Hace poco tiempo, necesite este framework, porque me encontraba buscando presentaciones sobre Oracle Weblogic 11g y  el sitio, que tenia una presentacion bueno, no me permitia bajarla.  Asi que se me prendio la lamparita y comence a buscar , en el codigo HTML informacion que me sirviera para obtener las SLIDES. Requerimientos: -Scrapy -Python -Distrubucion de linux que te guste. (Use Linux Mint) Codigo Fuente: spiders/slideshareWeb/slideshareWeb/spiders/slideshareWeb_spider.py Para Arrancar el codigo se usa: scrapy crawl slideshareWeb (Enter) Estando en el directorio de la applicacion que contruyeron; pero mas claro este en el Tutorial que adjunte como link externo. import urllib2 import tar