Home

Jump to bottom Edit New page

bug-wang edited this page Mar 22, 2016 · 5 revisions

这里是一些小py的程序，联手用的，都比较简单，大概包括2部分

scrapy
requests login zhihu
其他（不再赘述）

scrapy

主要说一下爬虫的应用吧，tutorial里
使用scrapy crawl meizitu_spider命令可以从meizitu.com爬到图片（当然前提是你安装了这些框架，忘了说了，我是在windows10下跑的，不过大部分代码都不用你改）
图片保存到D:\python\pictures目录下，如果重复运行是可以检测的，已经有的图片是会略过的
现在只能保存第一页的，因为下一页怎么爬我还没写出来，Orz
效果见
http://pan.baidu.com/s/1bsYBdO
http://pan.baidu.com/s/1i4dlwzV
可以爬整个站的图了，需要注意的是要修改setting.py里并发值，因为默认的是16，访问过快的时候爬不了几页就被封ip了，我改成2发现没有问题