Skip to content
bug-wang edited this page Mar 22, 2016 · 5 revisions

这里是一些小py的程序,联手用的,都比较简单,大概包括2部分

  1. scrapy
  2. requests login zhihu
  3. 其他(不再赘述)

scrapy

  • 主要说一下爬虫的应用吧,tutorial里
  • 使用scrapy crawl meizitu_spider命令可以从meizitu.com爬到图片(当然前提是你安装了这些框架,忘了说了,我是在windows10下跑的,不过大部分代码都不用你改)
  • 图片保存到D:\python\pictures目录下,如果重复运行是可以检测的,已经有的图片是会略过的
  • 现在只能保存第一页的,因为下一页怎么爬我还没写出来,Orz
  • 效果见
  • http://pan.baidu.com/s/1bsYBdO
  • http://pan.baidu.com/s/1i4dlwzV
  • 可以爬整个站的图了,需要注意的是要修改setting.py里并发值,因为默认的是16,访问过快的时候爬不了几页就被封ip了,我改成2发现没有问题