采用直接抓爬策略,在平台站点中设置题目 url 的正则。 然后开始在域名下面全站爬取,设置不爬取的规则列表。 爬取时将爬取中间变量载入内存,中断时写入 pickle 以恢复爬取状态。 记录爬取的状态(未采集/采集中/已采集) 同一个时间,只允许一个平台的采集任务,采集完毕后,记录采集的时间,并且维护一个自动重复爬取的时间(默认是一周)