Skip to content

题目采集的策略 #2

@fish-ball

Description

@fish-ball

采用直接抓爬策略,在平台站点中设置题目 url 的正则。

然后开始在域名下面全站爬取,设置不爬取的规则列表。

爬取时将爬取中间变量载入内存,中断时写入 pickle 以恢复爬取状态。

记录爬取的状态(未采集/采集中/已采集)

同一个时间,只允许一个平台的采集任务,采集完毕后,记录采集的时间,并且维护一个自动重复爬取的时间(默认是一周)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions