武汉大学2022-2023学年国家网络安全学院社会计算课程第一次实验作业——2019年度电影报告
- main.py 主函数
- dic.py 内含13部具体电影名及其编号值的字典
- emo.py 使用snownlp库进行评论情感分析
- top_get.py 用于获取top250的电影基础数据
- get_comment.py
- get_info.py
- get_html.py 辅助函数,用于分析html文档对应着写爬虫
- 本代码由Luinage和modric合作完成,享有同样著作权,在实验中使用请注明代码来源和repo地址,并fork此repo,否则将定性为抄袭
- 代码为两个爬虫新手初学练手所写,因此代码可能还存在一定的bug,如果有改良意见可以drop a mail,感谢你对开源实验课程代码的支持!
- 代码中的代理地址为临时IP,并不能长期使用(已过期)
- 如果遇到长期无法爬下数据可以将爬取地区的代码先注释,因为2019年的电影评论还未显示IP地址,无法只在同一页进行数据爬取,需要对每个评论者的主页发request,大概率会被墙,但是代码逻辑是没问题的(已解决)
- 请合法使用爬虫程序!!!
- 如果认为该repo对你有帮助,麻烦点点免费的star,这是对创作者的无限激励!!!
- ...(待添加)