这次的项目也可以从GitHub下载了:
https://github.com/sqwqwqw1/Annual-report-of-Chinese-social-organizations-Crawler
没有设置爬虫代理和随机请求头,貌似也不需要,强迫症可以去middleware的下载中间件里自己设置;
默认以 json 格式存储到本地的 mongodb 中,路径 fund—gender_count,想要修改存储方式的话,请到 pipeline 中自定义;
默认只爬了理事的性别构成(需求使然),之前也有爬其他的内容,但那个时候还不会scrapy,效率不高,我也不想重写了,需要别的信息的话,自己去爬虫文件的最后几个函数那边定义;或者发邮件找我帮忙(有偿);
嗯,好像确实没什么创造性的地方,只算是打了个地基,遍历了一下所有的页面,即使如此,我也希望能帮助一下日后做NPO研究的学术大佬们,少走点弯路;
最近好忙,找实习也在碰壁,不想上学了,有点后悔读研究生。
原README内容:
中国社会组织年度工作报告爬虫
@Author: Yaodo
@Website: https://www.imtrq.com
@Time: 2020/03/26
关于本爬虫
本爬虫已经遍历所有报告的列表,但没有将所有的年份纳入处理
本爬虫只采集了理事的性别比例,没有采集其他的信息
请修改 parse_list 以处理所有列表
请修改 parse_年份 和 items 以采集定制的信息
存储方式
在程序的 pipeline 中修改存储方式
Comments | NOTHING