这次的项目也可以从GitHub下载了:

https://github.com/sqwqwqw1/Annual-report-of-Chinese-social-organizations-Crawler

没有设置爬虫代理和随机请求头,貌似也不需要,强迫症可以去middleware的下载中间件里自己设置;

默认以 json 格式存储到本地的 mongodb 中,路径 fund—gender_count,想要修改存储方式的话,请到 pipeline 中自定义;

默认只爬了理事的性别构成(需求使然),之前也有爬其他的内容,但那个时候还不会scrapy,效率不高,我也不想重写了,需要别的信息的话,自己去爬虫文件的最后几个函数那边定义;或者发邮件找我帮忙(有偿);

嗯,好像确实没什么创造性的地方,只算是打了个地基,遍历了一下所有的页面,即使如此,我也希望能帮助一下日后做NPO研究的学术大佬们,少走点弯路;

最近好忙,找实习也在碰壁,不想上学了,有点后悔读研究生。

原README内容:

中国社会组织年度工作报告爬虫

@Author: Yaodo

@Website: https://www.imtrq.com

@Time: 2020/03/26

关于本爬虫

本爬虫已经遍历所有报告的列表,但没有将所有的年份纳入处理

本爬虫只采集了理事的性别比例,没有采集其他的信息

请修改 parse_list 以处理所有列表

请修改 parse_年份 和 items 以采集定制的信息

存储方式

在程序的 pipeline 中修改存储方式