获取txt文本格式的中文财务报告（或财务报告附注）

由于某些原因，我需要下载一些公司的年报报告，并且将其转换为纯文本以便进行文本分析，具体地说，我需要3000家上市公司2013年到2018年的文本格式年报。

在此之前我编写了两个程序，一个用来下载新浪财经的PDF格式年报，另一个实现PDF转txt的功能，但是这并不现实。

一是因为我的电脑和服务器都没有那么大的硬盘来存储这些PDF格式的年报；二是因为PDF转txt的效率很慢，也许到我开学也做不完这些任务，所以我就放弃了之前的程序。一直搁置到现在。

直到昨天，我才发现原来网易财经已经把PDF格式的年报转成了txt格式，那么一切都变得简单许多了。

进入项目根目录，在终端或者cmd里运行scrapy crawl nb即可，前提是安装好环境

修改nb.spider中的year_list

替换ndbg/ndbg/stkcd.txt中的内容

我只需要附注，所以默认只采集附注，如果要采集全文，请参考nb.spider中parse_report的注释

我在pipeline中设置了两种存储方式，一种是将item存储到mongodb中，另一种是直接存储为ndbg/ndbg/report文件夹下的txt文件，我想正常人应该不需要两种同时使用，所以请您按照实际情况注释掉一种。

查看评论 - 2 条评论