这次的代码也可以从GitHub下载:获取文本格式的中文财务报告(或财务报告附注)
前言
由于某些原因,我需要下载一些公司的年报报告,并且将其转换为纯文本以便进行文本分析,具体地说,我需要3000家上市公司2013年到2018年的文本格式年报。
在此之前我编写了两个程序,一个用来下载新浪财经的PDF格式年报,另一个实现PDF转txt的功能,但是这并不现实。
一是因为我的电脑和服务器都没有那么大的硬盘来存储这些PDF格式的年报;二是因为PDF转txt的效率很慢,也许到我开学也做不完这些任务,所以我就放弃了之前的程序。一直搁置到现在。
直到昨天,我才发现原来网易财经已经把PDF格式的年报转成了txt格式,那么一切都变得简单许多了。
数据来源
网易财经:http://quotes.money.163.com
程序的一些说明
如何运行
进入项目根目录,在终端或者cmd里运行scrapy crawl nb
即可,前提是安装好环境
如何修改年份
修改nb.spider
中的year_list
如何修改股票代码
替换ndbg/ndbg/stkcd.txt
中的内容
如何采集报告全文
我只需要附注,所以默认只采集附注,如果要采集全文,请参考nb.spider
中parse_report
的注释
如何修改存储方式
我在pipeline中设置了两种存储方式,一种是将item存储到mongodb中,另一种是直接存储为ndbg/ndbg/report
文件夹下的txt文件,我想正常人应该不需要两种同时使用,所以请您按照实际情况注释掉一种。
Comments | 2 条评论
博主 钱达
您好,非常感谢您的分享,真的非常受益。但是我是个刚接触python的小白。就是我知道您给的命令已经很直白了,但是还是不太知道操作的顺序。不知道您是不是方便讲解一下,或者您有没有推荐的学习的资料?再次感谢
博主 傲娇的小基基
@钱达 B站有教程,1、基础篇,2、高级篇
当时我偷懒没看基础篇,如果你把这两个合集看完了,技术肯定会比我好很多啦。