学了scrapy框架之后,我重写了一个爬虫项目,并且已经爬好了所有数据。

传送门:https://www.imtrq.com/archives/2353

前言

其实在前几天,我就已经爬好了一份注册会计师的个人简介,当然,是按照我自己需要的事务所去查的,之后我也把数据分享给了我导和学姐们。

但是,在我处理自己的数据时,我越来越觉得不对劲,我的数据每合并一次就少掉一半,我还以为是自己操作的问题,苦恼了半天,后来我突然意识到:

审计师不一定是注册会计师啊!!!!!

这么简单的问题竟然被我忽略了,没错,就像我这样没过CPA的也可以去做审计,所以审计师 ≠ 注册会计师,那么我去注册会计师信息管理系统里面找的信息,肯定就不全了。

那么有没有办法挽救呢,答案肯定是有的,那就是:全!部!重!新!爬!一!遍!

看起来任务好像很重,但是,我这几天在处理数据(数以千计的缺失值)上打的白工比这个重多了……心累。

呃,也许有人还不知道去哪里查这些信息,我看了一些文献,都很草率地写着“注册会计师官网”,找了很多篇,终于有一篇点出了“中国注册会计师行业管理系统”,总算为我指明了方向。

网址在这:

http://cmispub.cicpa.org.cn/cicpa2_web/goto/nomsg/DNA_XH/default.shtml

注意:请到第一个数据库里面去查询,如果你去查第二个数据库,那么你也跟我之前犯了一样的错误啦。(当然,如果你本来就是只要注册会计师的信息,就当我没说,不过,我还要提醒一下,我是没找到什么办法可以从第二个数据库里一次性下载所有数据。)

还有一些很坑的地方:

  • 网页一片空白?——哼哼!这是一个神奇的网站,只有用传统的ie浏览器才可以打开
  • 解析出现乱码?——呵呵!本网页用GB2312编码!
  • GB2312解码失败?——还有随机的GBK解码哦!

这都是我上一次爬数据遇到的坑,这次当然要补上,另外,我还要做这些些事:

  • 收集会计师事务所的信息
  • 收集从业人员的信息
  • 收集注册会计师信息
  • 收集注册会计师个人简介

第三第四条看起来像重复的,其实并没有重复,因为个人简介合信息列表是在不同的网页的,所以我分别采集到不同的数据库了。(咦,怎么好像还是重复的。)

事务所信息