代码(2021年3月9日更新)

数据(2021年3月9日爬取)

数据来源

信息来自中国注册会计师行业信息管理系统财政会计行业管理系统

逻辑

  1. 财政会计行业管理系统查询会计师事务所编号,通过会计师事务所编号在中国注册会计师行业信息管理系统发起请求,获取会计师事务所详情页面地址;
  2. 获取会计师事务所详情页面的信息,在详情页面找到从业人员和注册会计师列表入口,进入从业人员和注册会计师列表,有分所的继续去分所详情页面采集;
  3. 遍历从业人员和注册会计师列表,获取从业人员信息,获取注册会计师详情页面地址;
  4. 进入注册会计师详情页面,获取注册会计师个人信息。

存储

使用scrapy框架自带的JsonLinesItemExporter,存储在当前目录的四个json文件中,分别是audit_firm(会计师事务所详情)、nwp_info(从业人员)、cpa_info(注册会计师简介)、cpa_profile(更为详细的注册会计师介绍)。

反反爬

使用了万变IP的代理ip,请求一个http代理列表,每次从列表中随机抽取一个proxy发起请求,当返回结果为403,或者返回其他错误时,删除当前使用的proxy,当列表删除为空时,请求一个新列表。

这个ip需要你自己买,3块钱可以买两千个;在middlewares中设置proxy_api。

如果你使用的不是万变IP,那还需要稍微修改下get_proxy_list()方法。

数据样式

Audit_firm

{ '主任会计师': '耿云明', '从业人员人数': '21', '从业人员人数(含分所)': '21', '会计师事务所名称': '北京中之光会计师事务所有限责任公司', '传真': '010-83131728', '出资额或注册资本(万元)': '100.0', '分所数量': '0', '办公地址': '北京市海淀区北四环西路67号中关村创业大厦904室', '加入国际网络': '无', '博士研究生人数': '0', '参与公益活动': '无', '合伙人或股东人数': '4', '境外分支机构': '无', '处罚/惩戒信息(披露时限:自2017年至今)': '无', '大专及以下人数': '5', '大于70岁人数': '5', '小于等于40岁人数': '1', '小于等于60岁且大于40岁人数': '6', '小于等于70岁且大于60岁人数': '2', '批准设立文件号': '京财协(1996)1989号', '批准设立时间': '1996-11-18', '批准设立机关': '北京市财政局', '是否具有内部培训资格': '否', '本科人数': '8', '法定代表人(或执行合伙人)': '耿云明', '注册会计师人数': '14', '注册会计师人数(含分所)': '14', '电子邮箱': '[email protected]', '硕士研究生人数': '1', '组织形式(有限/合伙)': '有限责任', '继续教育完成率(上一年度)': '85.71%', '网址': '无', '联系人': '耿云明', '联系电话': '13910222743', '被检查信息': '请点击', '证书编号': '11000001', '通讯地址': '北京市海淀区北四环西路67号中关村创业大厦904室', '邮政编码': '100053' }

Nwp_info

{ '姓名': '郑天一', '序号': '20', '性别': '女', '所在事务所': '北京中之光会计师事务所有限责任公司(从业人员)', '是否党员': '否', '是否参加社保': '否', '是否签合同': '是', '进所时间': '2007-01-01' }

Cpa_info

{ '人员编号': '110000342374', '全科合格证号(或者考核批准文号)': '鲁财会字〔1993〕第79号', '出生日期': '1948-01-07', '姓名': '刘家友', '序号': '4', '性别': '男', '所在事务所': '北京中仁信会计师事务所(注册会计师)' }

Cpa_profile

{ '全科合格年份': '1997', '全科合格证书号': 'A97070060', '参加公益活动': '无', '处罚/惩戒信息': '无', '姓名': '李朝霞', '学位': '其它', '学历': '硕士', '性别': '女', '所内职务': '无', '所在事务所': '北京驰创会计师事务所有限责任公司', '所学专业': '矿产普查勘察', '批准注册文件号': '京会协(2000)093号', '批准注册时间': '2000-12-15', '是否党员': '否', '是否合伙人(股东)': '是', '本年度已完成学时': '0', '本年度应完成学时': '40', '毕业学校': '中国地质大学', '注册会计师证书编号': '110001332698', '资格取得方式(考试/考核)': '考试' }