企查查实际控制人爬虫

1 使用关键字发起一次检索，用第一条记录的公司代码构建公司详情页链接

2 解析公司详情页，查找是否出现“实际控制人”标签，若出现，则返回实际控制人；若不出现，则解析公司股东栏，用排名第一的国内大股东信息构建公司详情页链接

3 重复步骤2，直至出现“实际控制人”标签，返回最初的公司名称和实际控制人

很简单的scrapy框架，甚至没有使用item和中间件。

修改firm_list，然后运行start.py即可，会在当前目录生成json文件和excel文件。

需要额外安装的库应该是pandas和openpyxl，如果注释掉生成excel的代码则不需要安装。

逻辑很简单，代码也很简单，但我还是弄了一下午。其实我早就把程序写好了，但是一直遇到反爬虫的问题，使用代理ip也不能很好的解决，

搞了两三个小时之后，突然发现又没有反爬虫措施了，我也搞不清是什么情况了。

如果后面有人需要反反爬虫的话，可以参考这个：how to handle 302 redirect in scrapy

我刚刚尝试了可以解决，但是后来没再遇到反爬虫，我也没法再尝试和完善了。