一、爬取逻辑
1 使用关键字发起一次检索,用第一条记录的公司代码构建公司详情页链接
Yaodo·2022-01-13·464 次阅读
1 使用关键字发起一次检索,用第一条记录的公司代码构建公司详情页链接
2 解析公司详情页,查找是否出现“实际控制人”标签,若出现,则返回实际控制人;若不出现,则解析公司股东栏,用排名第一的国内大股东信息构建公司详情页链接
3 重复步骤2,直至出现“实际控制人”标签,返回最初的公司名称和实际控制人
很简单的scrapy框架,甚至没有使用item和中间件。
修改firm_list,然后运行start.py即可,会在当前目录生成json文件和excel文件。
需要额外安装的库应该是pandas和openpyxl,如果注释掉生成excel的代码则不需要安装。
逻辑很简单,代码也很简单,但我还是弄了一下午。其实我早就把程序写好了,但是一直遇到反爬虫的问题,使用代理ip也不能很好的解决,
搞了两三个小时之后,突然发现又没有反爬虫措施了,我也搞不清是什么情况了。
如果后面有人需要反反爬虫的话,可以参考这个:how to handle 302 redirect in scrapy
我刚刚尝试了可以解决,但是后来没再遇到反爬虫,我也没法再尝试和完善了。
Comments | 1 条评论
博主 111
(〜 ̄△ ̄)〜
(`・ω・´)
(;¬_¬)
("▔□▔)/
(゚Д゚≡゚д゚)!?
(゚Д゚≡゚д゚)!?
(゚Д゚≡゚д゚)!?
→_→
(^・ω・^ )