今天差不多花了两个小时写成了这个小程序,不得不说,Scrapy框架是在是太好用了,不用动脑去想特别多的代码,只要改动一小部分,就能完成一个相对完整的爬虫项目。
项目包:
cd 到项目目录,使用
scrapy crawl pornhub
来运行,或者直接运行start.py也可以。
数据内容:
采集的数据有视频标题、视频连接、上传者昵称、上传者主页、点赞数、播放量、视频时长;
数据存储
数据保存在本地的mongodb中,具体路径为PornHub数据库的PornInfo集合;
其他配置
预留了随机代理ip和随机请求头,但没有开启中间件。
没写注释,应该也不需要吧?
Comments | NOTHING