今天差不多花了两个小时写成了这个小程序,不得不说,Scrapy框架是在是太好用了,不用动脑去想特别多的代码,只要改动一小部分,就能完成一个相对完整的爬虫项目。

项目包:

scrapy_pornhub.zip

cd 到项目目录,使用

scrapy crawl pornhub

来运行,或者直接运行start.py也可以。

数据内容:

采集的数据有视频标题、视频连接、上传者昵称、上传者主页、点赞数、播放量、视频时长;

数据存储

数据保存在本地的mongodb中,具体路径为PornHub数据库的PornInfo集合;

其他配置

预留了随机代理ip和随机请求头,但没有开启中间件。

没写注释,应该也不需要吧?