CPA考完了,终于有时间放松放松,学习一点自己喜欢的东西啦!

犹记得之前的Python网课才学到第二章,真得感谢Coursera没有删掉我的账号。

先拿之前学的小爬虫练练手,看自己是不是全部都忘光啦:

1 爬取我的博客的所有文章标题和链接并输出:

  1. import requests  
  2. from bs4 import BeautifulSoup  
  3. url = 'https://www.imtrq.com/page/'  
  4. index = 1  
  5. for i in range(0,17):  
  6.     r = requests.get(url+str(i))  
  7.     soup = BeautifulSoup(r.text,'lxml')  
  8.     archieves = soup.find_all('h1','entry-title')  
  9.     for items in archieves:  
  10.         print(index,items.string,items.contents[0].get('href'))  
  11.         index += 1  
  12.     i += 1  

效果:

2 爬取我博客的文章缩略图保存到本地

  1. import requests  
  2. from bs4 import BeautifulSoup  
  3. url = 'https://www.imtrq.com/page/'  
  4. path = '/Users/XXXXX/Documents/photo/'  
  5. index = 1  
  6. for page in range(1,17):  
  7.     response = requests.get(url+str(page))  
  8.     soup = BeautifulSoup(response.text,'lxml')  
  9.     fimg = soup.find_all('img','attachment-post-thumbnail size-post-thumbnail wp-post-image')  
  10.     for items in fimg:  
  11.         img = requests.get(items.get('src'))  
  12.         with open(path+str(index)+'.jpg','wb') as file:  
  13.             file.write(img.content)  
  14.             file.flush  
  15.         file.close  
  16.         index+=1