本博文爬取的都是公开分享的官方允许爬取的图片,不涉及隐私,爬取的数据量很小,仅用于技术学习。
一、准备工作
IDE:pycharm
浏览器:Chrome或者Firefox,别的也行,只要有审查元素的功能就行
工具包: requests模块,如果未安装,则执行pip install requests
要爬取的图片所在的网址:
https://www.duitang.com/search/?kw=%E5%B0%8F%E5%A7%90%E5%A7%90&type=feed
二、步骤
以Chrome为例,首先进入
https://www.duitang.com/search/?kw=%E5%B0%8F%E5%A7%90%E5%A7%90&type=feed
然后按F12或鼠标右键菜单中的检查选项
按如下所示点击,可以看到json文件的内容,每个json文件包含了24张图片的信息,包括图片的url地址
以第二个json文件为例,我们按照json对象的层级关系找到了第2张图片的地址,如下所示
下面是要请求的json文件的URL
注意下面三个URL的区别
- 根据上述数据,写代码,如下所示。
1 | # -- coding: utf-8 -- |