当前位置: 首页 > news >正文

Python爬虫实战案例(爬取图片)

爬取图片的信息

爬取图片与爬取文本内容相似,只是需要加上图片的url,并且在查找图片位置的时候需要带上图片的属性。

这里选取了一个4K高清的壁纸网站(彼岸壁纸https://pic.netbian.com)进行爬取。

具体步骤如下:

  • 第一步依然是进入这个页面,这个壁纸网站分为好几种类型的壁纸图片,点击一个你想要爬取的类型,然后按F12,从中获取URL请求方式(复制URL,会用到),这次就不用网页的"User-Agent’'了,用pycharm包中别人写好的。
    然后发送我们的请求并获取这个网页的数据
    在这里插入图片描述
# url
url = "https://pic.netbian.com/4kmeinv/"
# UA伪装 用下载好的库中别人写好的UA
head = {"User-Agent": fake_useragent.UserAgent().random}
# 发送请求
response = requests.get(url, headers=head)
# 获取想要的数据
res_text = response.text
  • 第二步打开元素栏,用左上角的寻找工具放在图片上,定位到元素栏中对应的标签,用数据分析的方法获取到图片信息。
    其实每一张图片的排放就好像是一个个列表,其所有的信息都粗存在元素栏中的li标签中,我们想要获取多张照片,首先需要先将这些li标签都获取下来。
    在这里插入图片描述
# 数据解析 获取所有的li标签,并存放在li_list中
tree = etree.HTML(res_text)
li_list = tree.xpath("//div[@class='slist']/ul/li")
  • 第三步获取图片与获取文本内容不同的是,需要再获取图片的url,图片的url就在上图箭头所指的位置,但是这个仅仅只是图片在这个板块的位置,所以前面需要在前面加上这个壁纸网站的地址,这样获取的图片信息才是完整的,可以被打开。
    因为先前已经将存放图片信息的li标签都存放在了li_list中,所以我们就用for循环遍历这个列表,以便获取更多的图片信息。
 for li in li_list:# 图片的urlimg_url = "https://pic.netbian.com" + "".join(li.xpath("./a/img/@src"))# 发送请求img_response = requests.get(img_url, headers=head)# 获取想要的数据img_content = img_response.content
  • 第四步将获取到的图片存放在文件夹中
# pic_name = 0 这次的代码封装在函数中,将这个变量放在了函数外面,给获取的图片编号
# 将pic_name定义为全局变量,方便调用
global pic_namewith open(f"./picLibbb/{pic_name}.jpg", "wb") as fp:fp.write(img_content)pic_name += 1
  • 第五步为了获取更多的照片,因为每一页能展示的照片有限,所以我们需要for循环遍历每一页的网址;
    每一页的网址都只是在页面数量上的差别,所以可以遍历。

第一页的网址
在这里插入图片描述
第二页的网址

在这里插入图片描述
第三页的网址

在这里插入图片描述

url = "https://pic.netbian.com/4kmeinv/"request_pic(url)for i in range(1,10):next_url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"request_pic(next_url)

完整代码:

# 获取图片数据
import os.path
import fake_useragent
import requests
from lxml import etree# UA伪装
head = {"User-Agent": fake_useragent.UserAgent().random}pic_name = 0
def request_pic(url):# 发送请求response = requests.get(url, headers=head)# 获取想要的数据res_text = response.text# 数据解析tree = etree.HTML(res_text)li_list = tree.xpath("//div[@class='slist']/ul/li")for li in li_list:# 图片的urlimg_url = "https://pic.netbian.com" + "".join(li.xpath("./a/img/@src"))# 发送请求img_response = requests.get(img_url, headers=head)# 获取想要的数据img_content = img_response.contentglobal pic_namewith open(f"./picLib/{pic_name}.jpg", "wb") as fp:fp.write(img_content)pic_name += 1if __name__ == '__main__':# 创建存放照片的文件夹if not os.path.exists("./picLib"):os.mkdir("./picLibbb")# 网站的urlurl = "https://pic.netbian.com/4kdongman/"request_pic(url)for i in range(1,10):next_url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"request_pic(next_url)

爬取后的效果如下:
在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【MySQL进阶之路 | 高级篇】redo日志和undo日志
  • 以太坊的可扩展性危机:探索执行层的瓶颈
  • DNS续集
  • 【时时三省】unity test 测试框架 下载
  • 【日常记录】【JS】对一个数组,按照某个字段的值,进行分组
  • Flutter 使用 url_launcher的canLaunchUrl() 方法总是返回false错误
  • 如何用JavaScript实现视频观看时间追踪
  • lua 游戏架构 之 游戏 AI (六)ai_auto_skill
  • PCB工艺边设计准则
  • WebRTC与orange pi实现视频画面实时传输
  • arinc664总线协议
  • HarmonyOS Next 省市区级联(三级联动)筛选框
  • Golang AES 对称加密
  • Flutter开发Dart 中的 mixin、extends 和 implements
  • Linux--网络基础
  • 【译】JS基础算法脚本:字符串结尾
  • css属性的继承、初识值、计算值、当前值、应用值
  • ECS应用管理最佳实践
  • E-HPC支持多队列管理和自动伸缩
  • Gradle 5.0 正式版发布
  • Laravel5.4 Queues队列学习
  • mysql innodb 索引使用指南
  • Odoo domain写法及运用
  • php的插入排序,通过双层for循环
  • Promise面试题,控制异步流程
  • react 代码优化(一) ——事件处理
  • scrapy学习之路4(itemloder的使用)
  • SpringCloud集成分布式事务LCN (一)
  • Storybook 5.0正式发布:有史以来变化最大的版本\n
  • swift基础之_对象 实例方法 对象方法。
  • TypeScript迭代器
  • 入门到放弃node系列之Hello Word篇
  • 一起来学SpringBoot | 第十篇:使用Spring Cache集成Redis
  • 400多位云计算专家和开发者,加入了同一个组织 ...
  • ​用户画像从0到100的构建思路
  • ## 临床数据 两两比较 加显著性boxplot加显著性
  • #[Composer学习笔记]Part1:安装composer并通过composer创建一个项目
  • #每日一题合集#牛客JZ23-JZ33
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • (floyd+补集) poj 3275
  • (附源码)springboot宠物管理系统 毕业设计 121654
  • (几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。
  • (南京观海微电子)——I3C协议介绍
  • (十三)Flink SQL
  • (转) Face-Resources
  • (转)http协议
  • (转)程序员技术练级攻略
  • *算法训练(leetcode)第四十五天 | 101. 孤岛的总面积、102. 沉没孤岛、103. 水流问题、104. 建造最大岛屿
  • .NET CORE 2.0发布后没有 VIEWS视图页面文件
  • .net framework 4.0中如何 输出 form 的name属性。
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上
  • .NET gRPC 和RESTful简单对比
  • .NET/C# 使窗口永不获得焦点
  • .Net程序猿乐Android发展---(10)框架布局FrameLayout
  • @Bean注解详解