当前位置: 首页 > news >正文

python 图片爬虫记录

感谢大家的点赞。再补充一点。

对于这个 url
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjEqB5nighYsMZE7kexaVNJfxy3OkRutNEKatksw9u5f-ckHNROLzFyx2Uty3zYWNEaeOmzsljGr3eARiDWaM9DM8G2hPuPf8uZP0NO3kNUCnM2Cjb3ZKtLhJDBwqeR4ElpJ7ID5_wIHGQ/s200


  1. 这个url最后的 s200, 是我手动修改的,得到图片高度是 200像素。这个是很有趣!
  2. 如果把 s200 换成 s100, 得到图片高度是 100像素。
  3. 实际上,把 s200 换成任意的 s【XXX】, 服务器就会自动给你想要的尺寸。
  4. 如果是 s0, 那么是 原始尺寸。
  5. 如果 s200 不加的话,默认会返回 s1600

看了2-3个小时的奥运会, 感觉内心空虚。 写点代码。 不知道做什么,随便搞一下爬虫,积累一点经验, 写篇博客,记录一下。

1. 注意检查响应头

情况描述:
对于这样一个  图片的 url https://blogger.googleusercontent.com/img/a/AVvXsEjZ5whhS_q0FYJHMI1Zmubr8JVb6EaTSH37a5iKs-mY-NHuchpesWGTLJSI8u138t-l_iqy5q66Yw2k0Dlb9hmIxQh7EEwOquiU8LnhS5zwKv28bXtQHF6kR8r5xSFVpDOQNquTpxqq2f9nI-JkCEVRTczD6TRqUnOeZMew3gOdTIcI3ViR6k5EGjbw url 的结尾没有任何  .jpg但是我当我 按下 ctrl + S 保存图片的时候, 浏览器会自动识别出图片的名字是:
006AfEgvgy1gv4vigvqbqj61x32z64qq02.jpg浏览器是如何识别出来的呢

问了一下chatpgt ,答案是: Content-Disposition 的响应头
完整的聊天记录是

其实这个问题,我首先问的是 kimi ai, 结果回答得很垃圾。
然后我检查了自己的响应头, 果然发现了这个文件名,就是下图中的 filename

在这里插入图片描述

2. 第二个经验,就是多琢磨。有时候即便是"瞎碰", 也需要多“碰”几次。

情况描述:

在这里插入图片描述
我在检查 img 标签的时候, 发现它提到的原始的尺寸是 4032 * 2525, 但是打开的图片,就是找不到原始的尺寸。

  1. kimi 说删掉 url 中的 s1600,我试了,不对。
  2. 我把 s1600/ 以及后面的全删掉,还是不对。
  3. 其他尝试,也不对。

最终的办法是; 把 s1600 换成 s0, 就获取到原始的图片尺寸了。

解决办法的来源

来源就是,多观察,多尝试。此页面提供了几百篇内容,我看看最老的,又看看最新的,发现它的内容,以及格式其实是有变化的。 前期都是 s0, 估计是后期 api 改版了,增加了 s1600, 为了降低服务器的压力。

3. 放一下图片。

在这里插入图片描述
在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 实时数仓分层架构详解
  • 【Python】常用的pdf提取库介绍对比
  • 电子电气架构 --- SOVD在域控制器的应用
  • 缓存一致性问题
  • tcpdump使用指南
  • 前端的学习-CSS(二)-弹性盒子-flex
  • 在C#中为图片添加数字水印的几种办法
  • Xinstall全链路数据统计,助力推广者破解社交分享难题
  • 汇昌联信数字做拼多多运营怎么入行?
  • Python面试题:结合Python技术,如何使用TensorFlow进行深度学习模型训练与部署
  • 计算机网络知识点汇总第一章:概述
  • C语言实现希尔排序和堆排序
  • CDH清理磁盘空间完全攻略和完整实现自动化脚本(大数据清除日志)
  • 【Unity】3D功能开发入门系列(一)
  • 【课程系列07】某乎AI大模型全栈工程师-第7期
  • [PHP内核探索]PHP中的哈希表
  • -------------------- 第二讲-------- 第一节------在此给出链表的基本操作
  • 「前端早读君006」移动开发必备:那些玩转H5的小技巧
  • 【Under-the-hood-ReactJS-Part0】React源码解读
  • 2017 前端面试准备 - 收藏集 - 掘金
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • GitUp, 你不可错过的秀外慧中的git工具
  • gops —— Go 程序诊断分析工具
  • Intervention/image 图片处理扩展包的安装和使用
  • js面向对象
  • leetcode378. Kth Smallest Element in a Sorted Matrix
  • node 版本过低
  • NSTimer学习笔记
  • Odoo domain写法及运用
  • Rancher-k8s加速安装文档
  • ReactNative开发常用的三方模块
  • Spring Security中异常上抛机制及对于转型处理的一些感悟
  • tab.js分享及浏览器兼容性问题汇总
  • Terraform入门 - 3. 变更基础设施
  • Unix命令
  • Web Storage相关
  • zookeeper系列(七)实战分布式命名服务
  • 第十八天-企业应用架构模式-基本模式
  • 分享一个自己写的基于canvas的原生js图片爆炸插件
  • 面试题:给你个id,去拿到name,多叉树遍历
  • 前端知识点整理(待续)
  • 如何在GitHub上创建个人博客
  • 用Python写一份独特的元宵节祝福
  • 数据可视化之下发图实践
  • #QT(一种朴素的计算器实现方法)
  • #职场发展#其他
  • $(this) 和 this 关键字在 jQuery 中有何不同?
  • (C++哈希表01)
  • (LeetCode) T14. Longest Common Prefix
  • (WSI分类)WSI分类文献小综述 2024
  • (草履虫都可以看懂的)PyQt子窗口向主窗口传递参数,主窗口接收子窗口信号、参数。
  • (十)c52学习之旅-定时器实验
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • .locked1、locked勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复