当前位置: 首页 > news >正文

【Python爬虫系列】_016.关于登录和验证码

无奋斗不青春

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈
入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈
虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈
PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈
Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈
优 质 资 源 下 载 :👉👉 资源下载合集 👈👈
优 质 教 程 推 荐:👉👉 Python爬虫从入门到入狱系列 合集👈👈

分隔线
在这里插入图片描述

关于登录和验证码

    • 关于登录和验证码
      • 关于登录
      • 关于验证码
        • 方式一:免费
        • 方式二:付费
      • 登录
      • 总结

关于登录和验证码

关于登录

  • 跟踪登录流程,了解Cookie的生成过程

  • 本次学习以 http://www.woaidu.cc/ 为例进行练习

  • 登录网站 —— 随意找几本小说 —— 在线月度 —— 加入书架 —— 点击右上角的用户名(User) 可以查看到当前账户所有加入书架的书本

  • 要求:获取当前账户下加入书架内所有书本名称

  • 方式一:人工登录,进入书架后,在抓包工具中复制Requests Headers

  • 优点:简单、粗暴

  • 缺点:每次都需要人工登录,手动复制Headers

    import requests
    from lxml import etreeshuj_url = f'http://www.woaidu.cc/bookcase.php'
    session = requests.session()
    # 设置Headers
    session.headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","cookie": "你的cookie信息","host": "www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/book_1255314.html","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }
    # 通过session发送请求
    resp = session.get(shuj_url)html_code = resp.content.decode("UTF-8")tree = etree.HTML(html_code)    # type: etree._Element
    names = tree.xpath('//h4[@class="bookname"]/a/text()')
    for name in names:print(name)
    
  • 方式二:使用session自动获取cookie

  • 需要看到书架,前提就是需要登录账号

  • 可以先通过代码测试一下没有登录(不携带cookie信息)的时候查看书架是否能看到内容

    import requestsurl = 'http://www.woaidu.cc/bookcase.php'my_headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","host": "www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }resp = requests.get(url, headers=my_headers)
    print(resp.content.decode('utf-8'))
    
  • 查看结果

    • 在这里插入图片描述
  • 结果发现,当不给cookie信息时,是获取不到书架内容的

  • 测试携带cookie信息

    import requestsurl = 'http://www.woaidu.cc/bookcase.php'my_headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","cookie": "你的cookie信息","host": "www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }resp = requests.get(url, headers=my_headers)
    print(resp.content.decode('utf-8'))
    
  • 查看结果

    • 在这里插入图片描述
  • 添加了cookie信息之后,就能访问到书架了

  • 分析cookie,可以看到当前cookie由以下几个信息组成

    Hm_lvt_1......
    HMACCOUNT
    Hm_lpvt_1......
    username......
    t......
    
  • 其中以 HmHM 开头的cookie是百度排名相关的,可以不用管

    • 在这里插入图片描述
  • 那么跟踪一下 usernamet 的cookie信息

    • 在这里插入图片描述
  • 可以看到 usernamet cookie信息都是通过网址 http://www.woaidu.cc/login.php 响应返回的

  • 清空cookie信息后访问网址,发现是登录页面,说明这两个cookie信息是登录后返回的

    • 在这里插入图片描述
  • 此时,需要再跟踪一下登录时发送请求的情况

  • 打开登录界面,随意输入一个错误的账号密码,点击登录,查看抓包情况

    • 在这里插入图片描述

    • 在这里插入图片描述

  • 抓包可以看到,登录的时候发送了一个post请求,请求参数包含了账号、密码、验证码等

  • 同时,在发送这个post请求的时候,请求头中也是包含了cookie信息

  • 分析改cookie信息,可以看到cookie信息中包含

    Hm_lvt_155d53bb19b3d8127ebcd71ae20d55b1=1725245999; 
    Hm_lpvt_155d53bb19b3d8127ebcd71ae20d55b1=1725245999; 
    HMACCOUNT=832C549F34E314E4; c=tq84hVrepXPs......
    
  • 这个cookie信息中 HmHM 开头的cookie是百度排名相关的,可以不用管

  • 那么还有一个 c 的cookie信息,我们尝试不带这个cookie信息是否能登录

    import requestsmy_headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","content-length": "153","content-type": "application/x-www-form-urlencoded","cookie": "你的cookie信息","host": "www.woaidu.cc","origin": "http://www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/login.php","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }my_data = {"LoginForm[username]": "123123123","LoginForm[password]": "aaaa","LoginForm[captcha]": "4748","action": "login","submit": "登  录"
    }url = 'http://www.woaidu.cc/login.php'resp = requests.post(url, headers=my_headers, data=my_data)
    print(resp.content.decode('utf-8'))
    
  • 查看结果

    • 在这里插入图片描述
  • 这里返回的结果,提示的是验证码异常,与之前页面提示的 用户名和密码错误 并不相同

  • 说明这个 c 的cookie信息必须要携带

  • 此时,我们又不能直接复制这个cookie信息,那么我们就需要找到c这个cookie信息是通过哪个请求响应携带回来的

  • 清空抓包数据,重新访问登录页面,全局查找c=,查看这个cookie是通过那个响应数据携带返回的

    • 在这里插入图片描述
  • 再次清空cookie信息和抓包数据,重新访问登录页面,查看刚刚返回c=相关cookie信息的请求

  • 同时,预览这个请求,返回回来的是一个验证码图片

    • 在这里插入图片描述

    • 在这里插入图片描述

  • 可以看到,发送这个请求的时候,请求头中没有再需要携带其他cookie信息,只需要直接访问,就会在返回响应一个验证码图片的时候携带一个cookie信息

  • 此时,通过发送请求,拿到了需要的cookie信息和验证码图片,接下来就是登录了!

  • 问题来了:那拿到这个验证码图片怎么将验证码识别出来添加到请求参数中呢?


关于验证码

  • 验证码识别有两种方式
方式一:免费
  • 使用第三方库:ddddocr
  • 安装
    pip install ddddocr# 指定安装源
    pip install -i https://mirrors.aliyun.com/pypi/simple ddddocr
    
  • 官方文档
    • https://github.com/sml2h3/ddddocr
  • 使用
    import requests
    import ddddocrurl = 'http://www.woaidu.cc/code.php?0.056086518443781985'my_headers = {"accept": "image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","host": "www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/login.php","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }resp = requests.get(url, headers=my_headers)image_b = resp.content# 创建Ddddocr对象, show_ad=False表示不显示广告
    # 使用默认ocr模型
    ddd1 = ddddocr.DdddOcr(show_ad=False)
    result1 = ddd1.classification(image_b)
    print(result1)# 使用第二ocr模型
    ddd2 = ddddocr.DdddOcr(show_ad=False, beta=True)
    result2 = ddd2.classification(image_b)
    print(result2)
    
方式二:付费
  • 使用第三方api识别

    • 超级鹰:http://www.chaojiying.com/
    • 图鉴:http://ttshitu.com/
    • 两个网站可自行注册、充值
  • 这里以图鉴为例进行测试

  • 打开网址,登录账号 —— 开发文档

    • 在这里插入图片描述

    • 此页面可以先了解一下API如何使用

  • 点击左侧 Python 进入python调用API示例

    • 在这里插入图片描述
  • 复制代码,稍作修改就可以直接用了

    import base64
    import json
    import requests# uname     # 用户名
    # pwd       # 密码
    # img       # 图片地址
    # typeid    # 识别类型
    def base64_api(uname, pwd, img, typeid):with open(img, 'rb') as f:base64_data = base64.b64encode(f.read())b64 = base64_data.decode()data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)if result['success']:return result["data"]["result"]else:# 注意:返回 人工不足等 错误情况 请加逻辑处理防止脚本卡死 继续重新 识别return result["message"]return ""
    
  • 测试API

    import base64
    import json
    import requestsurl = 'http://www.woaidu.cc/code.php?0.056086518443781985'my_headers = {"accept": "image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","host": "www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/login.php","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }resp = requests.get(url, headers=my_headers)with open('code.png', 'wb') as f:f.write(resp.content)def base64_api(uname, pwd, img, typeid):"""通过api接口识别图片中的验证码:param uname: 用户名:param pwd: 密码:param img: 图片地址:param typeid: 识别类型:return:"""# base64.b64encode() 对图片进行base64编码with open(img, 'rb') as f:base64_data = base64.b64encode(f.read())b64 = base64_data.decode()data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)if result['success']:return result["data"]["result"]else:# 注意:返回 人工不足等 错误情况 请加逻辑处理防止脚本卡死 继续重新 识别return result["message"]return ""result = base64_api('你的账号', '账号密码', '图片地址', 1001)
    print(result)
    

登录

  • 验证码可以获取到了,那么可以使用代码进行登录了
    import base64
    import jsonimport requests
    import ddddocrcode_url = 'http://www.woaidu.cc/code.php?0.056086518443781985'my_headers = {"accept": "image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8","accept-encoding": "gzip, deflate","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","connection": "keep-alive","host": "www.woaidu.cc","pragma": "no-cache","referer": "http://www.woaidu.cc/login.php","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
    }# 创建session对象
    session = requests.session()# 给session对象设置头信息
    session.headers = my_headers# 使用session发送请求,获取验证码图片
    code_resp = session.get(code_url)
    # 保存验证码图片
    with open('code.jpg', 'wb') as f:f.write(code_resp.content)# 方法一:使用第三方API识别验证码
    def base64_api(uname, pwd, img, typeid):"""通过api接口识别图片中的验证码:param uname: 用户名:param pwd: 密码:param img: 图片地址:param typeid: 识别类型:return:"""# base64.b64encode() 对图片进行base64编码with open(img, 'rb') as f:base64_data = base64.b64encode(f.read())b64 = base64_data.decode()data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)if result['success']:return result["data"]["result"]else:# 注意:返回 人工不足等 错误情况 请加逻辑处理防止脚本卡死 继续重新 识别return result["message"]return ""# 调用函数,获取验证码
    yzm = base64_api('图鉴网账号', '密码', './code.jpg', 1)# # 方法二:使用ddddocr库识别验证码
    # ocr = ddddocr.DdddOcr(show_ad=False)
    # with open('code.jpg', 'rb') as f:
    #     img_bytes = f.read()
    #
    # yzm = ocr.classification(img_bytes)# 发送post请求,登录,需要携带验证码
    login_url = 'http://www.woaidu.cc/login.php'
    login_data = {"LoginForm[username]": "我爱读电子书网账号","LoginForm[password]": "密码","LoginForm[captcha]": yzm,"action": "login","submit": "登  录"
    }# 目的是为了将登录后的cookie信息保存到session对象中
    resp = session.post(login_url, data=login_data)# 登录成功后,访问个人中心(书架)
    shujia_url = 'http://www.woaidu.cc/bookcase.php'
    shujia_content = session.get(shujia_url)
    print(shujia_content.text)
    

总结

  • 首先查看登录时发送的请求中,请求头中cookie信息
  • 查找cookie信息的来源(通过哪个请求的响应携带回来的)
    • 这个案例中,登录请求的cookie信息是通过验证码请求返回携带的
    • 但有些网站并不是,所以每个网站可能都不同,需要具体跟踪分析
  • 通过session对象发送请求,获取验证码图片,并自动保存cookie信息
  • 识别验证码图片,获取验证码
  • 登录账号、密码、验证码等创建post请求参数
  • 使用保存了cookie信息的session对象向登录页面发送post请求
  • 登录成功之后,session对象会自动保存用户信息到cookie中
  • 最后,使用携带了用户信息cookie的session对象向书架发送get请求

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Redis - 主从复制
  • 2024年道路运输安全员考试题库及答案
  • COI实验室技能:图像到图像的深度学习开发框架(pytorch版)
  • 正点原子阿尔法ARM开发板-IMX6ULL(二)——介绍情况以及汇编
  • MFC工控项目实例之十四模拟量信号名称从文件读写
  • [论文笔记] ShortGPT Qwen2-0.5B-instruct Qwen2-1.5B-instruct 大模型剪枝
  • 【SQL】百题计划:SQL内置函数“LENGTH“的使用
  • 电脑丢失msvcp120.dll问题原因及详细介绍msvcp120.dll丢失的解决方法
  • DevOps实现CI/CD实战(七)- Jenkins集成k8s实现自动化CI
  • 前端Warning解决:多行文本省略号样式失效丢失,css
  • ERDAS实现根据矢量数据的一个属性字段,裁剪栅格并生成多个栅格文件
  • npm镜像源证书过期的问题解决
  • Linux学习-Ansible(二)
  • 严重干扰的验证码识别系统源码分享
  • Pandas与Matplotlib:Python中的动态数据可视化
  • CSS盒模型深入
  • Git的一些常用操作
  • JavaScript实现分页效果
  • js ES6 求数组的交集,并集,还有差集
  • Netty 4.1 源代码学习:线程模型
  • UEditor初始化失败(实例已存在,但视图未渲染出来,单页化)
  • VUE es6技巧写法(持续更新中~~~)
  • Web标准制定过程
  • 从setTimeout-setInterval看JS线程
  • 从零开始的webpack生活-0x009:FilesLoader装载文件
  • 工作踩坑系列——https访问遇到“已阻止载入混合活动内容”
  • 使用阿里云发布分布式网站,开发时候应该注意什么?
  • 我感觉这是史上最牛的防sql注入方法类
  • 想晋级高级工程师只知道表面是不够的!Git内部原理介绍
  •  一套莫尔斯电报听写、翻译系统
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • ​iOS实时查看App运行日志
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • #1015 : KMP算法
  • #考研#计算机文化知识1(局域网及网络互联)
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • (MonoGame从入门到放弃-1) MonoGame环境搭建
  • (差分)胡桃爱原石
  • (篇九)MySQL常用内置函数
  • (译) 函数式 JS #1:简介
  • (游戏设计草稿) 《外卖员模拟器》 (3D 科幻 角色扮演 开放世界 AI VR)
  • (转)C#开发微信门户及应用(1)--开始使用微信接口
  • .Net core 6.0 升8.0
  • .Net Core 笔试1
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式
  • .NET Core跨平台微服务学习资源
  • .NET Framework .NET Core与 .NET 的区别
  • .NET NPOI导出Excel详解
  • @SpringBootApplication 包含的三个注解及其含义
  • [ CTF ] WriteUp- 2022年第三届“网鼎杯”网络安全大赛(白虎组)
  • [ vulhub漏洞复现篇 ] Apache Flink目录遍历(CVE-2020-17519)
  • [AHK V2]鼠标悬停展开窗口,鼠标离开折叠窗口
  • [android] 请求码和结果码的作用
  • [BZOJ3211]:花神游历各国(小清新线段树)
  • [CC-FNCS]Chef and Churu