当前位置: 首页 > news >正文

全网最全爬取-b站爬取弹幕+评论之js逆向与xml降本增效

🌟 ❤️

作者:yueji0j1anke

首发于公号:剑客古月的安全屋

字数:801

阅读时间:    10min

声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。合法渗透,本文章内容纯属虚构,如遇巧合,纯属意外

一.总体概述

js逆向

最近被迫又打比赛了,属于是比赛等级一高就得重构一下子,准备凑齐几百万评论进行模型训练,这次盯上b站

先上效果图

爬取过程的日志记录

image-20240524145636929

image-20240524145649799

image-20240524145705513

弹幕结果

image-20240524145748844

评论结果

image-20240524145820440

目前加入了日志、多线程模块,在启动主程序前只需要在config下填入要爬取的视频即可

image-20240524150337268

二.爬虫过程

首先爬弹幕

image-20240524150427597

点击f12即可出现惊喜

但我发现这里的弹幕大多数是按照时间分类的,根本不可能提取到像我之前展示的效果,于是我仔细分析js,得出了其的弹幕其实还映射到了xml文件上的,爬这个xml文件大幅度就可以降本增效,这里就不泄露机密了,有兴趣的可以找我私聊。

其次爬评论,老生常谈了

image-20240524150655523

在评论区疯狂的下拉后即出现了该条请求,纵观全网好像并没有关于评论的翻页爬取,究极原因是因为翻页逻辑并不好找,并且涉及到了js逆向

image-20240524150750677

wts就是时间戳,w_rid一看就是md5了,所以打断点

全区搜索一下,都给他打上,然后加载评论

image-20240523214307650

image-20240523101459479

image-20240523214255591

image-20240524100605048

最后发现是根据我们的param与一个静态密钥组合而成,随后生成md5值(大过程略掉,避免小破站找我麻烦)

image-20240524150957318

三.后续

接口没有限制,爬了大概两百多万份,美滋滋了,接下来就是做情感分析,词云图和可视化入库等操作了~

目前已经爬取了x音,小x书,某乎

原文链接 爬虫实训-b站爬取弹幕+评论百万之js逆向与xml降本增效

如果对项目有兴趣的小伙伴可以关注公众号 剑客古月的安全屋 获取联系方式进行私聊~

相关文章:

  • lua函数执行和虚拟机指令
  • UWB论文:Introduction to Impulse Radio UWB Seamless Access Systems(2):脉冲;超宽带;测距;定位
  • Flutter 中的 CupertinoPicker 小部件:全面指南
  • 【MySQL精通之路】SQL优化(1)-查询优化(11)-多范围查询优化
  • 开源RAG,本地mac启动 dify源码服务
  • 2024年第十七届“认证杯”数学中国数学建模网络挑战赛D题思路(第二阶段)
  • 解锁Nginx跨域谜题:3步打造安全高效的CORS策略
  • 【Centos7+JDK1.8】Jenkins安装手册
  • MySql:多表设计-关联查询
  • slam14讲(第8讲、前端里程计)LK光流、直接法
  • 【pyspark速成专家】3_Spark之RDD编程1
  • 【数据结构】第七节:堆
  • 鸿蒙开发配置官方地图
  • Python语法学习之 - 生成器表达式(Generator Expression)
  • 【文末附gpt升级方案】UC伯克利的CV三巨头推出的纯视觉大模型在下游任务中的表现分析
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • 【干货分享】SpringCloud微服务架构分布式组件如何共享session对象
  • Android组件 - 收藏集 - 掘金
  • Cumulo 的 ClojureScript 模块已经成型
  • Elasticsearch 参考指南(升级前重新索引)
  • HomeBrew常规使用教程
  • Java-详解HashMap
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • PAT A1017 优先队列
  • Spring Boot MyBatis配置多种数据库
  • vue-loader 源码解析系列之 selector
  • windows下使用nginx调试简介
  • yii2权限控制rbac之rule详细讲解
  • 翻译:Hystrix - How To Use
  • 分类模型——Logistics Regression
  • 给新手的新浪微博 SDK 集成教程【一】
  • 关于字符编码你应该知道的事情
  • 如何将自己的网站分享到QQ空间,微信,微博等等
  • 使用API自动生成工具优化前端工作流
  • 数据可视化之 Sankey 桑基图的实现
  • 温故知新之javascript面向对象
  • 一加3T解锁OEM、刷入TWRP、第三方ROM以及ROOT
  • “十年磨一剑”--有赞的HBase平台实践和应用之路 ...
  • 3月27日云栖精选夜读 | 从 “城市大脑”实践,瞭望未来城市源起 ...
  • 不要一棍子打翻所有黑盒模型,其实可以让它们发挥作用 ...
  • 我们雇佣了一只大猴子...
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • $.proxy和$.extend
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (32位汇编 五)mov/add/sub/and/or/xor/not
  • (4.10~4.16)
  • (C语言)fgets与fputs函数详解
  • (C语言版)链表(三)——实现双向链表创建、删除、插入、释放内存等简单操作...
  • (Matalb回归预测)PSO-BP粒子群算法优化BP神经网络的多维回归预测
  • (二)JAVA使用POI操作excel
  • (二十六)Java 数据结构
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (附源码)springboot金融新闻信息服务系统 毕业设计651450
  • (规划)24届春招和25届暑假实习路线准备规划
  • (回溯) LeetCode 131. 分割回文串