当前位置: 首页 > news >正文

python 爬虫 m3u8 视频文件 加密解密 整合mp4

文章目录

    • 一、完整代码
    • 二、视频分析
      • 1. 认识m3u8文件
      • 2. 获取密钥,构建解密器
      • 3. 下载ts文件
      • 4. 合并ts文件为mp4
    • 三、总结

一、完整代码

完整代码如下:

import requests
import re
import os
from tqdm import tqdm
from Crypto.Cipher import AES# 创建临时文件夹
dirs = 'ts_list_need_to_merge/'
os.makedirs(dirs, exist_ok=True)headers = {'Accept': '*/*','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','Connection': 'keep-alive','Origin': 'http://www.kpd510.me','Referer': 'http://www.kpd510.me/','Sec-Fetch-Dest': 'empty','Sec-Fetch-Mode': 'cors','Sec-Fetch-Site': 'cross-site','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69','sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"',}def parse_m3u8_text(m3u8_text):m3u8_text = m3u8_text.split()encode_info = [line for line in m3u8_text if line.startswith('#EXT-X-KEY:')][0]pattern = r"#EXT-X-KEY:METHOD=(.*),URI=\"(.*)\""  ## 获得加密method 和 key.key的urlmatch = re.search(pattern, encode_info)if match:method = match.group(1)key_url = match.group(2)else:raise '解析失败'## 获得ts文件urlts_list = [line for line in m3u8_text if line.endswith('ts')]return method, key_url, ts_listdef download_method_1(ts_list):# 这里弄一个filename_list 方便后续合并ts到mp4ts_file_list = []for ts_url in tqdm(ts_list):filename = dirs + os.path.split(ts_url)[-1]content = requests.get(ts_url, headers=headers).contentdecrypt_content_and_save_file(filename, content)ts_file_list.append(filename)return ts_file_listdef decrypt_content_and_save_file(filename, content):with open(filename, mode='wb') as f:f.write(decrypter.decrypt(content))def merge_ts_to_mp4(filename, ts_file_list):with open(filename, mode='ab') as f1:for ts_file in ts_file_list:with open(ts_file, mode='rb') as f2:f1.write(f2.read())if __name__ == '__main__':m3u8_url = 'https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/index.m3u8'response = requests.get(m3u8_url, headers=headers)m3u8 = response.textmethod, key_url, ts_list = parse_m3u8_text(m3u8)key_url = 'https://play.bo262626.com' + key_urlts_list = ['https://play.bo262626.com' + item for item in ts_list]key = requests.get(key_url, headers=headers).contentdecrypter = AES.new(key, AES.MODE_CBC)ts_file_list = download_method_1(ts_list[:3])merge_ts_to_mp4('test.mp4', ts_file_list)

二、视频分析

1. 认识m3u8文件

m3u8的结构详细分析可以看这个链接m3u8 文件格式详解 - 简书 (jianshu.com),这里我们只简要介绍一下;

相信无论多小白都应该知道如何打开开发者模型解析得到下面的结果;

要注意的是,只有预览里面包含了ts信息的才算是我们需要的m3u8文件;大家可以看到左侧有两个index.m3u8,其中一个是没有ts信息的,所以我们直接忽略掉;现在我们先下载来,再来具体分析一下m3u8文件以及里面的内容分别表达什么意思;

下载代码如下:

import requests
import reheaders = {'Accept': '*/*','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','Connection': 'keep-alive','Origin': 'http://www.kpd510.me','Referer': 'http://www.kpd510.me/','Sec-Fetch-Dest': 'empty','Sec-Fetch-Mode': 'cors','Sec-Fetch-Site': 'cross-site','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69','sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"',
}response = requests.get('https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/index.m3u8', headers=headers)m3u8 = response.text

m3u8文件的实质是一个视频的url列表,其中ts是计算器可以直接播放的视频格式文件,但是直接下载是可能被加了密的文件,我们需要m3u8文件内容信息进行解密;

我们可以这样理解,m3u8把一个完整的mp4视频切割成了很多的小块,每一个小块在m3u8都是ts文件格式,并在m3u8中采取了加密的措施,至于为什么要加密,这里就不多介绍;

在一般的视频爬取中,我们只需要考虑两个部分,一个是EXT-X-KEY,一个是ts

其中EXT-X-KEY包含了ts的加密方式,ts包含了ts文件的下载地址;

在红色部分也就是EXT-X-KEY部分,我们可以从METHOD中获取到采取的加密方式是AES-128,同时看到URI的地址/20231126/10VkaJks/700kb/hls/key.key,这也就是AES加密密匙的地址:key.key,接下来我们写一个文件来对m3u8文件解析,目的是提取出红色部分和蓝色部分;

代码如下:

def parse_m3u8_text(m3u8_text):m3u8_text = m3u8_text.split()encode_info = [line for line in m3u8_text if line.startswith('#EXT-X-KEY:')][0]pattern = r"#EXT-X-KEY:METHOD=(.*),URI=\"(.*)\""  ## 获得加密method 和 key.key的urlmatch = re.search(pattern, encode_info)if match:method = match.group(1)key_url = match.group(2)else:raise '解析失败'## 获得ts文件urlts_list = [line for line in m3u8_text if line.endswith('ts')]return method, key_url, ts_list## 在这里我们直接把m3u8文本丢进去就可以获得
## method, key_url, ts_list
method, key_url, ts_list = parse_m3u8_text(m3u8)
## method = 'AES-128'
## key_url = '/20231108/xV1bY9Cn/700kb/hls/key.key'
## ts_list = ['...ts', '...ts', ...]

2. 获取密钥,构建解密器

因为构建解密器我们需要密钥,而密钥存储在key.key中,首先我们需要解析key_url获取密钥;

在这里可以明显的看到key_url = '/20231108/xV1bY9Cn/700kb/hls/key.key'这不是一个完整的url,我们在这里加上获取m3u8请求的主域名便好;

代码如下:

headers = {'Accept': '*/*','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','Connection': 'keep-alive','Origin': 'http://www.kpd510.me','Referer': 'http://www.kpd510.me/','Sec-Fetch-Dest': 'empty','Sec-Fetch-Mode': 'cors','Sec-Fetch-Site': 'cross-site','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69','sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"',
}key_url = 'https://play.bo262626.com' + key_url
key = requests.get(key_url, headers=headers).content
# 这里我们得到key = b'388d590fabfeabcf' 是一个二进制结果

得到了密钥,再结合加密方式AES-128,我们就可以构建一个解密器,构建解密器代码如下:

from Crypto.Cipher import AES
## 这里网络爬取视频一般是MODE_CBC模式
decrypter = AES.new(key, AES.MODE_CBC)

这里要提起的是网络上的m3u8文件采取的加密一般是AES.MODE_CBC模式,在后续操作中如果这里出问题就换MODE一个一个试就好;

3. 下载ts文件

由于有许多的ts文件,我们有三种方法,第一是简单的requests请求一个一个下,这也是最费时的一种;第二个是多进程或者多线程的方式下载;第三个是采用协程的方式;接下来我们一个个实现;

在开始之间,ts_list存在同样的问题,就是需要重构url,这里代码如下:

ts_list = ['https://play.bo262626.com' + item for item in ts_list]# 这里得到:
# ['https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/o3jSJ9mc.ts',
#  'https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/GNHDlClJ.ts',
#  'https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/zKym5c6V.ts',
#  'https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/4ll4NQH3.ts',
#  'https://play.bo262626.com/20231108/xV1bY9Cn/700kb/hls/RwUOniSQ.ts' ...]

再测试一下解密器是否可以:

def decrypt_content_and_save_file(filename, content):with open(filename, mode='wb') as f:f.write(decrypter.decrypt(content))test_content = requests.get(ts_list[0], headers=headers).content
decrypt_content_and_save_file('test.ts', test_content)## 打开视频看是否能打开
## 如果能打开说明解密没问题

直接requests: 代码如下

import os
from tqdm import tqdmdirs = 'ts_list_need_to_merge/'
os.makedirs(dirs, exist_ok=True)def download_method_1(ts_list):# 这里弄一个filename_list 方便后续合并ts到mp4ts_file_list = []for ts_url in tqdm(ts_list):filename = dirs + os.path.split(ts_url)[-1]content = requests.get(ts_url, headers=headers).contentdecrypt_content_and_save_file(filename, content)ts_file_list.append(filename)return ts_file_list# 下载测试
ts_file_list = download_method_1(ts_list[:4])

实现挺慢的,不合理;

多进程: 代码如下

# 忘记了,有时间再回来实现

协程: 代码如下

# 忘记了,有时间再回来实现

4. 合并ts文件为mp4

在完成前面的步骤后,直接ab的方式把所有的文件按顺序加入就好;

def merge_ts_to_mp4(filename, ts_file_list):with open(filename, mode='ab') as f1:for ts_file in ts_file_list:with open(ts_file, mode='rb') as f2:f1.write(f2.read())merge_ts_to_mp4('test.mp4', ts_file_list)

后续如果需要删除'ts_list_need_to_merge/'这个临时文件夹里面的所有内容,直接运行下面代码

import send2trashsend2trash.send2trash('ts_list_need_to_merge/') # send2trash.send2trash(dirs)

三、总结

别在图书馆测试这段代码!

相关文章:

  • adb命令学习记录
  • 软件崩溃时Visual Studio中看不到有效的调用堆栈,使用Windbg动态调试去分析定位
  • 大数据Vue项目必备|Window下安装并使用nvm(含卸载node、卸载nvm、全局安装npm)
  • c++ 冒泡排序
  • SpringBoot集成swagger2配置权限认证参数
  • 《地理信息系统原理》笔记/期末复习资料(13. 地理信息系统的发展趋势)
  • 持续集成交付CICD:使用Maven命令上传Nexus制品
  • 多合一iPhone 解锁工具:iMyFone LockWiper iOS
  • 专栏十五:omicverse在单细胞分析中的实际使用体验和小改动
  • 利用python编写简易POC脚本
  • KMP算法数组下标从0和数组下标从1开始
  • Windows 批量删除文件简单方法
  • k8s 安装 Longhorn
  • Java设计模式-单例(Singleton)设计模式的概述及实现
  • 〖大前端 - 基础入门三大核心之JS篇(51)〗- 面向对象之认识上下文与上下文规则
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • Create React App 使用
  • ES6 ...操作符
  • Java基本数据类型之Number
  • Linux Process Manage
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • npx命令介绍
  • 关于 Linux 进程的 UID、EUID、GID 和 EGID
  • 基于OpenResty的Lua Web框架lor0.0.2预览版发布
  • 极限编程 (Extreme Programming) - 发布计划 (Release Planning)
  • 聊聊redis的数据结构的应用
  • 腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬?
  • 跳前端坑前,先看看这个!!
  • 微信小程序:实现悬浮返回和分享按钮
  • 译米田引理
  • 正则与JS中的正则
  • ​Base64转换成图片,android studio build乱码,找不到okio.ByteString接腾讯人脸识别
  • ​queue --- 一个同步的队列类​
  • # 计算机视觉入门
  • # 数据结构
  • #[Composer学习笔记]Part1:安装composer并通过composer创建一个项目
  • #《AI中文版》V3 第 1 章 概述
  • #Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法
  • (1)安装hadoop之虚拟机准备(配置IP与主机名)
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (层次遍历)104. 二叉树的最大深度
  • (附源码)spring boot建达集团公司平台 毕业设计 141538
  • (附源码)springboot掌上博客系统 毕业设计063131
  • (附源码)ssm高校社团管理系统 毕业设计 234162
  • (三)docker:Dockerfile构建容器运行jar包
  • (四)图像的%2线性拉伸
  • (淘宝无限适配)手机端rem布局详解(转载非原创)
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (一)基于IDEA的JAVA基础12
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)人的集合论——移山之道
  • (自用)learnOpenGL学习总结-高级OpenGL-抗锯齿
  • .bat批处理(五):遍历指定目录下资源文件并更新
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案
  • .net 7 上传文件踩坑