当前位置: 首页 > news >正文

【Python爬虫】Python爬取喜马拉雅,爬虫教程!

一、思路设计

  (1)分析网页

    

    在喜马拉雅主页找到自己想要的音频,得到目标URL:https://www.ximalaya.com/qinggan/321787/

    

  通过分析页面的网络抓包,最终的到一个比较有用的json数据包

  通过分析,得到了发送json数据包的一个有用的API接口:https://www.ximalaya.com/revision/play/album?albumId=321787&pageNum=2

  其中album为主播的ID在页面url中有显示,pageNum为json数据包的“页数”。每个json数据包有30个json数据

  (2)设计代码

    向服务器发送请求 ---->  得到json数据包 ----> 分析json数据包 ----> 提取json数据包中的有用数据 ----> 存储到本地MongoDB数据库

二、代码实例

   代码共分为两部分,执行脚本(ximalaya.py)和配置文件(config_ximalaya.py)

    ximalaya.py

 1 # -*- coding:utf-8; -*-2 # Author : Bingnan Huo3 # Create : 2018-12-064 import os5 import time6 import json7 import requests8 9 from threading import Thread
10 from datetime import datetime
11 from pymongo import MongoClient
12 from config_xiamalaya import *
13 
14 def getWorkTimeNow(): 
15     '''Acquire work time '''
16     t = datetime.now()
17     year = t.year
18     month = t.month
19     day = t.day
20     hour = t.hour
21     minute = t.minute
22     time_str = "[%s-%s-%s-%s:%s]"%(str(year),
23                        str(month),
24                        str(day),
25                        str(hour),
26                        str(minute)
27                        )
28     return time_str
29 
30 def getJsonData(userID,page):
31     '''Get target server json data'''
32     count = 0
33     pa = {"albumId":userID,"pageNum":page}
34     while(ERROR):
35         if count > 10:
36             return False
37         try:
38             ret = requests.get(url=INDEXURL,params=pa,headers=HEADERS,timeout=30,verify=True,proxies=None)
39             ret.raise_for_status()
40         except Exception as e:
41             count += 1
42             print(getWorkTimeNow(),end='')
43             print(" [INFO] Retry...")
44             continue
45         else:
46             ret.encoding = ret.apparent_encoding
47             return ret.text
48 
49 def analyseJsonData(jsonData):
50     '''Analyse json data and save into MongoDB'''
51     if jsonData:
52         client = MongoClient()
53         print(getWorkTimeNow() + " [INFO] Connected to MongoDB!")
54         db = client.ximalaya# Create DataBase
55         print(getWorkTimeNow() + " [INFO] Create new database!")
56         table = getattr(db,TABLENAME)# Create Table
57         print(getWorkTimeNow() + " [INFO] Create new table --> %s" %(TABLENAME))
58         dict_obj = json.loads(jsonData)
59         data = dict_obj["data"]# Json attr data
60         content = data["tracksAudioPlay"]# json content
61         for i in content:
62             tmp_dict = {'序号':None,'名称':None,'Url':None,'源':None,'状态':False,'时长':None,}
63             tmp_dict['序号'] = i['index']
64             tmp_dict['名称'] = i['trackName']
65             tmp_dict['Url'] = "https://www.ximalaya.com" + i['trackUrl']
66             tmp_dict['源'] = i['src']
67             if i['isPaid']:
68                 tmp_dict['状态'] = True
69             tmp_dict['时长'] = i['duration']
70             table.insert_one(tmp_dict)
71             print(getWorkTimeNow() + " [INFO] Insert one data!")
72         
73 
74 def DBStart(dbpath):
75     '''start MongoDB client'''
76     status = os.system("start mongod --dbpath " + dbpath)
77     if not status:
78         print(getWorkTimeNow() + " [INFO] DataBase start!")
79         return True
80     else:
81         print(getWorkTimeNow() + " [INFO] DataBase Failed...")
82         return False
83 def execute(user_id,page):
84     json_data = getJsonData(user_id, page)
85     analyseJsonData(json_data) 
86 
87 def main():
88     DBStart(DBPATH)
89     for page in PAGECONTIANER:
90         execute(USERID, str(page))
91         
92   
93     
94 
95 if __name__ == "__main__":
96     main()

    config_ximalaya.py

 1 # -*- coding:utf-8 -*-2 # ximalaya.py -- config3 import time4 5 def getUnixTime():6     t = time.time()7     return str(int(t))8 9 
10 
11 INDEXURL = " https://www.ximalaya.com/revision/play/album"
12 
13 ERROR = True
14 
15 HEADERS = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
16           
17            
18           }
19 """
20 Cookie:x_xmly_traffic=utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A; 
21 device_id=xm_1544076474056_jpc79kg8f1h3u6; 
22 Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1544076479; 
23 Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1544076479
24 API : https://www.ximalaya.com/revision/play/album?albumId=321787&pageNum=1
25 
26 """
27 COOKIE = {"x_xmly_traffic":"utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A",
28           "device_id":"xm_1544076474056_jpc79kg8f1h3u6",
29           "Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070":getUnixTime(),
30           "Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070":getUnixTime()
31           }
32 
33 DBPATH = "D:\\MongoDB\\data\\db"
34 
35 TABLENAME = "Test_321787_02"
36 
37 PAGECONTIANER = [i for i in range(1,10)]
38 
39 USERID = "321787"

三、执行结果

  最终的数据插入到了本地的MongoDB数据库

  

  由于MongoDB为NoSQL型数据库,该数据库采用BOSN数据类型(json加强版)进行存储

  在RoboMongo中也可以用MySQL数据库的表形式进行显示

  

最后:如果你对Python感兴趣,想要学习Python,希望可以帮到你,一起加油!以上是给大家分享的Python全套学习资料,都是我自己学习时整理的:

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

图片

图片

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,还有环境配置的教程,给大家节省了很多时间。

图片

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

图片

四、入门学习视频全套

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

图片

图片

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

图片

图片

 **学习资源已打包,需要的小伙伴可以戳这里:【学习资料】

相关文章:

  • Golang | Leetcode Golang题解之第204题计数质数
  • 2024年6月总结及随笔之打卡网红点
  • 2023年下半年软考网络规划设计师论文真题
  • HSRP热备份路由协议(VRRP虚拟路由冗余协议)配置以及实现负载均衡
  • 揭秘BERT背后的魔力:语义相似度算法深度剖析
  • MySQL之可扩展性(九)
  • pytorch笔记:named_parameters
  • springboot 集成阿里云 OSS
  • 41、web基础和http协议
  • SpringMVC系列二: 请求方式介绍
  • 电脑系统重装怎么操作?分享四个win10重装系统方法
  • 更改ip后还被封是ip质量的原因吗?
  • DDei在线设计器-API-DDeiSheet
  • Discuz动漫二次元风格网站模板
  • [经验] candy是什么意思英语翻译 #笔记#其他#职场发展
  • 《Java编程思想》读书笔记-对象导论
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • Android 初级面试者拾遗(前台界面篇)之 Activity 和 Fragment
  • AzureCon上微软宣布了哪些容器相关的重磅消息
  • dva中组件的懒加载
  • iOS 系统授权开发
  • JavaScript 基本功--面试宝典
  • webpack入门学习手记(二)
  • 多线程事务回滚
  • 技术发展面试
  • 警报:线上事故之CountDownLatch的威力
  • 离散点最小(凸)包围边界查找
  • 排序算法学习笔记
  • 如何抓住下一波零售风口?看RPA玩转零售自动化
  • 少走弯路,给Java 1~5 年程序员的建议
  • 微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
  • 再谈express与koa的对比
  • UI设计初学者应该如何入门?
  • 积累各种好的链接
  • ​2021半年盘点,不想你错过的重磅新书
  • (6)设计一个TimeMap
  • (HAL库版)freeRTOS移植STMF103
  • (JS基础)String 类型
  • (超简单)使用vuepress搭建自己的博客并部署到github pages上
  • (附源码)springboot 个人网页的网站 毕业设计031623
  • (深度全面解析)ChatGPT的重大更新给创业者带来了哪些红利机会
  • (微服务实战)预付卡平台支付交易系统卡充值业务流程设计
  • (一)ClickHouse 中的 `MaterializedMySQL` 数据库引擎的使用方法、设置、特性和限制。
  • (轉)JSON.stringify 语法实例讲解
  • .【机器学习】隐马尔可夫模型(Hidden Markov Model,HMM)
  • .NetCore部署微服务(二)
  • .net程序集学习心得
  • /etc/motd and /etc/issue
  • [.NET 即时通信SignalR] 认识SignalR (一)
  • [1127]图形打印 sdutOJ
  • [20161101]rman备份与数据文件变化7.txt
  • [AIGC] Kong:一个强大的 API 网关和服务平台
  • [AIGC] 解题神器:Python中常用的高级数据结构
  • [BZOJ4337][BJOI2015]树的同构(树的最小表示法)
  • [Gradle] 在 Eclipse 下利用 gradle 构建系统