当前位置: 首页 > news >正文

【46 Pandas+Pyecharts | 当当网畅销图书榜单数据分析可视化】

文章目录

  • 🏳️‍🌈 1. 导入模块
  • 🏳️‍🌈 2. Pandas数据处理
    • 2.1 读取数据
    • 2.2 查看数据信息
    • 2.3 去除重复数据
    • 2.4 书名处理
    • 2.5 提取年份
  • 🏳️‍🌈 3. Pyecharts数据可视化
    • 3.1 作者图书数量分布
    • 3.2 图书出版年份分布
    • 3.3 图书原价分布
    • 3.4 图书售价区间分布
    • 3.5 电子书价格区间占比
    • 3.6 折扣比例分布
    • 3.7 TOP30出版社
    • 3.8 图书评论数词云
  • 🏳️‍🌈 4. 可视化项目源码+数据

大家好,我是 👉【Python当打之年(点击跳转)】

本期利用 python 分析一下「当当网图书畅销榜单(2020-2023)数据」 ,看看哪些作者的图书最畅销、哪些年份的图书上榜最多、上榜图书的价格分布、评论分布以及出版社分布 等,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。

涉及到的库:

  • Pandas — 数据处理
  • Pyecharts — 数据可视化

🏳️‍🌈 1. 导入模块

import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')

🏳️‍🌈 2. Pandas数据处理

2.1 读取数据

df = pd.read_csv("./当当网畅销图书榜单数据.csv")

在这里插入图片描述

2.2 查看数据信息

df.info()

在这里插入图片描述

2.3 去除重复数据

df = df.drop_duplicates(subset=['书名','出版日期'])

2.4 书名处理

new_name = []
for name in df['书名'].tolist():name_t = name.split('(')[0].split(' ')[0].split('・')[0]new_name.append(name_t)
df['书名_new'] = new_name

2.5 提取年份

df['出版日期_year'] = pd.to_datetime(df['出版日期']).dt.year

在这里插入图片描述

🏳️‍🌈 3. Pyecharts数据可视化

3.1 作者图书数量分布

在这里插入图片描述

-陈磊・半小时漫画团队、东野圭吾的书籍上榜次数居多,代表作分别有《半小时漫画中国史》、《半小时漫画唐诗系列》、《白夜行》、《解忧杂货店》、《嫌疑人X的献身》等。

-曹文轩、余华、肥志、毛姆等老师的作品上榜次数分列第2至第5位。

3.2 图书出版年份分布

def get_line():chart = (Line().add_xaxis(x_data).add_yaxis("", y_data).set_global_opts(title_opts=opts.TitleOpts(title="2-图书出版年份分布",),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30),splitline_opts=opts.SplitLineOpts(is_show=False)),))

在这里插入图片描述

  • 2017年-2022年的出版的图书上榜次数相较于其他年份更高一些,其中2019年、2020年出版的图书上榜次数超过150次。

3.3 图书原价分布

在这里插入图片描述

  • 图书原价(定价)基本都在100元以内,很少一部分在200元以上。

3.4 图书售价区间分布

def get_bar():chart = (Bar().add_xaxis(x_data).add_yaxis("", y_data).set_global_opts(title_opts=opts.TitleOpts(title="4-图书售价区间分布",),visualmap_opts=opts.VisualMapOpts(is_show=False,),))

在这里插入图片描述

  • 从售价区间分布上来看:20元以下的图书上榜次数接近400次,20-30元之间的300次左右,也就是30元以内的图书上榜次数接近60%。

  • 从售价区间可以看出来图书的售价和上榜率有一定的关系。

3.5 电子书价格区间占比

def get_pie():chart = (Pie().add("", [list(z) for z in zip(x_data, y_data)]).set_global_opts(title_opts=opts.TitleOpts(title="5-电子书价格区间占比",pos_top='2%',pos_left="center"),visualmap_opts=opts.VisualMapOpts(is_show=False,),))return chart

在这里插入图片描述

  • 电子书的价格普遍较低,比较成本很少,上榜次数分布趋势基本和售价一致。

3.6 折扣比例分布

在这里插入图片描述

  • 5折图书上榜次数要明显高于其他折扣上榜次数,所以在打折促销的时候可以参考打半折,当然也要考虑到图书的内容质量,并不是打折越多就越畅销。

3.7 TOP30出版社

在这里插入图片描述

  • 图书自然会涉及出版质量问题,排名前10的出版社有:北京联合出版有限公司、时代文艺出版社、中信出版社、南海出版公司、南方出版社、人民文学出版社、浙江工商大学出版社、湖南文艺出版社、江苏凤凰文艺出版社、北京十月文艺出版社

3.8 图书评论数词云

def get_wordcloud():chart = (WordCloud().add("",words,word_size_range=[10,50]).set_global_opts(title_opts=opts.TitleOpts(title='8-图书评论词云',pos_top='2%',pos_left="center",),legend_opts=opts.LegendOpts(is_show=False),visualmap_opts=opts.VisualMapOpts(is_show=False),))return chart

在这里插入图片描述

  • 亚龙湾、三亚湾、蜈支洲岛、大东海、天涯海角、海棠湾等景点更受驴友的喜爱。

🏳️‍🌈 4. 可视化项目源码+数据

点击跳转:【全部可视化项目源码+数据】


以上就是本期为大家整理的全部内容了,赶快练习起来吧,原创不易,喜欢的朋友可以点赞、收藏也可以分享注明出处)让更多人知道。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 用ssh tunnel的方式设置 AWS DocumentDB 公网访问
  • jvm常用密令、jvm性能优化、jvm性能检测、Java jstat密令使用、Java自带工具、Java jmap使用
  • TensorFlowTTS tts语音合成使用案例;tflite模型转换及加载使用
  • PHP基础语法(一)
  • tomcat的优化
  • verilog bug记录——正点原子spi_drive存在的问题
  • Go语言并发编程-Goroutine调度
  • 51单片机嵌入式开发:12、STC89C52RC 红外解码数码管显示
  • [开源]语雀+Vercel:打造免费个人博客网站
  • 顶顶通呼叫中心中间件-被叫路由、目的地绑定(mod_cti基于FreeSWITCH)
  • Leetcode二分搜索法浅析
  • MySQL中的幻读究竟是怎么回事?
  • 0718vscode问答
  • 高性能分布式IO系统BL205 OPC UA耦合器
  • Mojo 编程语言简介
  • 9月CHINA-PUB-OPENDAY技术沙龙——IPHONE
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • 30秒的PHP代码片段(1)数组 - Array
  • create-react-app做的留言板
  • Java应用性能调优
  • React系列之 Redux 架构模式
  • Service Worker
  • 测试如何在敏捷团队中工作?
  • 电商搜索引擎的架构设计和性能优化
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 记一次和乔布斯合作最难忘的经历
  • 马上搞懂 GeoJSON
  • 盘点那些不知名却常用的 Git 操作
  • 微信开放平台全网发布【失败】的几点排查方法
  • 正则表达式小结
  • 转载:[译] 内容加速黑科技趣谈
  • 字符串匹配基础上
  • PostgreSQL之连接数修改
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • 专访Pony.ai 楼天城:自动驾驶已经走过了“从0到1”,“规模”是行业的分水岭| 自动驾驶这十年 ...
  • ​二进制运算符:(与运算)、|(或运算)、~(取反运算)、^(异或运算)、位移运算符​
  • ​水经微图Web1.5.0版即将上线
  • #HarmonyOS:Web组件的使用
  • $ is not function   和JQUERY 命名 冲突的解说 Jquer问题 (
  • (04)odoo视图操作
  • (09)Hive——CTE 公共表达式
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (7)摄像机和云台
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (STM32笔记)九、RCC时钟树与时钟 第二部分
  • (笔记)M1使用hombrew安装qemu
  • (补充)IDEA项目结构
  • (附源码)计算机毕业设计SSM教师教学质量评价系统
  • (一一四)第九章编程练习
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)C语言家族扩展收藏 (转)C语言家族扩展
  • (转)GCC在C语言中内嵌汇编 asm __volatile__
  • .NET “底层”异步编程模式——异步编程模型(Asynchronous Programming Model,APM)...
  • .NET 5.0正式发布,有什么功能特性(翻译)
  • .NET 项目中发送电子邮件异步处理和错误机制的解决方案