当前位置: 首页 > news >正文

利用python爬虫电影分析_python 爬虫分析30年香港电影

前言

上个礼拜接触爬虫,本身对香港电影比较感兴趣,这2天就去拿豆瓣数据做了份香港近30年电影的分析

正文

数据来源豆瓣

这些路径是有规律 ,设置好循环条件,拿到电影url在进行下一步,在这之前有一部分电影我们过滤掉,典型的就是没有评分的电影,没有评分电影大部分是演出晚会,B级片等电影,

读者有兴趣可以查下,这些电影的数据可用性差我不来拿分析,香港上世纪90-99电影总数2700+,过滤后拿到的1100+。近30年电影初步得到是2500+

然后分析页面结构,电影名会有多的 ,我是空格分开后取的第一个,简体字电影名排在首位,静态页面的数据爬取比较简单这里有几个注意点

一:页面结构要多种预计 (有点页面没有导演或者编剧这些情况)

二:遇到ip封禁的 设定时 ,登陆后拿自己账号cookies加入headers, 或者自己定义ip(r=requests.get(url,proxies={'http':random.choice(pro)},headers=head))

多线程分配url任务时 ,因为我用的是mysql,遇到一个锁表的问题,这个作为以后学习点,不过使用MongoDB这种非关系数据库就没有这种问题

数据结果

可视化的有的是echarts:

一:香港历年电影

在1993-1995年和 2000-2001是香港电影的鼎盛时期 ,前者有霸王别姬,东邪西毒,活着,与大话西游系列,后者有花样年华,卧虎藏龙,无间道这些优秀

影片,在94,95巅峰后年电影有下降的趋势应该是97香港回归的影响,在回归后的2000左右稳定,并且再次有峰值。

二:导演

三:演员

张国荣(2008年的为东西吸毒终极版)

周星驰

刘德华

还有很多蛮有趣的数据就不都展示,这段时间体会到爬虫的乐趣,后面往图像处理方向学习

相关文章:

  • 汇编 无法修改显存中的内容_汇编语言
  • sql 去重求和_SQL知识大全(二):SQL的基础知识你都掌握了吗?
  • python 希尔伯特变换_Python中HHT(希尔伯特-黄变换)以及其在EEG数据处理中的应用...
  • 广义表head tail 运算_数据结构习题解答:多维数组和广义表 | 选择题
  • python求中位数的怎么编写_python计算分位数方法
  • 在anaconda安装python命令_Anaconda入门:安装及包与环境的管理(conda命令)
  • python创建提示用户输入查询条件_pythone-2:用户登录并根据条件查询
  • crontab类型的任务python_Linux 上使用 crontab 设置定时任务及运行 Python 代码不执行的解决方案...
  • python epoll多路复用技术_python 网络编程 IO多路复用之epoll
  • python的数字运算_Python中数字的相关运算:数学运算及函数运算
  • python的开发环境有哪些特点_Python集成开发环境有哪些
  • 导出数据表 跳过autoincrease_aTimeLogger按周导出的数据报表
  • python基础网易_python零基础入门命令方式汇总大全,快速恶补你的Python基础
  • python tableview刚开始没有数据很丑_一个TableView(并没有)循环刷新的现象与正确的做法...
  • python mro c3_python的MRO和C3算法
  • Java超时控制的实现
  • Java-详解HashMap
  • JDK9: 集成 Jshell 和 Maven 项目.
  • js继承的实现方法
  • Linux Process Manage
  • PHP 程序员也能做的 Java 开发 30分钟使用 netty 轻松打造一个高性能 websocket 服务...
  • python_bomb----数据类型总结
  • Vue.js-Day01
  • webpack4 一点通
  • -- 查询加强-- 使用如何where子句进行筛选,% _ like的使用
  • 当SetTimeout遇到了字符串
  • 计算机在识别图像时“看到”了什么?
  • 开源地图数据可视化库——mapnik
  • 前言-如何学习区块链
  • 实现简单的正则表达式引擎
  • 实战|智能家居行业移动应用性能分析
  • 算法-插入排序
  • 以太坊客户端Geth命令参数详解
  • Android开发者必备:推荐一款助力开发的开源APP
  • Linux权限管理(week1_day5)--技术流ken
  • ​2020 年大前端技术趋势解读
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • # 日期待t_最值得等的SUV奥迪Q9:空间比MPV还大,或搭4.0T,香
  • #### go map 底层结构 ####
  • #Java第九次作业--输入输出流和文件操作
  • #每日一题合集#牛客JZ23-JZ33
  • #微信小程序:微信小程序常见的配置传旨
  • $.ajax()参数及用法
  • (C#)一个最简单的链表类
  • (Demo分享)利用原生JavaScript-随机数-实现做一个烟花案例
  • (java)关于Thread的挂起和恢复
  • (Ruby)Ubuntu12.04安装Rails环境
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (过滤器)Filter和(监听器)listener
  • (淘宝无限适配)手机端rem布局详解(转载非原创)
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (转)mysql使用Navicat 导出和导入数据库
  • (转载)OpenStack Hacker养成指南
  • (自用)learnOpenGL学习总结-高级OpenGL-抗锯齿
  • .bashrc在哪里,alias妙用