当前位置: 首页 > news >正文

对排名前3000位博主进行数据分析

数据分析

热门博主

这里是在2017-05-20晚上爬取按照积分排名前3000位的博主,本文是在3000条博主的用户信息,23万条博主的活动信息的基础上进行数据分析的,此数据基于学习的目的,不用于商业目的;

本来打算对具体动态信息做个排名,不过考虑到可能会涉及隐私,所以放弃,全文分析均为宏观分析;

各个博主的出生地

3000位博主中,只有546位填了家乡,比例为18%;

4748998-file_1495496762625_e3a2.png

可以看的出来,湖北和河南的人数最多,广东四川北京山东属于第二梯队;

各个博主的现居住地

3000位博主中,只有802位填了现在的居住地,比例为27%;

94656922-file_1495496969213_10f3e.png

可以发现,这个时候,博主的工作地点变成了IT比较发达的省份,像是北京,广东,浙江,上海,四川;

各个园龄所占的人数

94921794-file_1495497081535_d25.png

大部分在博客园的时间在4-12年的时间,其中5年最多

工作职位的统计

206人填了信息,比例为7%

49252264-file_1495497299758_151f.png

这里取的是排名前20位的职位,其中因为描述的不同导致结果存在些许不同,但可以发现其中软件工程师居多

工作单位的统计

116人填了信息,5个腾讯,2个Autodesk,2个武汉大学,其余均不重复,其中100人在工作,16人在大学

上一次发布博客的时间

1258个日子,最近一天为2017-05-20,最远一天为2005-04-14

97898692-file_1495497467699_111dd.png

其中越靠后表明上一次发布博客的时间离现在越近,不过不难发现依然存在挺多的人上次发布博客的时间离现在比较远。

多少人进行了迁移(出生地跑到现居住地)

395人,此方法是按照出生地不等于现在居住地计算得出

结婚

107人填了信息,占整体比例为4%

6128447-file_1495497789039_1222.png

单身比例最高,占了将近2/3,已婚次之

动态信息分布

41873138-file_1495497939215_4113.png

发表话题和博客占用比例大体相当

分数平均值

以300为单位

42956737-file_1495498096178_14281.png

可以发现,前300名大幅拉开和后面的差距

博客数量和分数、粉丝的关系

14634859-file_1495498198466_d2a3.png

博客数量和分数并不是一个线性关系,表明并不是发表的博客数量越高分数就越高,不过貌似粉丝数量和分数存在些许关系。

总结

这个项目是我在工作之余花了一周的时间一变学习一边写出来的,其利用Scrapy爬虫框架来实现,过程中也走了些弯路,基本都是靠不停的查找资料来解决问题。项目并不困难,数据分析也比较简单,在后面可以加上词频分析等等,不过因为最近要开始找工作了,所以暂时要放置一段时间了。

文中如果有错误,请及时指出。

转载于:https://www.cnblogs.com/George1994/p/6892346.html

相关文章:

  • 38、当前时间是否在开放时间内(也就是时间对比)
  • cocos2d-x2.2.5走四棋儿源代码“开源”
  • numpy之初探排序和集合运算
  • eclipse:刪除空行
  • HTTP权威指南-URL与资源
  • Android 自己定义RecyclerView 实现真正的Gallery效果
  • 数据传递-------@PathVariable
  • pragma once
  • 2017年5月27日
  • Mysql中key 、primary key 、unique key 与index区别
  • 空物体下很多子物体的体积判断并附加对应的碰撞器
  • http://www.onvif.org/onvif/ver20/util/operationIndex.html
  • Hadoop高速入门
  • 对象的初始化过程
  • C# goto
  • 【RocksDB】TransactionDB源码分析
  • Android单元测试 - 几个重要问题
  • centos安装java运行环境jdk+tomcat
  • C学习-枚举(九)
  • GDB 调试 Mysql 实战(三)优先队列排序算法中的行记录长度统计是怎么来的(上)...
  • JavaScript设计模式与开发实践系列之策略模式
  • Java深入 - 深入理解Java集合
  • js 实现textarea输入字数提示
  • nginx 负载服务器优化
  • react 代码优化(一) ——事件处理
  • SQLServer之创建显式事务
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 蓝海存储开关机注意事项总结
  • 算法---两个栈实现一个队列
  • 微信小程序上拉加载:onReachBottom详解+设置触发距离
  • 微信小程序填坑清单
  • 我从编程教室毕业
  • 自动记录MySQL慢查询快照脚本
  • [Shell 脚本] 备份网站文件至OSS服务(纯shell脚本无sdk) ...
  • 7行Python代码的人脸识别
  • elasticsearch-head插件安装
  • ​二进制运算符:(与运算)、|(或运算)、~(取反运算)、^(异或运算)、位移运算符​
  • ​直流电和交流电有什么区别为什么这个时候又要变成直流电呢?交流转换到直流(整流器)直流变交流(逆变器)​
  • $.ajax,axios,fetch三种ajax请求的区别
  • (02)Hive SQL编译成MapReduce任务的过程
  • (1)bark-ml
  • (2015)JS ES6 必知的十个 特性
  • (C语言)逆序输出字符串
  • (html转换)StringEscapeUtils类的转义与反转义方法
  • (LeetCode) T14. Longest Common Prefix
  • (ZT)出版业改革:该死的死,该生的生
  • (附源码)ssm智慧社区管理系统 毕业设计 101635
  • (十二)python网络爬虫(理论+实战)——实战:使用BeautfulSoup解析baidu热搜新闻数据
  • (已解决)什么是vue导航守卫
  • (转)scrum常见工具列表
  • (转载)VS2010/MFC编程入门之三十四(菜单:VS2010菜单资源详解)
  • 、写入Shellcode到注册表上线
  • .Net 高效开发之不可错过的实用工具
  • .NET 药厂业务系统 CPU爆高分析
  • .NET/C# 判断某个类是否是泛型类型或泛型接口的子类型