当前位置: 首页 > news >正文

用python数据分析了北京积分落户名单,发现……

↑ 关注 + 置顶 ~ 有趣的不像个技术号

 

北京积分落户制度已经实行两年了,2018年申报积分落户的124657名申请人中6019位落户人员取得落户资格。

而去年2019年,申报积分落户人数为106403名,实际公示名单共6007人。

准备打开官方网站下载数据分析一下,结果发现过了公示期网页就打不开了。

经过一番努力,在网上收集到了2018年的6019位落户人员名单和信息(均为公开展示信息)。

01

数据分析

我们本次用到的分析工具包有:pandas 、seaborn 和Matplotlib。

落户数据是csv文档(文末可下载),内部记录了6019条落户信息。

所以先利用pandas读取数据csv文档,并看看有哪些列,可以看到这个表有4列构成,人名、生日、公司、积分

luohu_data = pd.read_csv('./bj_luohu.csv', index_col = 'id')
luohu_data.head(5)

此时有一个疑问这些人来自哪些公司呢?公司有没有重复的? 这些公司都是哪些行业的?

所以按照公司分组查看一下:

company_data = luohu_data.groupby('company', as_index=False).count()[['company', 'name']]
company_data.rename(columns={'name':'人数'}, inplace=True)      # 替换 1
company_data.rename(columns={'company':'公司名'},inplace=True)  # 替换 2
company_data.head(20)

这么直接看的话人数没有顺序的,所以我们再对人数进行降序排列,看看落户最多的哪几家!

company_sorted_data = company_data.sort_values('人数', ascending=False)
company_sorted_data.head(15)   # 前15

emmmm。。。。满眼科技公司,华为、百度、联想、爱立信、腾讯均在前15名,其次是一些国企央之类的。

2

数据可视化

积分数socre是连续数值,因此这里进行分段分析,经过describe初步了解,得分最小90,最大122.6 所以这么划分:90-130分,5分一段

cut_bins = np.arange(90, 130, 5)   #分段设置
bins = pd.cut(luohu_data['score'], cut_bins)  # 将落户数据,按照cutbins来切一下
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts.head(10)

直接出来的话是数据,那么我在直接画个图更直观的看一下

plt.figure(figsize=(15,8))
plt.rcParams['font.family']='Arial Unicode MS'
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.size']=12

x_name=['90-95','95-100','100-105','105-110','110-115','115-120','120-125']
sns.barplot(x_name,bin_counts)
plt.ylabel('人数')
plt.xlabel('分数区间')

for x, y in zip(range(7), bin_counts):
    plt.text(x, y+20 , y, ha='center', va='bottom')

plt.show()

可以看到,落户人数主要集中在90-100分之间,合计5101人,如果想落户,达到95分就没什么问题了。

那么现在又有个问题,比如达到90分以上我都60了也没啥意义了,那么这些落户的主要集中在什么年龄段呢?年龄与积分有相关性吗?来看看。

首先需要根据生日算一下落户年龄

luohu_data['age'] = (pd.to_datetime('2018-07') - pd.to_datetime(luohu_data['birthday'])) / pd.Timedelta('365 days')
luohu_data.describe()

mean=luohu_data['age'].mean()
std =luohu_data['age'].std()

# 得到上下限
lower , upper =mean -3*std , mean+3*std

print('均值',mean) 
print('标准差',std) 
print('下限',lower) 
print('上限',upper)

得到:

作图看一下分布

#fig.set_size_inches(15,5)   # 设置画布大小
sns.distplot(luohu_data['age'])  

可以看到,最小的年龄也32岁了最大年龄60岁,75%分位数在43岁左右。年龄均值42岁。

3

总结

根据本篇简单的数据分析我们发现:

通过积分获得北京户口的年龄段集中在35岁到46岁之间,主要为42±2岁之间;积分集中在90分左右,行业集中在IT和国企央企及金融行业

据有关媒体统计,在北京当前的积分落户政策下,本科生需要15左右年才能拿到100分,研究生也需要12年以上才能拿到100分。

大家想一下:虽然现在100分可以落户,但12/15年后跟你同批的毕业生就全都100分了......

而其他城市的落户政策是上海七年,香港七年,深圳一年,北京落户还真是真是不容易啊。

相关分析源码和北京积分落户数据已上传github:https://github.com/zpw1995/aotodata/tree/master/bj_luohu

作者:董汇标MINUS,关注知乎点击左下角原文链接。

微信首发于公众号【凹凸玩数据】,有趣的不像个技术号

End

RECOMMEND

推荐阅读

01

长按二维码
了解及购买

02

长按二维码
了解及购买

03

长按二维码
了解及购买

04

      

长按二维码
了解及购买

05

长按二维码
了解及购买

06

长按二维码
了解及购买

好消息!好消息!

亲爱的读者:

以“读”攻毒,让阅读温暖彼此!机械工业出版社史无前例大型促销全品回馈周活动,5折封顶,每满100-50,2月10日—16日就在京东、当当同步开启!

扫描直达计算机品类专区

在看点一下

相关文章:

  • 中台辨析:架构的演进趋势
  • 【直播预告】2月12日“实体企业如何打造私域流量+企业级业务架构方法与工作”两场直播等你来!...
  • 【直播预告】2月13日 三场科技类大咖直播!带好小板凳,前排等你哦!
  • 只知道云计算很赚钱,但不知道怎么学?
  • 情人节快乐 | 请收下这份礼物
  • 笑死了,程序猿是这么过情人节的
  • Flink 1.10重磅发布!一大堆特性震撼来袭!
  • 【直播预告】2月15日|大咖直播课表已就位,就等你了
  • 【直播预告】2月16日 | 快安排上,再不看你就落后了
  • 不太懂Python? 这么做就对了!
  • 【新书速递】深入理解XGBoost:高效机器学习算法与进阶
  • IEEE 2020 年 12 大技术趋势:边缘计算、量子计算、AI、数字孪生等
  • 春招面试必备书单,今日韬光隐晦,他日一鸣惊人
  • 【直播预告】2月16日 | 数字化转型“拐点”:以灯塔模型突破“疫情式”影响...
  • 一个架构师谈什么是架构,以及怎么成为架构师
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • 08.Android之View事件问题
  • ESLint简单操作
  • JAVA_NIO系列——Channel和Buffer详解
  • java2019面试题北京
  • JavaScript创建对象的四种方式
  • JavaScript学习总结——原型
  • Java小白进阶笔记(3)-初级面向对象
  • Mysql优化
  • rabbitmq延迟消息示例
  • SwizzleMethod 黑魔法
  • Vue 2.3、2.4 知识点小结
  • vue从入门到进阶:计算属性computed与侦听器watch(三)
  • Web设计流程优化:网页效果图设计新思路
  • 程序员最讨厌的9句话,你可有补充?
  • 关键词挖掘技术哪家强(一)基于node.js技术开发一个关键字查询工具
  • 和 || 运算
  • 今年的LC3大会没了?
  • 开发基于以太坊智能合约的DApp
  • 离散点最小(凸)包围边界查找
  • 免费小说阅读小程序
  • 入门到放弃node系列之Hello Word篇
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 世界上最简单的无等待算法(getAndIncrement)
  • 数据结构java版之冒泡排序及优化
  • 怎样选择前端框架
  • 最近的计划
  • 完善智慧办公建设,小熊U租获京东数千万元A+轮融资 ...
  • ​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • # include “ “ 和 # include < >两者的区别
  • #pragma multi_compile #pragma shader_feature
  • #Ubuntu(修改root信息)
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • (03)光刻——半导体电路的绘制
  • (09)Hive——CTE 公共表达式
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (C语言)深入理解指针2之野指针与传值与传址与assert断言
  • (Oracle)SQL优化技巧(一):分页查询