当前位置: 首页 > news >正文

基于python的百度迁徙迁入、迁出数据分析(三)

百度迁徙定义

百度迁徙释义:

百度迁徙以用户常住地所在地市或停留超过一天的非常住地定义为出发城市,以用户离开出发城市,并在非出发城市停留超过4 h以上定义为到达城市。采用4h阈值,排除了城际出行中的途经地。

定义参考来源:人口迁居视角下的中国人口城镇化空间格局——基于百度迁徙数据的研究 - 中国知网 (cnki.net)

 是钮心毅这位博导的2023年9月的文章,并在文中感谢了百度慧眼官方的支持,所以这个定义大概率是官方给出的定义,可以更明确的指导我们对数据的应用;

历史数据可溯源的时间区间

这里补充一历史迁徙数据来源可以溯源的时间区间,上次只是粗略测了一下,这次给出具体可以获取的历史数据时间区间;

这里以上海迁入为例,打开“开发人员工具”,快捷键Ctrl+Shift+i,点击网络,快捷键Ctrl+R刷新页面;

快捷键Ctrl+F,搜索historycurve,找到这个文件,双击打开;huiyan.baidu.com/migration/historycurve.jsonp?dt=province&id=310000&type=move_in&callback=jsonp_1722252952677_1248358

我们可以看到百度迁徙数据记录了这个城市从2019年1月12日到2019年3月9日,2023年1月4日到今天的所有迁徙指数,所以我们可以查到历史数据的范围就明确了(20190112, 20190309),(20240104, 20240728),也就是直到今天的截止日期前一天的数据;

当然这些数据看着密密麻麻比较费眼神,我们把它导出.csv,编码用了''gb18030 ''支持简体中文、繁体中文以及一些少数民族的文字,是一种比较全面的中文编码方案;

import pandas as pd
import requests
import json
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retrydef get_migration_index(direction):# 创建一个会话对象来保持请求之间的状态session = requests.Session()# 定义重试策略以应对连接问题retry_strategy = Retry(connect=5, backoff_factor=0.5)# 设置 HTTP 和 HTTPS 适配器,并应用重试策略adapter = HTTPAdapter(max_retries=retry_strategy)session.mount('http://', adapter)session.mount('https://', adapter)# 定义 CSV 文件保存的路径file_path = './'try:# 动态构建 URLurl = f'https://huiyan.baidu.com/migration/historycurve.jsonp?dt=city&id=310000&type={direction}'# 发送 GET 请求response = session.get(url)# 检查响应状态码response.raise_for_status()  # 如果响应状态码不是 200,则抛出异常# 获取响应文本并去除开头和结尾的不需要的部分response_text = response.text[4:-1]# 将处理后的文本转换为字典data_dict = json.loads(response_text)# 检查是否成功获取数据if data_dict['errmsg'] == 'SUCCESS':# 从字典中提取数据列表migration_data = data_dict['data']['list']# 创建一个 DataFrame 对象,将数据列表作为列,并转置以便按行存储dataframe = pd.DataFrame({f'上海市_{direction}': migration_data}).T# 保存 DataFrame 到 CSV 文件dataframe.to_csv(file_path + f'上海市历史迁{direction}指数.csv', encoding='gb18030')#  gb18030 支持简体中文、繁体中文以及一些少数民族的文字,是一种比较全面的中文编码方案print(f"数据已成功保存到 {file_path} 上海市历史迁{direction}指数.csv")else:print("未能成功获取数据,请检查 URL 或服务器响应。")except requests.exceptions.RequestException as e:print(f"请求过程中发生错误:{e}")except (KeyError, ValueError) as e:print(f"数据解析错误:{e}")# 调用函数,传入 'move_in' 参数表示迁入数据
get_migration_index('move_in')  #  迁出move_out

为了看着更加直观,对输出结果略做调整,这里只做示意,只要了解我们可以获取历史数据区间即可;

文章仅用于分享个人学习成果与个人存档之用,分享知识,如有侵权,请联系作者进行删除。所有信息均基于作者的个人理解和经验,不代表任何官方立场或权威解读。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • DOS攻击实验
  • 语音合成大模型汇总
  • Linux 4: Bash
  • 大模型学习笔记十四:Agent模型微调
  • Ubuntu20.04 设置静态ip
  • AI驱动的城市治理:露天商贩监测识别技术在街道安全管理中的应用
  • 主要的软件设计模式及其在Kotlin中的实现示例
  • 1480. 找字典码最小的字符串
  • 基于微信小程序的数字社区管理系统
  • 科学设计程序员面试内容,破解“八股文”之弊
  • 《计算机网络》(第8版)第八章 互联网上的音频/视频服务 复习笔记
  • 【数据结构】队列(链表实现 + 力扣 + 详解 + 数组实现循环队列 )
  • Hadoop3.3.5的安装与单机/伪分布式配置
  • 【odoo17 | Owl】前端js钩子调用列表选择视图
  • 《昇思25天学习打卡营第25天|第28天》
  • Angular Elements 及其运作原理
  • ES2017异步函数现已正式可用
  • Git学习与使用心得(1)—— 初始化
  • JavaScript类型识别
  • JavaScript新鲜事·第5期
  • leetcode388. Longest Absolute File Path
  • Lucene解析 - 基本概念
  • vue-cli在webpack的配置文件探究
  • webpack+react项目初体验——记录我的webpack环境配置
  • WebSocket使用
  • Yii源码解读-服务定位器(Service Locator)
  • 成为一名优秀的Developer的书单
  • 初识MongoDB分片
  • 从0到1:PostCSS 插件开发最佳实践
  • 给github项目添加CI badge
  • 机器学习 vs. 深度学习
  • 三分钟教你同步 Visual Studio Code 设置
  • 算法---两个栈实现一个队列
  • 推荐一个React的管理后台框架
  • ​【经验分享】微机原理、指令判断、判断指令是否正确判断指令是否正确​
  • ‌移动管家手机智能控制汽车系统
  • #systemverilog# 之 event region 和 timeslot 仿真调度(十)高层次视角看仿真调度事件的发生
  • #Z0458. 树的中心2
  • (+3)1.3敏捷宣言与敏捷过程的特点
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (10)Linux冯诺依曼结构操作系统的再次理解
  • (4)事件处理——(6)给.ready()回调函数传递一个参数(Passing an argument to the .ready() callback)...
  • (附源码)spring boot北京冬奥会志愿者报名系统 毕业设计 150947
  • (论文阅读30/100)Convolutional Pose Machines
  • (一)RocketMQ初步认识
  • (译)2019年前端性能优化清单 — 下篇
  • (转)http协议
  • (转)IOS中获取各种文件的目录路径的方法
  • (转)setTimeout 和 setInterval 的区别
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • *上位机的定义
  • .NET Framework Client Profile - a Subset of the .NET Framework Redistribution
  • .net mvc actionresult 返回字符串_.NET架构师知识普及
  • .Net Redis的秒杀Dome和异步执行