当前位置：首页 > news >正文

基于python的百度迁徙迁入、迁出数据分析（三）

news 来源：原创 2024/9/21 23:24:53

百度迁徙定义

百度迁徙释义：

百度迁徙以用户常住地所在地市或停留超过一天的非常住地定义为出发城市，以用户离开出发城市，并在非出发城市停留超过4 h以上定义为到达城市。采用4h阈值，排除了城际出行中的途经地。

定义参考来源：人口迁居视角下的中国人口城镇化空间格局——基于百度迁徙数据的研究 - 中国知网 (cnki.net)

是钮心毅这位博导的2023年9月的文章，并在文中感谢了百度慧眼官方的支持，所以这个定义大概率是官方给出的定义，可以更明确的指导我们对数据的应用；

历史数据可溯源的时间区间

这里补充一历史迁徙数据来源可以溯源的时间区间，上次只是粗略测了一下，这次给出具体可以获取的历史数据时间区间；

这里以上海迁入为例，打开“开发人员工具”，快捷键Ctrl+Shift+i，点击网络，快捷键Ctrl+R刷新页面；

快捷键Ctrl+F，搜索historycurve，找到这个文件，双击打开；huiyan.baidu.com/migration/historycurve.jsonp?dt=province&id=310000&type=move_in&callback=jsonp_1722252952677_1248358

我们可以看到百度迁徙数据记录了这个城市从2019年1月12日到2019年3月9日，2023年1月4日到今天的所有迁徙指数，所以我们可以查到历史数据的范围就明确了(20190112, 20190309)，(20240104, 20240728)，也就是直到今天的截止日期前一天的数据；

当然这些数据看着密密麻麻比较费眼神，我们把它导出.csv，编码用了''gb18030 ''支持简体中文、繁体中文以及一些少数民族的文字，是一种比较全面的中文编码方案；

import pandas as pd
import requests
import json
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retrydef get_migration_index(direction):# 创建一个会话对象来保持请求之间的状态session = requests.Session()# 定义重试策略以应对连接问题retry_strategy = Retry(connect=5, backoff_factor=0.5)# 设置 HTTP 和 HTTPS 适配器，并应用重试策略adapter = HTTPAdapter(max_retries=retry_strategy)session.mount('http://', adapter)session.mount('https://', adapter)# 定义 CSV 文件保存的路径file_path = './'try:# 动态构建 URLurl = f'https://huiyan.baidu.com/migration/historycurve.jsonp?dt=city&id=310000&type={direction}'# 发送 GET 请求response = session.get(url)# 检查响应状态码response.raise_for_status()  # 如果响应状态码不是 200，则抛出异常# 获取响应文本并去除开头和结尾的不需要的部分response_text = response.text[4:-1]# 将处理后的文本转换为字典data_dict = json.loads(response_text)# 检查是否成功获取数据if data_dict['errmsg'] == 'SUCCESS':# 从字典中提取数据列表migration_data = data_dict['data']['list']# 创建一个 DataFrame 对象，将数据列表作为列，并转置以便按行存储dataframe = pd.DataFrame({f'上海市_{direction}': migration_data}).T# 保存 DataFrame 到 CSV 文件dataframe.to_csv(file_path + f'上海市历史迁{direction}指数.csv', encoding='gb18030')#  gb18030 支持简体中文、繁体中文以及一些少数民族的文字，是一种比较全面的中文编码方案print(f"数据已成功保存到 {file_path} 上海市历史迁{direction}指数.csv")else:print("未能成功获取数据，请检查 URL 或服务器响应。")except requests.exceptions.RequestException as e:print(f"请求过程中发生错误：{e}")except (KeyError, ValueError) as e:print(f"数据解析错误：{e}")# 调用函数，传入 'move_in' 参数表示迁入数据
get_migration_index('move_in')  #  迁出move_out

为了看着更加直观，对输出结果略做调整，这里只做示意，只要了解我们可以获取历史数据区间即可；