当前位置：首页 > news >正文

R语言入门 | 使用 dplyr 进行数据转换

news 来源：原创 2024/9/29 3:35:41

3.1简介

3.1.1准备工作

3.1.2 dplyr 基础

• 按值筛选观测（ filter() ）。

• 对行进行重新排序（ arrange() ）。

• 按名称选取变量（ select() ）。

• 使用现有变量的函数创建新变量（ mutate() ）。

• 将多个值总结为一个摘要统计量（ summarize() ）

3.2　使用 filter() 筛选行

filter() 函数可以基于观测的值筛选出一个观测子集。

filter(数据集，条件）

filter(flights, month == 1, day == 1)

注意：用双等号

进行赋值，保存数据集

jan1 <- filter(flights, month == 1, day == 1)

3.2.1　比较运算符

比较运算符：>、>=、<、<=、!=（不等于）和 ==（等于）

比较浮点数是否相等时，不能使用 ==，而应该使用 near()

3.2.2　逻辑运算符

& 表示“与”、| 表示 “或”、! 表示“非”。

filter(flights, month >= 5 | month <= 12)

filter(flights, month == 11 & day == 12)

而不是用&&，||(不要和C语言混淆）

简写形式：x %in% y

简化前：filter(flights, month == 1|month==3|month == 12)

简化后：filter(flights, month%in%c(1,3,12))

3.2.3　缺失值

is.na() 函数：确定一个值是否为缺失值

filter() 只能筛选出条件为 TRUE 的行；它会排除那些条件为 FALSE 和 NA 的行。如果想保

留缺失值，需要明确指出

3.2.4 练习

a. 到达时间延误 2 小时或更多的航班。
filter(flights,arr_delay>=120)
b. 飞往休斯顿（IAH 机场或 HOU 机场）的航班。
filter(flights,dest=="TAH"|dest=="HOU")
c. 由联合航空（United）、美利坚航空（American）或三角洲航空（Delta）运营的航班。
filter(flights,carrier%in%c("AA","UA","DL"))
d. 夏季（7 月、8 月和 9 月）出发的航班。
filter(flights,month%in%c(7,8,9))
e. 到达时间延误超过 2 小时，但出发时间没有延误的航班。
filter(flights,arr_delay>120&dep_delay==0)
f. 延误至少 1 小时，但飞行过程弥补回 30 分钟的航班。
filter(flights,arr_delay>=60,(arr_delay-dep_delay)>=30)
g. 出发时间在午夜和早上 6 点之间（包括 0 点和 6 点）的航班。
filter(flights,dep_time<=600|dep_time==2400)

3.3　使用 arrange() 排列行

arrange() 函数：排序（默认升序）

参数：一个数据框和一组作为排序依据的列名

默认升序排列：

arrange（diamonds，price)

如果要降序排列：

arrange（diamonds，desc(price))

注意：如果列名不只一个，那么就使用后面的列在前面排序的基础上继续排

arrange(diamonds,cut,desc(price))

注意：NA数据总是排在最后（无论升序、降序）。

3.4　使用 select() 选择列

3.4.1select()函数

看到想要看的数据子集。

逗号：不连续筛选

冒号：连续筛选

# 按名称选择列

select (flights, year, month, day)

# 选择“ year ”和“ day ”之间的所有列（包括“ year ”和“ day ”）

select (flights, year : day)

# 选择不在“ year ”和“ day ”之间的所有列（不包括“ year ”和“ day ”）

select (flights, -(year : day))

3.4.2一些辅助函数

starts_with("abc") ：匹配以“ abc ”开头的名称。

• ends_with("xyz") ：匹配以“ xyz ”结尾的名称。

• contains("ijk") ：匹配包含“ ijk ”的名称。

• matches("(.)\\1") ：选择匹配正则表达式的那些变量。这个正则表达式会匹配名称中有

重复字符的变量。

• num_range("x", 1:3) ：匹配 x1 、 x2 和 x3 。

rename() 函数:重命名变量

rename(flights, deptime = dep_time)

参数1：数据集参数2：修改后参数3：修改前

select() 函数+everything() 辅助函数

可将几个指定变量移到数据框开头，其余变量依次排序：

select(flights, time_hour, air_time, everything())

3.5　使用 mutate() 添加新变量

mutate()函数：添加新列

flights_sml <- select(flights,year:day,ends_with("delay"),distance,air_time)

mutate(flights_sml,gain = arr_delay - dep_delay,speed = distance / air_time * 60)

一旦创建，新列就可以立即使用：

mutate(flights_sml, gain = arr_delay - dep_delay, hours = air_time / 60, gain_per_hour = gain / hours )

transmute() 函数：只保留新变量，其余不要

3.5.1　常用创建函数

算术运算符

+、-、*、/、^

%/%（整数除法）

%%（求余）

对数函数

log()、log2() 和 log10()

偏移函数

lead() 和 lag() 函数可以返回一个序列的领先值和滞后值。

cumsum()累加和

cumprod()累加积

commin() 累加最小值

cummax()累加最大值

cummean() 累加均值

排秩

rank函数（排名）（默认升序）（从低到高）

desc函数（倒序）（从高到低）

区别sort（排序）：

minrank()函数

出现相同元素时，用minrank()排名，rank()算积分

练习：使用排秩函数找出 10 个延误时间最长的航班。如何处理名次相同的情况？仔细阅读
min_rank() 的帮助文件。

3.6　使用 summarize() 进行分组摘要

summarize()：可以将数据框折叠成一行

summarize(flights, delay = mean(dep_delay, na.rm = TRUE))

na.rm = TRUE：移除NA值

group_by()

可以将分析单位从整个数据集更改为单个分组

by_day <- group_by(flights, year, month, day)
summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))

得到每一天的平均延误时间：

练习：找平均延误时间最长的10个城市

by_city=group_by(flights,dest)%>%summarize(avg_delay=mean(arr_delay,na.rm=TRUE))%>%mutate(r=min_rank(desc(avg_delay)))%>%filter(r<=10)

不同加工钻石平均价格和数量
by_cut <- group_by(diamonds, cut)
summarize(by_cut, mean_price = mean(price,count=n(), na.rm = TRUE))

3.6.1　使用管道组合多种操作

常规做法

by_dest <- group_by(flights, dest) //根据目的地分组

delay <- summarize(by_dest,

count = n(),

dist = mean(distance, na.rm = TRUE),

delay = mean(arr_delay, na.rm = TRUE)

) //研究每个目的地的距离和平均延误时间之间的关系

delay <- filter(delay, count > 20, dest != "HNL") //在delay中去除起飞量20以下的，去除目的地HNL的

ggplot(data = delay, mapping = aes(x = dist, y = delay)) +
geom_point(aes(size = count), alpha = 1/3) +
geom_smooth(se = FALSE)

管道做法

%>%就像一根管道一样，把前面的命令结果传给后面地命令作为参数。可以理解为“然后”。

delays <- flights %>%

group_by(dest) %>%

summarize(

count = n(),

dist = mean(distance, na.rm = TRUE),

delay = mean(arr_delay, na.rm = TRUE)

) %>%

filter(count > 20, dest != "HNL")

3.6.2　缺失值

方法一：

flights %>% group_by(year, month, day) %>% summarize(mean = mean(dep_delay, na.rm = TRUE ))

na.rm 参数：可以在计算前除去缺失值

方法二：提前处理na

not_cancelled <- flights %>% filter( !is.na(dep_delay), !is.na(arr_delay) )

not_cancelled %>% group_by(year, month, day) %>% summarize(mean = mean(dep_delay))

3.6.3　计数

1.n() （需要na.rm=TRUE)

delays <- not_cancelled %>%

group_by(tailnum) %>%

summarize(

delay = mean(arr_delay, na.rm = TRUE ),

count = n()

)

2.非缺失值的计数（sum(!is_na())）

注：数据来源Lahman 包中Batting数据集

# 转换成tibble，以便输出更美观

batting <- as_tibble(Lahman::Batting)

batters <- batting %>%

group_by(playerID) %>%

summarize(

ba = sum(H, na.rm = TRUE) / sum(AB, na.rm = TRUE),

ab = sum(AB, na.rm = TRUE) //能力（ba）和击球机会数量（ab）

)

batters %>%

filter(ab > 100) %>% //筛选出击打球数量超过100的球员，避免偶然情况

ggplot(mapping = aes(x = ab, y = ba)) +

geom_point() +

geom_smooth(se = FALSE)

结论：说明球员出场次数越多，命中率越高，但当出场次数足够多时，能力也就趋于稳定了。

最后我们来找出最伟大的十个球员。

batters%>%filter(ab>1000)%>%arrange(desc(ba))

3.6.4　常用的摘要函数

为了后面方便演示，我们先对没有取消的航班建立一个数据集
not_cancelled<-flights%>%filter(!is.na(dep_delay),!is.na(arr_delay))

位置度量

mean(x)：平均数

median(x)：中位数

not_cancelled %>%

group_by(year, month, day) %>%

summarize(

# 平均延误时间：

avg_delay1 = mean(arr_delay),

# 平均正延误时间：

avg_delay2 = mean(arr_delay[arr_delay > 0])

)

分散程度度量

sd(x)：均方误差/标准误差

IQR(x)：四分位距

mad(x)：差 mad(x)

Q:为什么到某些目的地的距离比到其他目的地更多变？

not_cancelled %>%

group_by(dest) %>%

summarize(distance_sd = sd(distance)) %>%

arrange(desc(distance_sd))

秩的度量

min(x)

quantile(x, 0.25): 分位数，这里会找出 x 中按从小到大顺序大于前 25% 而小于后 75% 的值

max(x)

Q: 每天最早和最晚的航班何时出发？

not_cancelled %>%

group_by(year, month, day) %>%

summarize(

first = min(dep_time),

last = max(dep_time)

)

Q：找出不同加工钻石中最贵和最便宜的

diamonds %>%
group_by(cut) %>%
summarize(
cheapest = min(price),
most_exp = max(price)
)

定位度量

first(x)：与 x[1] 相同

nth(x, 2)：与x[2] 相同

last(x)：与x[length(x)] 相同

记得先排序再使用。

diamonds %>%
group_by(cut) %>%arrange(desc(price))%>%
summarize(
cheapest = last(price),
most_exp = first(price)
)

range(r）

给出范围中的最小值和最大值

#每天起飞最晚和最早的航班
not_cancelled %>% + group_by(year, month, day) %>% + mutate(r = min_rank(desc(dep_time))) %>% + filter(r %in% range(r))

#找出不同加工钻石中最贵的那一颗和最便宜的那一颗
diamonds %>%
+     group_by(cut) %>%
+     mutate(r = min_rank(desc(price))) %>%
+     filter(r %in% range(r))

计数

n_ distinct(x) 唯一值，统计时去除重复的情况

通过下面这个简单的例子，我们来看看n()函数和n_distinct()函数的区别
y=c("aa","aa","ua","ua","dl")
> demo=data.frame(y)

# 哪个目的地具有最多的航空公司？

not_cancelled %>%

group_by(dest) %>%

summarize(carriers = n_distinct(carrier) ) %>%

arrange(desc(carriers))

飞往ATL,BOS,,CLT,ORD,TPA的航空公司最多。

count(x)

用于只需要计数的情况

#每个颜色的钻石有多少颗？

diamonds%>%count(color)
比这样写简单：diamonds%>%group_by(color)%>%summarise(n=n())

还可以选择提供一个加权变量。例如，你可以使用以下代码算出每架飞机飞行的总里程

数（实际上就是求和）
not_cancelled%>%count(tailnum,wt=distance)

逻辑值的计数和比例

sum(x > 10) 和 mean(y == 0)

当与数值型函数一同使用时， TRUE 会转换为 1 ， FALSE 会转换为 0 。

这使得 sum() 和 mean() 非常适用于逻辑值：sum(x) 可以找出 x 中 TRUE 的数量， mean(x) 则可以找出TRUE比例。

sum(x<51)

此时，统计的是满足条件的个数

not_cancelled %>%

group_by(year, month, day) %>%

summarize(n_early = sum(dep_time < 500))

#每天的红眼航班（五点前出发）有几班？

mean(arr_delay > 60)

# 延误超过1小时的航班比例是多少？

not_cancelled %>%

group_by(year, month, day) %>%

summarize(hour_perc = mean(arr_delay > 60))

3.6.5　按多个变量分组

循序渐进地进行摘要分析

daily <- group_by(flights, year, month, day)

(per_day <- summarize(daily, flights = n()))
(per_month <- summarize(per_day, flights = sum(flights)))

(per_year <- summarize(per_month, flights = sum(flights)))

3.6.6　取消分组

ungroup()函数：取消分组

daily<-group_by(flights,year,month,day)

daily%>%ungroup()%>%summarize(n())

3.7　分组新变量（和筛选器）

diamonds%>%group_by(color)%>%filter(min_rank(desc(price))<=5)

不同颜色钻石中最贵的5颗钻石popular_dests % group_by(dest) %>% filter(n() > 365)

popular_dests %>% filter(arr_delay > 0) %>% mutate(prop_delay = arr_delay / sum(arr_delay)) %>% select(year:day, dest, arr_delay, prop_delay)

redis 集群底层原理以及实操

C++修改文件后缀名；链表循环删除乘积为10的元素

手摸手教你uniapp原生插件开发

【ai】livekit：Agents 3 ： pythonsdk和livekit-agent的可编辑模式下的安装

朋友圈定时发送设置

华发股份：加强业务协同新政下项目热销

Go语言 gRPC 简述

2018 年山东省职业院校技能大赛高职组“信息安全管理与评估”赛项任务书

如何从异步调用中返回响应

new CCDIKSolver( OOI.kira, iks )； // 创建逆运动学求解器

internvl-chat部署

效果炸裂！使用 GPT-4o 快速实现LLM OS

Linux源码编译安装MySQL + Qt连接MySQL

告别虚拟机，在Windows10启动Linux子系统

C#面：DataReader与Dataset有什么区别

[NodeJS] 关于Buffer

angular2开源库收集

ECS应用管理最佳实践

gops —— Go 程序诊断分析工具

iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码

JS学习笔记——闭包

Linux编程学习笔记 | Linux多线程学习[2] - 线程的同步

Nacos系列：Nacos的Java SDK使用

Perseus-BERT——业内性能极致优化的BERT训练方案

Python进阶细节

React+TypeScript入门

vue：响应原理

vue-router的history模式发布配置

Vultr 教程目录

关于使用markdown的方法（引自CSDN教程）

名企6年Java程序员的工作总结，写给在迷茫中的你！

前端之React实战：创建跨平台的项目架构

十年未变！安全，谁之责？（下）

使用API自动生成工具优化前端工作流

说说动画卡顿的解决方案

用element的upload组件实现多图片上传和压缩

# SpringBoot 如何让指定的Bean先加载

#14vue3生成表单并跳转到外部地址的方式

#我与Java虚拟机的故事#连载07：我放弃了对JVM的进一步学习

$.proxy和$.extend

（附源码）springboot社区居家养老互助服务管理平台毕业设计 062027

(附源码)计算机毕业设计大学生兼职系统

(佳作)两轮平衡小车（原理图、PCB、程序源码、BOM等）

（三）centos7案例实战—vmware虚拟机硬盘挂载与卸载

（图文详解）小程序AppID申请以及在Hbuilderx中运行

（未解决）macOS matplotlib 中文是方框

(原創) 如何將struct塞進vector? (C/C++) (STL)

(转)setTimeout 和 setInterval 的区别

（转）Unity3DUnity3D在android下调试

(转)拼包函数及网络封包的异常处理(含代码)

.NET BackgroundWorker

.NET Core中Emit的使用

.Net MVC4 上传大文件，并保存表单

.net refrector

.Net 高效开发之不可错过的实用工具

3.1简介

3.1.1准备工作

3.1.2 dplyr 基础

3.2 使用 filter() 筛选行

3.2.1 比较运算符

3.2.2 逻辑运算符

3.2.3 缺失值

3.2.4 练习

3.3 使用 arrange() 排列行

3.4 使用 select() 选择列

3.4.1select()函数

3.4.2一些辅助函数

3.5 使用 mutate() 添加新变量

3.5.1 常用创建函数

算术运算符

对数函数

偏移函数

排秩

3.6 使用 summarize() 进行分组摘要

3.6.1 使用管道组合多种操作

常规做法

管道做法

3.6.2 缺失值

3.6.3 计数

3.6.4 常用的摘要函数

位置度量

分散程度度量

秩的度量

定位度量

range(r）

计数

逻辑值的计数和比例

3.6.5 按多个变量分组

3.6.6 取消分组

3.7 分组新变量（和筛选器）

相关文章：

3.2　使用 filter() 筛选行

3.2.1　比较运算符

3.2.2　逻辑运算符

3.2.3　缺失值

3.3　使用 arrange() 排列行

3.4　使用 select() 选择列

3.5　使用 mutate() 添加新变量

3.5.1　常用创建函数

3.6　使用 summarize() 进行分组摘要

3.6.1　使用管道组合多种操作

3.6.2　缺失值

3.6.3　计数

3.6.4　常用的摘要函数

3.6.5　按多个变量分组

3.6.6　取消分组

3.7　分组新变量（和筛选器）