当前位置: 首页 > news >正文

附代码 |详解R语言的高级数据结构

有时数据需要比向量更复杂的存储方式。幸运的是,R软件提供了很多的数据结构。常见的有数据框(data.frame)、矩阵(matrix)、列表(list)以及(array)。数据框类似于电子表格,矩阵类似于人们熟悉的矩阵数学计算,列表对于程序员比较熟悉。

 

01

数据框

数据框是R语言中最有用的功能之一,它也是R语言的易用性经常被提及的原因之一。直观上,数据框就像Excel电子表格一样有列和行。在统计上,每列代表一个变量,每行代表一个观测。

 

在数据框中,每列实际是个向量,都有相同的长度。数据框可以用来保存不同数据类型的数据。这也暗示着,每列的每个元素必须是相同数据类型的,类似向量的要求。创建数据框有很多种方式,最简单的是用data.frame函数。这里用前面介绍过的向量x、y、q创建一个基本的数据框。

这里创建了一个由3个向量组成的10行3列的数据框。注意theDF的名字也是变量。实际上,可以在创建数据框的过程中设置变量名字。

数据框是具有很多属性的复杂对象。最常检查的属性是行数和列数,用nrowncol函数分别得到数据框的行数和列数,而dim函数可以同时得到数据框的行数和列数。

 

数据框的列名字用names函数获取。names函数返回一个字符向量,列出所有的列名。由于是向量,可以访问它的每一个元素。

 

也可以获取和指定数据框的行名字

 

有时一个数据框有太多的行,以至于不能在屏幕上全部显示出来,这时,可以用head函数显示出前几行。

像其他变量一样,用class函数获取数据框所属的类。

 

列表框的每列是独立的向量,因此,每列都有它自己的类,可以单独被访问。R语言有多种方法来访问每个列,比如操作符方括号。theDF$Sport得到theDF的第三列,这说明允许通过列名来指定特定的列。

与向量相似,数据框允许使用方括号通过位置访问单个元素,但是要用两个位置指定,而不是向量中的一个位置。第一个是行数,第二个是列数。用theDF[3,2]可以得到theDF的位于第三行第二列的元素。

 

可以用向量来索引更多的行或者列。

通过指定行而不指定任何列可以访问一整行。同样,可以指定列而不指定任何行来访问一整列。

 


将列参数指定为字符向量可以以列名访问多列。


访问指定列的另外一种方式是把列的名字(索引数)作为方括号里的第二个参数,或者作为单方括号或双方括号里的唯一参数。

 

这些方法的输出不尽相同。有些返回一个向量,有些返回一个单列的数据框。为了确保输出单列的数据框,使用单方括号,同时指定第三个参数:drop=FALSE。通过列索引数指定某列也同样适用。

 

factor的特殊存储形式也可以表示成数据框的形式,为此用model.matrix创建一个指示变量(或哑变量)的集合。列代表factor的水平值,每行里,对应水平值的那行为1,其他为0。

 

 

 

02

列表

R语言的列表是一个容器,可以存储相同类型或者不同类型的数据列表可以存储任意数量、任意类型的对象。列表可以全部包含数值型或者字符型数据,也可以包含两种数据类型的混合,以及数据框或者其他列表。

列表用list函数创建,函数的参数即为列表的元素。

 

注意,前面创建列表list3的代码块被括号整个括起来,使得执行的结果被打印出来。

像数据框一样,列表也可以有名字。列表中每个元素都有唯一的名字,可以使用names函数查看或设置名字。

 

 

列表元素的名字也可以在创建的过程中用名字-值成对指定。

 

令人惊奇的是,可以用vector创建指定长度的空列表

 

双方括号,通过设定元素编号元素名字,可以访问列表的单个元素。注意这种方式一次只能访问一个元素。

 

如果实际使用的元素在一个被访问的元素中,可以通过元素的嵌套索引来访问。

使用索引(数字或名字)可以对列表增加元素,前提是该索引事先不存在列表中。

 

偶尔对列表或向量或数据框增加元素都还好,但是,如果反复这样做计算代价就太高了。所以最好创建指定长度的列表,然后通过合适的索引增加元素。

 

03

矩阵

对统计非常重要的数学结构是矩阵。矩阵跟数据框有点相似,是一个矩形结构,具有行和列,每列的数据类型相同,每个元素的数据类型也相同一般都是数值型。矩阵跟向量相似,也可以进行元素与元素的加法、减法、乘法、除法、等式运算。nrow、ncol和dim函数的使用方法与数据框的类似。

 

 

矩阵乘法是常用的数学运算,要求左边矩阵的列数等于右边矩阵的行数。矩阵A和B都是5×2矩阵,所以为了能让矩阵B放在右边进行矩阵乘法运算,需要对矩阵B取转置

 

另外一个跟数据框相似的地方是,矩阵也有行和列的名字。

 

 

有两个特殊的向量,letters和LETTERS,分别由小写字母和大写字母组成。

对矩阵取转置进行矩阵乘法的时候,需要注意乘积结果。转置会置换行和列的名字。矩阵乘积的行名字取自左边矩阵的行名字,矩阵乘积的列名字取自右边矩阵的列名字。

 

04

数组

本质上,数组是一个多维向量,它的所有元素必须是相同类型,用方括号访问单个元素。方括号里第一个参数是行索引,第二个参数是列索引,剩下的参数是维度

 

 

数组和矩阵最主要的不同是,矩阵只能是二维,而数组可以是任意维度

数据的数据类型和结构太多的话,会对一些分析环境带来问题,但是R语言都能从容应对。R语言中最基础的数据结构是一维向量。功能最强大的数据结构是数据框(在其他语言中都没有),可以像电子表格一样处理混合数据类型。列表多用于存储数据集合,有点像Perl中的散列表。

本文摘编于《R语言:实用数据分析与可视化技术》

点击链接了解详情并购买

本书借鉴数据科学家Jared P Lander在R语言上丰富的教学经验,通过大量实例,详细讲解R语言的核心功能。对于刚接触统计程序和模型的人,本书的内容组织结构使得学习R语言相当简单和直观。本书主要介绍R语言中20%的核心功能,但是这20%的功能足以让你解决80%的现代数据分析

更多精彩回顾

书讯 |华章计算机拍了拍你,并送来了8月书单(下)

书讯 | 华章计算机拍了拍你,并送来了8月书单(上)

上新 | 迁移学习:迈向真正的人工智能
书单 | “ABCD”,未来颇具潜力的四大信息技术方向

干货 | 周志华新作《机器学习理论导引》阅读攻略

收藏 | DB-Engines 8 月数据库排名:Redis悄悄拔高,猛超Elasticsearch


相关文章:

  • 阿里巴巴、微软推出的云原生管理工具与理念
  • 机器学习没前途了?6本书,给你一个突破瓶颈的学习路径
  • 揭秘阿里巴巴的客群画像
  • 《天才引导的历程》| 西安交通大学送给准大一新生的礼物
  • 会议:2020年CCF全国计算机体系结构学术年会
  • 后分布式追踪时代的性能问题定位——方法级性能剖析[文末彩蛋】
  • 三个男人一台戏,为云原生应用和OpenShift写了一本书
  • 机器人干活,我坐一边喝茶——聊聊最近爆火的RPA
  • 大咖发声 | 没有开发团队,如何做数字化转型?
  • JavaScript vs TypeScript哪家强?
  • 首本深入讲解Linux内核观测技术BPF的书上市!
  • AI不止能美颜,美妆迁移这样做
  • 【第17期】云原生应用:任何企业都是软件公司
  • 如何从0到1搭建大数据平台
  • 策略产品经理实践:主观评估的方法论
  • [微信小程序] 使用ES6特性Class后出现编译异常
  • 0基础学习移动端适配
  • CSS相对定位
  • ES学习笔记(10)--ES6中的函数和数组补漏
  • Eureka 2.0 开源流产,真的对你影响很大吗?
  • Javascript编码规范
  • JS函数式编程 数组部分风格 ES6版
  • mysql中InnoDB引擎中页的概念
  • Octave 入门
  • Python中eval与exec的使用及区别
  • Redis 中的布隆过滤器
  • SpiderData 2019年2月16日 DApp数据排行榜
  • 浏览器缓存机制分析
  • 体验javascript之美-第五课 匿名函数自执行和闭包是一回事儿吗?
  • ​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • ${ }的特别功能
  • ( 用例图)定义了系统的功能需求,它是从系统的外部看系统功能,并不描述系统内部对功能的具体实现
  • (02)Hive SQL编译成MapReduce任务的过程
  • (1)(1.13) SiK无线电高级配置(六)
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (第一天)包装对象、作用域、创建对象
  • (二)基于wpr_simulation 的Ros机器人运动控制,gazebo仿真
  • (附源码)spring boot智能服药提醒app 毕业设计 102151
  • (附源码)springboot工单管理系统 毕业设计 964158
  • (黑马C++)L06 重载与继承
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (转载)Linux网络编程入门
  • . NET自动找可写目录
  • ./和../以及/和~之间的区别
  • .naturalWidth 和naturalHeight属性,
  • .NET Remoting学习笔记(三)信道
  • .NETCORE 开发登录接口MFA谷歌多因子身份验证
  • /etc/motd and /etc/issue
  • @GlobalLock注解作用与原理解析
  • @modelattribute注解用postman测试怎么传参_接口测试之问题挖掘
  • @德人合科技——天锐绿盾 | 图纸加密软件有哪些功能呢?
  • [ 数据结构 - C++]红黑树RBTree
  • [2013][note]通过石墨烯调谐用于开关、传感的动态可重构Fano超——